Řeč je nejběžnějším komunikačním prostředkem po celém světě. Většina populace na světě spoléhá při vzájemné komunikaci na řeč. Předpokládejme, že vytváříme model a místo písemného přístupu chceme, aby náš systém reagoval na řeč, je to docela obtížné a vyžaduje velké množství dat, které se mají zpracovat. Systém rozpoznávání řeči překonává tuto bariéru překladem řeči do textu. V tomto blogu projdeme rozpoznáváním řeči modul v pythonu . Zde je seznam stejných:
- Jak funguje rozpoznávání řeči?
- Jak nainstalovat rozpoznávání řeči v Pythonu?
- Vstup z mikrofonů
- Jak nainstalovat Pyaudio v Pythonu?
- Pouzdro
Jak funguje rozpoznávání řeči?
Systém rozpoznávání řeči v zásadě převádí mluvené projevy na text. Existuje mnoho reálných příkladů systému rozpoznávání řeči. Například - siri, který bere řeč jako vstup a překládá ji do textu.
Výhodou používání systému rozpoznávání řeči je, že překonává bariéru gramotnosti. Model rozpoznávání řeči může sloužit jak gramotnému, tak negramotnému publiku, protože se zaměřuje na mluvené projevy.
Můžeme také vytvořit soupis všech ohrožených jazyků po celém světě pomocí systému rozpoznávání řeči. I když to vypadá docela zajímavě a vůbec to není složité, systém rozpoznávání řeči stojí před mnoha výzvami.
Výzvy, kterým čelí rozpoznávání řeči Systém
jak najít palindrom v javě
Systém rozpoznávání řeči se stává obtížným, protože máme tolik zdrojů variability, pokud jde o řeč.
Styl mluvení
Každý jednotlivec má různý styl mluvení, včetně akcentů. Jak všichni víme, máme různé akcenty i pro mluvení anglicky. Pokud jde o mluvení nejběžnějším jazykem na světě, existuje americká angličtina, britská angličtina a mnoho dalších přízvuků. Výslovnost také ztěžuje systému rozpoznávání řeči překládat řeč úplně.
životní prostředí
Prostředí také dodává systému hodně šumu na pozadí. Izolovaná místnost ve srovnání s hledištěm bude mít velkou variabilitu v pozadí. Dokonce i ozvěna může v systému přidat také hodně šumu.
Vlastnosti reproduktoru
Hlas starého člověka nemusí být stejný jako hlas kojence. Vlastnosti řeči člověka závisí na mnoha faktorech, včetně tvrdosti a jasnosti.
Jazyková omezení
Některé mluvené projevy nemusí mít při překladu životaschopný význam.
Po překonání těchto výzev je docela možné, aby jakýkoli systém rozpoznávání řeči překládal řeč do textu. Nyní, když víme, jak funguje rozpoznávání řeči, pojďme se podívat na něco jiného které jsou k dispozici pro rozpoznávání řeči v pythonu.
Balíčky dostupné pro rozpoznávání řeči v pythonu
apiai
Rozpoznávání řeči
Google_speech_cloud
shromáždění
Kapesní sfinga
Watson_developer_cloud
bílý
Projdeme si podrobnosti balíčku SpeechRecognition v tomto blogu, pojďme se také podívat dolů do paměti, abychom pochopili, jak se systémy rozpoznávání řeči v průběhu let vyvíjely.
Úplně prvním prototypem rozpoznávání řeči byla ve skutečnosti hračka s názvem rádio rex který přišel kolem 20. let. Měl psa, který seděl v psím domě, který vyskočil, jakmile někdo vyslovil slovo rex.
Jediným problémem modelu bylo, že pružina byla připojena k elektromagnetu, který byl citlivý na energii v rozmezí kolem 500 Hz. Jelikož jde o čistě frekvenční detektor, lze jej na dálku označit jako model rozpoznávání řeči.
výkonová funkce v Javě pro celá čísla
V roce 1962 IBM přišla s botník model, který byl schopen rozpoznat izolovaná slova a také provést několik aritmetických operací.
Pak přišel LUPIČ z CMU, která dokázala rozpoznat spojenou řeč ze slovníku 1000 slov. Kolem 80. let začali lidé používat statistické modely a jedním z nejpoužívanějších paradigmat strojového učení byl skrytý markovský model.
Po zavedení hlubokých neuronových sítí pracuje většina modelů rozpoznávání řeči na neuronových sítích. Možnosti jsou s neuronovými sítěmi nepředstavitelné, slovní zásoba může dosáhnout až 10 000 slov a více.
Jak nainstalovat SpeechRecognition v Pythonu?
Chcete-li nainstalovat balíček SpeechRecognition je python, spusťte v terminálu následující příkaz a bude nainstalován do vašeho systému.
Dalším přístupem k tomu může být přidání balíčku od tlumočníka projektu, pokud používáte
Balíček má třídu Recognizer, což je v podstatě místo, kde se kouzlo děje. Je to v podstatě třída, která se používá k rozpoznání řeči. Následuje sedm metod, které umí číst různé zdroje zvuku pomocí různých API.
- rozpoznat_bing ()
- rozpoznat_google ()
- rozpoznat_google_cloud ()
- rozpoznat_houndify ()
- rozpoznat_ibm ()
- rozpoznat_wit ()
- rozpoznat_sphinx ()
Nyní lze rozpoznat_sphinx použít také ke spuštění systému rozpoznávání řeči offline. Vyžaduje instalaci Pocketsphinx.
importovat rozpoznávání řeči jako sr #instance třídy rozpoznávače r = sr.Recognizer ()
Vstup z mikrofonů
Abychom mohli mikrofony používat, budeme si muset nainstalovat také modul pyaudio. Třídu mikrofonu používáme k získání vstupní řeči z mikrofonu namísto jakékoli jiné metody zadávání, jako je zvukový soubor.
U většiny projektů můžeme použít výchozí mikrofony. Pokud si ale nepřejete použít výchozí mikrofon,seznam názvů mikrofonů získáte pomocí metody list_microphone_names.
K zachycení vstupu z mikrofonu používáme metodu poslechu.
importujte rozpoznávání řeči jako sr r = sr.Recognizer () se sr.Microphone () jako zdroj: audio = sr.listen (zdroj)
Jak nainstalovat Pyaudio v Pythonu?
Chcete-li nainstalovat Pyaudio v pythonu, spusťte v terminálu následující příkaz, nebo pokud používáte pycharm, přidejte balíček z tlumočníka projektu do nastavení.
Pouzdro
Vytvoříme program pomocí modulu speechrecognition v pythonu, který rozpozná řeč a provede následující:
- převést řeč na text
- otevřete URL pomocí modulu webového prohlížeče
- předat dotaz pomocí rozpoznávání řeči k vyhledání v url
Následuje program pro výše uvedené prohlášení o problému:
import řeč_rozpoznání jako sr import webový prohlížeč jako wb r1 = sr.Recognizer () r2 = sr.Recognizer () r3 = sr.Recognizer () se sr.Microphone () jako zdroj: print ('[search edureka: search youtube]') print ('speak now') audio = r3.listen (source) if 'edureka' in r2.recognize_google (audio): r2 = sr.Recognizer () url = 'https://www.edureka.co/' se sr .Mikrofon () jako zdroj: print ('prohledat váš dotaz') audio = r2.listen (zdroj) try: get = r2.recognize_google (audio) print (get) wb.get (). Open_new (url + get) kromě sr.UnknownValueError: print ('error') kromě sr.RequestError jako e: print ('failed'.format (e)) if' video 'in r1.recognize_google (audio): r1 = sr.Recognizer () url =' https://www.youtube.com/results?search_query= 'se sr.Microphone () jako zdrojem: tisk (' hledání videa ') audio = r2.listen (zdroj) try: get = r1.recognize_google (audio ) print (get) wb.get (). open_new (url + get) kromě sr.UnknownValueError: print ('could not understand') kromě sr.RequestError jako e: print (výsledky se nepodařilo získat). formát (e) )
Získáte výstup, jako by byl zobrazen na obrázku. Pokud řeknete edureka, vyzve vás k vyslovení dotazu, který chcete vyhledat v url edureka, kterou jsme napsali do proměnné url. Pokud řeknete python, zobrazí se vám v prohlížeči následující webová stránka.
V tomto blogu jsme diskutovali o tom, jak můžeme pomocí rozpoznávání řeči v pythonu překládat řeč na text pomocí balíčku speechrecognition. se stala potřebou hodiny pro koncepty, jako je rozpoznávání řeči nebo sklíčenost objektů, s které poskytují nepředstavitelné možnosti systémům rozpoznávání řeči, kde můžeme trénovat a testovat obrovská data řeči, abychom vytvořili systém. pro hluboké neuronové sítě, abyste si osvojili své dovednosti a nastartovali učení.
máte nějaké dotazy? uveďte je v komentářích, ozveme se vám.