Hlasové příkazy rychle pronikají do domácností, kanceláří, aut, mobilů, navigačních GPS i počítačů. Stažené aplikace do iPhonů již umožňují hlasové vyhledávání i přepisy záznamů s relativně malým procentem chyby, ovšem stále to ještě není ono… Ano, je to příliš strojové.
To se má ale změnit. „Začínáme objevovat inteligenci skrytou za řečí. Hledáme obsah, soustředíme se na sémantiku. Výhledově je možné využívat i další věci – rozpoznat osoby a prostředí, odstranit šumy, využít specifických znalostí, gest. Směřujeme k užívání přirozené řeči, aby se mluvčí na své požadavky nemusel nijak zvlášť soustředit,“ řekl týdeníku EURO Jan Kleindienst, ředitel vývoje české pobočky IBM.
Oblastí pro využití umělé řeči je bezpočet. Lékaři na urgentním příjmu by uvítali ihned po přívozu pacienta jeho nadiktovanou anamnézu, byznysmeni by rádi hledali klíčová slova z telekonferencí anebo si „prosvištěli“ audiovizuální shrnutí toho zásadního. Na tom všem se pracuje. A velký díl ve světovém měřítku hraje právě IBM. „Každý den se znásobuje množství nestrukturovaných dat: videa, konference… Poptávka po jejich správném uchopení se zvyšuje a rozšiřují se i byznys modely, jež toho budou umět využít. Sémantické vyhledávání v informacích bude dalším velkým skokem v IT,“ tvrdí Kleindienst.
Dle něj je i řečový výzkum IBM stále bližší zákazníkům a praktickým řešením. Loni vstoupila korporace do pětileté výzkumné spolupráce s Nuance, někdejším konkurentem na poli „voice recognition“, a také proto je bude stále více zajímat čeština. „Je vidět, že ve světě řečových technologií se síly přeskupují a velcí hráči se často dávají dohromady,“ říká informatik.
Rozmlouvání s internetem?
Počítačové firmy na řeč hodně sází a věří, že bude hitem s velkým H. Interní vize IBM nazývané Five in Five, které vždy prezentují pětici technologických novinek, jež v pěti letech ovládnou naše životy, mezi ně v roce 2006 zařadily vznik mobilních překladačů řeči a rok nato i hlasem ovládaný internet. Bez myší, bez klávesnic. Tyto technologie by radikálně změnily způsob, jakým se lidé dorozumívají. Američtí vojáci sice v Iráku užívali translátory do arabštiny, ale jak to s těmito vizemi reálně vypadá?
„Je to řízeno poptávkou. Musí existovat byznys model. Zájem jde vždy v několika vlnách, první vlaštovky v překladech jsou přes mobilní aplikace. Existují, vylepšují se, ale k přirozené konverzaci s cizojazyčným partnerem je zatím daleko…… V oblasti konferencí je potřeba vyřešit překrývání třeba deseti mluvčích, je potřeba pochopit nálady, umět pracovat s koktajícím speakerem, pochopit nonverbální signály, přidat rozpoznávání gest, která k přirozené lidské řeči neodmyslitelně patří. Práce je hodně, ale lidstvo se řeč učilo daleko déle než počítače,“ říká Kleindienst.
Česko v řeči boduje
Tradice řečového výzkumu je v Česku bohatá. Letos v USA zemřel kladenský rodák profesor Frederick Jelinek, jenž učil v IBM stroje mluvit a pomohl rozvoji tohoto oboru i ve vlasti. Dobře si vedou domácí univerzity: VUT v Brně, diktovací software pro tuzemské využití v právu a medicíně vyvinuly Západočeská univerzita v Plzni a Technická univerzita Liberec. „Myslím, že ve světě existuje povědomí o tom, jak si Češi umí vychovávat řečové inženýry. Česko má skutečně potenciál stát se silnou oblastí v řečových technologiích a hraje v tomto oboru již nyní významnou roli,“ tvrdí ředitel Kleindienst, jenž podporuje spolupráci s univerzitami. IBM nabízí studentům témata, projekty, kterých bylo vyřešeno již asi kolem pěti set.
„Výzkumníci IBM jsou v oboru řečových technologií opravdovou špičkou, silní jsou též Nuance a Microsoft,“ řekl před časem týdeníku EURO docent Jan Černocký, vedoucí řečového týmu Speech@FIT z Brna, který pravidelně sklízí ceny na zahraničních soutěžích v automatickém rozpoznávání jazyka mluvčího. Firma má po světě pět „řečových center“, vývojářské laboratoře jsou v izraelské Haifě nebo Indii, přičemž Praha neleží na okraji.
Monstra versus kamarádi
Nad čím se bádá nyní? „Hlavně nás zajímá posun kombinování řeči s jinými způsoby prezentace – naučit se zkombinovat gesta a mluvení do multimodálního systému, aby se zlepšila správnost a uživatelská přístupnost,“ vysvětluje Kleindienst. K tomu patří i „vícekanálový“ výstup, který lze ukázat na takzvané mluvící hlavě, již na Chodově mají. Jde o to, jak stroje naučit živější komunikaci včetně pokyvování, mimiky anebo obligátního „aha, hm, jasně“, které doplňují skutečnou komunikaci a přispívají k přirozenému dojmu z ní. Strojům je také potřeba vštípit onu world knowledge, pozadí hovorů, adaptaci na probírané téma a podobně.
Velikou otázkou je také personifikace, zosobnění mluvící věci. Máme jí říkat Hal, nebo Julča? Má být stylizována do pohádkové postavičky, anebo sexy blonďaté moderátorky? A jaký budeme mít vztah k čím dál lépe hovořícím robotům? Kybernetici hovoří o zlověstném údolí (Uncanny Valley). Lidé se stále více přibližují vzniku umělých tvorů, ale netušíme, jak na nás budou působit. S polidšťováním se to nesmí přehnat, v jisté chvíli se jich lidé začnou bát, leč po čase bude vývoj pokračovat – z monster se stanou běžní tvorové. „Z řečových technologií se čím dál více vyvíjí obecná věda o člověku. Je to bez přehánění cesta do hlubin lidského myšlení, ale větší kus této pouti je stále ještě před námi, dodává Kleindienst.“
Od ledničky po byznys
Obory, v nichž se mohou uplatnit řečové technologie:
* Hlasem ovládaná domácnost (světla, spotřebiče, topení)
* Hudební jukebox, video a TV programy (doma, v autě)
* Dopravní prostředky (chytrá auta, výtahy, infosystémy)
* Počítačová komunikace (hlasové pokyny na internetu)
* Byznysové konference (nahrávání, dohledávání slov)
* Přenosné překladače (včetně nejexotičtějších jazyků)
* Převod řeči do textu a zpět (diktování, audioslovníky)
* Bezpečnostní složky (identifikace hlasem, odposlechy)
* Telekomunikace (tísňová volání, firemní call centra)
* Sociální služby (obsluha invalidů, podpora důchodců)