Kapitánův deník, hvězdné datum 56844,9… Podobným mluveným záznamem s cílem mise neboli poodhalením zápletky začíná snad každý díl kultovního seriálu Star Trek. I diváci, kteří neumějí znělku sci-fi fenoménu zpaměti, zpravidla vědí, že s počítačem se uvnitř hvězdných lodí komunikuje hlasem a počítač odpovídá. Vysněná budoucnost je přitom blíže, než se zdá.
Jedním z velmi aktivních hráčů na poli hlasové komunikace s technologiemi je i internetový gigant Google. Poslední dobou se hodně mluví zvláště o jeho programech Voice Search a Voice Actions. Oba jsou dostupné na mobilních telefonech, druhý z nich funguje výhradně v angličtině. Naopak Voice Search si od nedávna mohou vyzkoušet i čeští uživatelé ve svém rodném jazyce.
Prýgl i šalina
„Na seznamu přání jsme měli češtinu delší dobu a zhruba ke konci loňského roku se nám podařilo přesvědčit naše newyorské kolegy, aby ji zařadili mezi první jazyky,“ říká Jaroslav Bengl, manažer curyšského vývojového centra Google, kde má na starost například zpracování map, ale pracoval i na lokalizaci Voice Search do češtiny. Ta se tak stala už desátým jazykem pro hlasové vyhledávání.
Fungování programu si mohou otestovat majitelé telefonů s platformou Android Eclair a Froyo (2,1 a 2,2) a přes aplikaci Google Mobile App i v případě mobilu iPhone. Stačí stisknout a podržet ikonku pro vyhledávání nebo tu se značkou mikrofonu a vyslovit povel. Může jít o adresu, otázku na velikost Sněžky, převod měn nebo i Křemílka a Vochomůrku.
Dotaz pak putuje do serverů společnosti, kde se mimo jiné zjišťují i pravděpodobnosti vyřčeného dotazu. Během chvilky na mobil přijde odpověď i se zadanou otázkou jako text.
Hlasový vstup pro vyhledávání je podivuhodná a chytlavá funkce. Většinou funguje bez problémů, ale nedá se na ní spoléhat úplně. Má-li tazatel výrazný přízvuk nebo vadu řeči, bude ho odpověď počítače zřejmě dost frustrovat a nejspíše mu nezbude než se vrátit ke klávesnici. Zásadový patriot využívající brněnský hantec asi také nedojde daleko, i když prýgl i šalinu program zná.
Komplikovanější věty jsou také oříškem. Ani se není čemu divit, z gramatického hlediska je čeština složitějším jazykem než angličtina. Proto i lokalizace do místní řeči zabrala několik měsíců. Sbírali se hlasové vzorky dobrovolníků, posílali se do New Yorku pro zpracování a výsledky přicházely zpět. Kontrola probíhala s pomocí zaměstnanců Googlu i prostřednictvím testovacího okruhu uživatelů.
Podle Googlu je program v češtině poměrně populární, hlavně u androidů, vzhledem k tomu že je tam použití nejjednodušší. Kolik přesně uživatelů funkci využívá, zůstává stejně jako procento chybovosti prozatím nezodpovězenou otázkou. Ale pro představu v USA u systému Froyo přichází až 25 procent dotazů hlasem.
Angličtina o krok dál
Šťastlivci žijící v USA mohou zajít ještě o krok dál s programem Voice Actions, jenž jim umožňuje hlasem ovládat velkou část funkcí telefonu. Po zmáčknutí „kouzelného tlačítka“ se dá rovnou začít nejen s vyhledáváním, telefonováním, ale třeba i poslat sms zprávu nebo e-mail, zaznamenat poznámku, spustit vybranou hudbu či nastavit budík. Pokud tedy trefíte ten správný povel.
„Největší problém podobných funkcí je, že lidé dosud neví, jak se stroji mluvit. V reálném životě dostanete nejlepší odpověď na detailní otázku, počítač naopak odpovídá nejlépe na dotaz pomocí pár klíčových slov. To pro mluvení není příliš přirozené. Zatím mě taková technologie nenadchla, ale bude zajímavé sledovat, kam se posune tak za pět let,“ stěžuje si například programátor Garett Rogers ve svém příspěvku na serveru zdnet.com.
Lidem, pro něž je angličtina druhým jazykem, to může připadat malicherné, po „drcení se“ speciálních frází jim asi nepřijde těžké zapamatovat si pár povelů typu „call, send e-mail to, listen to, map of“. Představa, že něco podobného půjde v češtině, je už o něco zajímavější. Které z výrazů pro „call“ si mezi „volej, zavolej, brkni, telefonuj, vytoč mi, hovor pro“ a řadou dalších variant vývojáři vyberou?
„Kdy budou další funkce i pro češtinu? To je jako z cimrmanů, nesmíme ani naznačovat,“ říká s nadsázkou Bengl. „Samozřejmě bychom rádi přidali další, jen konkrétní termín ještě nemáme,“ odpovídá vážně.
Růst ze vzorků
Ani vývoj aplikace pro anglický jazyk ale nebyl jednoduchý. Než došlo ke spuštění Google Search, byla k dispozici telefonická asistenční služba 1-800-GOOG-411. Uživatelé mohli zjistit adresy, telefonní čísla a další podobné informace, které vyhledávání v Googlu nabízí. Prostřednictvím bezplatné telefonické služby firma opět získávala hlasové vzorky.
„Veškerá hlasová data jsou uchovávána anonymně. Není způsob, jak propojit nahrávku hlasu uživatele s jeho identitou. Neuchováváme žádné identifikační údaje, tedy ani Google Account ID, ani číslo telefonu,“ dušuje se produktový manažer Amir Mané z newyorkského centra, že soukromí uživatelů není narušeno.
Firma si nahrávky uchovává maximálně dva roky. Konkrétní doba se liší podle toho, jak často je služba v daném jazyce nebo zemi využívána.
„Necháváme si je, abychom vylepšili schopnosti našeho systému rozpoznat správný dotaz. Modul se učí postupně, a to bez velkého množství nahrávek různých hlasů, ale i věkových skupin, přízvuku a nářečí není možné,“ dodává Mané.
Fantazii se meze nekladou
Voice Search je prakticky jen začátkem, využití pro hlasové vstupy je daleko širší. V podstatě se dá použít všude, kde zadáváte text – v autě nebo při chůzi na ulici se dá diktovat text SMS zprávy či zadávat fráze do překladače. Ve světových jazycích umí aplikace i přečíst výsledek, což je další z možných směrů vývoje.
Google překladač je i dobrým příkladem toho, jak dlouho asi bude rozvoj v českém jazyce trvat. Stačí si v počítači na webu zadat nějakou větu v češtině, nechat ji přeložit a pustit si výslovnost výsledku. Zatímco angličtina nebo španělština nejsou příliš vzdáleny reálnému mluvenému slovu, u českého jazyka vás počítačový hlas rozhodně neoblafne.
Budoucí vývoj aplikace nezáleží jen na Googlu, rozhraní pro využití hlasového ovládání totiž umožnil i „třetí straně“. Další programátoři mají zdarma k dispozici funkci zmiňovaného „mikrofonku“, již mohou zabudovat do vlastní aplikace. A k čemu je to dobré pro Google?
„Za prvé to lidé budou mít radši,“ odpovídá Bengl. „Větší popularitou se služba více rozšíří, pak se může ještě více technologicky posunout a samozřejmě i my se z toho více naučíme.“
Podobný princip jako u překladače by se dal použít v blízké budoucnosti například k automatickému otitulkování filmů, ostatně podobná možnost už teď existuje při nahrání krátkých videí v angličtině na server YouTube.
U dalších tipů pro vývoj nemusíte váhat použít fantazii. Nebyli byste daleko ani vývojářům. „Já jsem se do toho dal i proto, že mě inspiroval Star Trek. Tam je řada funkcí, které si můžete představit, a myslím, že už dnes jsme tomu dost blízko,“ říká se smíchem Mike LeBeau senior programátor Google v interview s TechCrunch TV.
Nejisté je, jak rychle i jak moc se tomu můžeme přiblížit. Třeba izolovat telefon či počítač jen na vlastní hlas by mohlo být celkem nebezpečné, vzhledem k tomu, že pak by s námi zvlášť v podzimních měsících stroj kvůli rýmě nekomunikoval. A umíte si představit, jak v openspace kanceláři mluví na své počítače i přes dvacet lidí najednou? Technologie jdou sice dopředu nezadržitelným tempem, rychleji než společnost a její zájem ale postupovat nebudou.