Menu Zavřít

Slyšte, slyšte budoucnost!

16. 4. 2009
Autor: Euro.cz

Česko se může stát světovým centrem rozpoznávání řeči, říká manažer IBM

A teď si poslechnu „pěknej nářez“ – třeba něco od Nine Inch Nails, řeknete si… Nemusíte si to ovšem říkat jen v duchu; myšlenku stačí vyslovit a elektronický parťák ve vašem autě nebo obýváku vybere dostupné možnosti. „Tuto kapelu nemáme. Mohu vám nabídnout píseň Voice Recognition Test od podobné skupiny Clock DVA?“ zeptá se automat, který může mít dokonce podobu mluvící hlavy, jež dokáže dělat společnost osamělým nebo invalidním lidem. Tohle už není žádná fikce! Hlasové příkazy rychle pronikají do domácností, kanceláří, aut, mobilů, navigačních GPS i počítačů. O to, aby vše fungovalo, se starají také čeští vývojáři IBM. „Řečové technologie mají zářnou budoucnost. V Česku už existuje silná koncentrace týmů, které se jimi zabývají. To je výborné. Z globálního hlediska jsou to specifické dovednosti, které může ČR využít v celosvětovém měřítku,“ řekl týdeníku EURO Jan Kleindienst, ředitel výzkumného a vývojového oddělení hlasových technologií české pobočky IBM.

Výzkum pro „velkou modrou“

Celosvětově se bádání u „Big Blue“ věnuje více než 3000 lidí. Loni vynaložila firma 6,3 miliardy dolarů na výzkum a investovat hodlá i letos. „Věříme ve výzkum a inovace. To je základ. Líheň nápadů. A řečové technologie jsou pro IBM něco jako brand-name,“ říká Kleindienst, doktor informatiky, jenž bádal i v americké centrále. Pražský „lab“ vznikl roku 1995, o což se zasloužil předcházející ředitel Jan Šedivý. Šlo zřejmě o sázku na nosnou kartu. Využití hlasu má obří potenciál. Sama firma, zaměstnávající přes 350 tisíc lidí, zařadila „řeč“ i do svých futuristických výhledů Five in Five. Mezi pětici novinek, jež mají během pěti let změnit naše životy, zařadili experti v roce 2006 vznik přenosných překladačů řeči a loni i vizi hlasem ovládaného internetu. Bez myší, bez klávesnic. Technologie by radikálně změnila způsob, jakým se lidé dorozumívají, jak vytvářejí informace a jak s nimi pracují.
„Analytici potvrzují, že řečové technologie budou důležité v oblasti mobilního internetu. Dnes jsme zvyklí na textové googlování, ale přijde čas, kdy budeme chtít všechny informace získat i venku. Na ulici bude nejvhodnější si o ně prostě jen říct,“ myslí si Kleindienst, dle něhož na totéž sázejí velcí hráči typu Microsoft a Google. „Podporují výzkum v řečové oblasti, protože stejně jako my vidí, že řeč má budoucnost jako vyšší forma komunikace člověka s počítačem. Důležitá bude transkripce, aby se dal zvukový objem dat přepsat do textu, a také překlad v reálném čase,“ dodává. IBM se výzkumem řeči zabývá od padesátých let. „Věnujeme se tomu šedesát let, učíme to počítače, ale vezměte si, že lidstvo se učilo mluvit miliony let! Dalším krokem je porozumění významu. Když to zvládneme, pochopíme i spoustu věcí o sobě, jako tomu bylo u kybernetiky,“ připomíná ředitel.

Poslušná trouba, chytřejší televize

Jednou z věcí, které v IBM na pražském Chodově vyvíjejí, je hlasové rozhraní pro ovládání televize. „Přepni na CNN. A teď na CNBC,“ instruuje ji zdálky inženýr Martin Labský. A světe div se, bedna poslouchá. Jde o to, aby systém zaznamenal zvuk ve velkém prostoru (dejme tomu celém obýváku) a nabídl zajímavé programy. Podobně funguje hudební jukebox. Chytrá domácnost je velkou výzvou. Informatici se snaží počítače schovat: přetavit je do role neviditelných pomocníků, kteří plní rozkazy na slovní požádání. Trouby, pračky, myčky, rádia, bezpečnostní kamery. „Uživatelské testy ukazují, že jdeme správným směrem, i když jsou hlasové technologie pro ovládání spotřebičů zatím zajímavé převážně pro nadšence či hendikepované,“ říká Kleindienst. O hlasem ovládanou televizi či hi-fi už lidé zájem mají. Jde o zvyk.
V součinnosti s firmami Johnson Controls, Alpine nebo Pioneer, jež vyvíjejí palubní počítače do aut, už podobné vychytávky z IBM zamířily do aut. A další uplatnění? Jde o zaznamenávané konference, v nichž lze hledat podle klíčových slov, řečníků a podobně. Příkladem budiž projekt zvaný Chil. Zájem o řečové technologie mají i firemní call-centra kvůli identifikaci zákazníků, banky získají další biometrický údaj pro kontrolu. A vazby na konkrétního mluvčího zvyšují i procento úspěšnosti u přepisu řeči do textového formátu. Možnosti bez hranic. „Obecně se o výzkumu řeči málo ví. Přitom již existují i komerční řešení, která umí pomáhat. Není to jen laboratorní hříčka,“ říká Kleindienst. Dokonce i američtí vojáci v Iráku, kteří od předloňska využívají mobilní hlasové překladače z arabštiny, už sklízejí plody mimo jiné i s českou příchutí. US Army nakoupila asi tisíc kusů překládacích aplikací Mastor.

Rozmlouvání s českými univerzitami

Firma spolupracuje i s vysokými školami. Řada doktorandů jezdí do IBM na stáž. Jedním z nich byl třeba Ondřej Glembek z Fakulty informačních technologií VUT v Brně, jenž ve slavných Watsonových laboratořích v Yorktownu pracoval půl roku. „IBM je v oboru řečových technologií opravdovou špičkou, silní jsou též Nuance a Microsoft,“ řekl týdeníku EURO docent Jan Černocký, vedoucí týmu Speech@FIT z Brna, který sklízí ceny na zahraničních soutěžích a workshopech. Pracovní skupinu na jednom z nejprestižnějších seminářů vedl na John Hopkins University i ředitel výzkumu Speech@FIT Lukáš Burget. „Myslím, že Česko už důležitým centrem v rozpoznávání řeči dávno je. Kvalitních pracovišť je u nás celá řada,“ říká Černocký, jehož kolegové opětovně uspěli na každoročních „evaluacích“, které pořádá Národní americký úřad pro standardizaci (NIST). Z krátkých nahrávek dokáží počítače rozpoznat jazyk mluvčího – od bengálštiny po maďarštinu (EURO 9/2008). I proto VUT nedávno podepsalo rámcovou smlouvu se španělskou firmou Agnitio, jež se zabývá bezpečnostním využitím hlasu.
O síle českého výzkumu vypovídají i další „řečisté“. Tradici mají kybernetici ze Západočeské univerzity v Plzni (prof. Josef Psutka, doc. Luděk Müller), ale i Technické univerzity Liberec (prof. Jan Nouza), kteří ve spolupráci s Newton Media vyvinuli aplikace na přepis diktované řeči. Software už zkoušejí české soudy. Oboru se věnuje i pražské ČVUT, kde zakládal skupinu profesor Jan Uhlíř. Zpracováním přirozeného jazyka se na Masarykově univerzitě zabývá docent Karel Pala. Podobné úkoly řeší i „matfyzáci“ z Karlovy univerzity; dle zdrojů týdeníků EURO byl tým docenta Jana Hajiče v nejužším výběru českých vědeckých pracovišť pro „radarový“ grant z Pentagonu. A sám Hajič působil v letech 1991 až 93 rovněž v laboratořích IBM, ze kterých vzešlo i pět držitelů Nobelovy ceny.

MM25_AI

Ohlas nejen za velkou louží

Češi mají globální renomé. Spokojen s jejich prací je i Charles W. Lickel, světový viceprezident IBM pro výzkum a software. „Tým funguje v ČR přes třináct let. Měli jsme dlouhodobý záměr a dnes mohu říci, že Češi jsou zvláště v rozpoznávání řeči silným partnerem naší celosvětové výzkumné komunity. Technologii, která se uplatňuje zejména ve vozidlech General Motors, Honda či Toyota, posunují stále dál,“ řekl týdeníku EURO Lickel při své návštěvě Prahy. Muž, jenž zastával v devadesátých letech vrcholné funkce v Silicon Valley Laboratory, oceňuje i vztahy se zdejšími univerzitami. „Máme vazby na všechny školy v regionu. Spolupráce s akademickou sférou je čím dál důležitější, řešíme společně řadu projektů. Školy mají volnost publikovat výsledky, což prospívá všem,“ říká manažer, pod něhož spadá asi tisícovka výzkumníků IBM.
Firma využívá i nápady biologů, lékařů či antropologů. Jak? „Povaha výzkumu se ohromně změnila. Nemůžeme se již soustředit pouze na technonologie, hledáme různorodou inspiraci. A právě mezioborová spolupráce přináší převratné objevy, jež překračují hranice. O tom výzkum IBM je: přinášet velké výzvy,“ tvrdí viceprezident, jehož mohou těšit úspěchy v medicínském 3D imagingu, predikcích průtoku řek, ale i analýzy dopravní situace v Singapuru. „Výzev je mnoho. Dnes už sice můžeme hovořit k autům, ale dalším úkolem je, aby šlo o běžnou řeč. Tak, jak si teď spolu povídáme. O to se starají právě v Praze. Zvláště v autech je důležité soustředit se na řízení; nerozptylovat se přemýšlením, jak přesně máte zadat povel,“ upozorňuje Lickel. Takže až nasednete do nového vozu Toyota RAV, budete vědět, že s vámi mluví i kus „Čecha“. Zatím lehce toporně, anglicky, ale lokalizace jsou prý jen otázkou několika let. Kleindienst dodává: „Je to takový náš malý přínos lidstvu.“

*
ROZHOVOR (vedle foto)
Jan Kleindienst
Na výzkumu nešetříme Laboratoř IBM v Praze se zaměřuje především na řečové technologie. A jde dvěma směry. První se věnuje mezinárodním projektům, kdy jsou poznatky aplikovány do různých oborů lidské činnosti, druhý se zabývá vývojem hlasových „embedded“ rozpoznávačů. „Ty se hodí do kompaktních, malých zařízení, jako jsou navigace GPS, palubní počítače v autech, hudební přehrávače, mobily či herní konzole,“ říká Jan Kleindienst (39), ředitel jediné výzkumné laboratoře IBM ve střední a východní Evropě. Nejbližší je až v Curychu. EURO: Jak je v IBM obecně zacílen výzkum? KLEINDIENST: Výzkum musí být dobře vybalancován. I proto jdeme ve dvou směrech. Musí jít o správný poměr mezi krátkodobým – tedy výhledově na jeden rok až pět let – a dlouhodobým čili strategickým, což je na dvacet třicet let dopředu. Ten připravuje půdu a otvírá nový trh. Na první kategorii vyčleňujeme 70 procent prostředků a na dlouhodobé projekty dáváme asi 30 procent financí. Je to tak trochu „rizikový kapitál“, který nemusí vyjít. Ale jde o věci, z nichž vznikají milníky jako objev nanotechnologií. EURO: Řada firem snižuje v krizi peníze na vývoj. Už šetříte? KLEINDIENST: Na výzkum sázíme dál. Jsme poučeni z minulosti, kdy náš ředitel T. J. Watson ve 30. letech, kdy všichni utlumovali výzkum, dal laboratořím velký podnět. A pak s oživením ekonomiky byl zase jediným, kdo díky náskoku prodával. Musím říci, že výzkum v IBM kvete. Mne jako výzkumníka těší, že na vývoj sázíme i nadále. V době krizí se musí věci dělat efektivněji, musí se hledat nové cesty. Taková období jsou pro výzkum živnou půdou. EURO: Má výzkum i dalekosáhlejší důsledky? KLEINDIENST: Jsme tvůrci trhu v různých oblastech. IBM vlastně před padesáti lety založila obor computer science, jako první jsme dělali mainframy (sálové počítače). A podobně nyní zakládáme vědu, jakou je service science. Naší představou je, že IT sféra není jen záležitost chladných technologií, ale je zde i rozměr etický a manažerský, který musí absolventi zvládnout, aby dokázali nastoupit do firmy a hned spolupracovat ve velkých týmech. Už neprodáváme jen „železo“, ale čím dál více investujeme do velkých integrovaných řešení. *
BOX:
Bábelské porozumění Obory, v nichž se mohou uplatnit řečové technologie:
* Hlasem ovládaná domácnost (světla, spotřebiče, topení)
* Hudební jukebox, video a TV programy (doma, v autě)
* Dopravní prostředky (chytrá auta, výtahy, infosystémy)
* Počítačová komunikace (hlasové pokyny na internetu)
* Byznysové konference (nahrávání, dohledávání slov)
* Přenosné překladače (včetně nejexotičtějších jazyků)
* Převod řeči do textu a zpět (diktování, audioslovníky)
* Bezpečnostní složky (identifikace hlasem, odposlechy)
* Telekomunikace (tísňová volání, firemní call centra)
* Sociální služby (obsluha invalidů, podpora důchodců)
Pramen: týdeník EURO

  • Našli jste v článku chybu?