Aplikace od Newton Technologies se uplatní u soudů i v nemocnicích
[perex]
Holdujete sci-fi? Uvažovali jste o tom, že si budete s počítači povídat, a ty vás budou poslouchat? Pak jste na správné adrese… Už totiž nejde o pohádku. Existují programy, jež umějí přepsat mluvené slovo do textového formátu. A co víc: přinejmenším dvě firmy – Newton Technologies a Novasoft – už vám to umožní i v češtině. Zkuste to.
Aby bylo jasno: tohle jsem nepsal já. Sice nemám sekretářku, jíž bych články diktoval, ale úvod se vytvořil tak nějak, ehm, sám. Fakt. Díky softwaru NewtonDictate od firmy Newton Technologies, která jej poskytla k testování českým soudům, je možné diktovat počítači spisovnou řeč. Stačí si nasadit sluchátka s mikrofonem a diktát může začít! Díky týdeníku EURO si totéž můžete vyzkoušet i vy. Soudci si již urychlené zápisy pochvalují. „Píši na počítači velmi rychle (všemi deseti naslepo), ale přesto je přepis řeči rychlejší. I s opravami jsem na tom při nejhorším časově stejně,“ tvrdí Hana Tichá, soudkyně Krajského soudu v Praze, jež se o své zkušenosti podělila v dubnovém čísle časopisu Soudce. I patologové či lékaři napíší zprávu během chvilky. A otevírají se další možnosti: pro překladatele, advokáty či vědce. O novinářích a jiných grafomanech mluvit netřeba.
Z Liberce do Evropy
Program pro spojité diktování pracuje s obsáhlými slovníky; naslechne si slova, která porovnává s databází a podle kontextů vybírá nejlepší variantu. Každých deset milisekund je pomocí spektrální analýzy vyhodnocován signál z mikrofonu – není to snadné, při přepisu věty o několika slovech se vyhodnocuje i přes miliardu návrhů! S nadaným dítkem, jehož „otcem“ je profesor Jan Nouza z Fakulty mechatroniky a informatiky Technické univerzity v Liberci, mají v Newtonu velké plány. Kromě českých soudů, jež aplikaci testují od listopadu, míří do nemocnic, mobilů, ale i do zahraničí. Konkrétně na Slovensko a do Polska.
„To je logické. Jednak je výzkum libereckého týmu od začátku zaměřen na slovanské jazyky a také slovníky programu NewtonDictate stojí na mediálních datech monitoringové společnosti Newton Media, která tam má pobočky. První slovníky jsou již připraveny, jednáme s vážnými zájemci, kteří program testují,“ řekl týdeníku EURO ředitel Petr Herian. Český slovník zná skoro 400 tisíc výrazů, což zaručuje pokrytí běžných textů z 98 procent. Zatím existují čtyři slovníky: obecný, justiční a různé oborové medicínské slovníky. Plánují se i verze pro psychology či chirurgy. Zajímají se o vás obři typu Googlu? „S představiteli gigantů jsem měl pár jednání, víme o sobě. Jsme pro ně poměrně malým trhem a vývojem se zabývá spousta firem. Předpokládám, že čekají, jak složitou úlohu zvládneme,“ myslí si Herian.
Jak ostatním zamknout pusu?
Slovanské jazyky počítače potrápily, žádná ze světových firem je neochočila. Důvodem je ohebnost řeči a potřeba obsáhlých databází. „Výzkum jsme proto zaměřili na algoritmy, které jsou schopny v reálném čase zvládnout ne desítky, ale stovky tisíc slov. Podobné problémy musejí řešit Finové, Maďaři nebo Turci,“ říká Nouza. Neobáváte se tedy „vykradení“ know-how? „Problém ochrany je skutečně složitý. Zde nejde jen o ochranu rozpoznávacího enginu, ale též o slovníky a vše, co k nim patří. U verze pro PC lze naštěstí použít kombinovanou ochranu pomocí hardwarových klíčů, časově proměnných hesel a kontroly po síti. Nejvíce nás nyní trápí otázka, jak zabezpečit verze určené pro mobilní přístroje: smartphony a PDA. Naše programy na nich již fungují, ale stále řešíme, jak je ochránit,“ vysvětluje profesor.
Podle Nouzy by měl software nalézt další uplatnění při přepisu rozhlasových či televizních archivů, nebo i při přímém titulkování zpráv. Což už ostatně funguje, jak prokázali „přepsaní“ moderátoři ČT i Novy. Možným směřováním je i překládání namluveného obsahu do cizích jazyků. „Vyvinuli jsme též nástroje, jež pomáhají handicapovaným. MyVoice je program pro plně hlasové ovládání počítače a MyDictate je diktovací program, u něhož lze vše, včetně oprav či formátování, provádět hlasově. Oba programy již používá v ČR přibližně sto osob,“ říká Nouza, jehož tým hodlá brzy rozšířit slovník na půl milionu slov.
Soudci v první linii
Těmi, kdo software proklepnou, jsou lidé od soudů. Ze dvou tisíc testovacích licencí jich už bylo pro ministerstvo spravedlnosti vydáno 1513, z nichž aktivních je 882 programů. „Vzrůstající zájem o nabízená školení – ke konci května jich proběhlo téměř sto – svědčí o veskrze pozitivní odezvě jak ze strany soudů, tak státních zastupitelství,“ řekla Veronika Ludvíková, ředitelka tiskového odboru. Když se kvalita potvrdí, resort programy koupí. „Předpokládáme, že by soudy a státní zastupitelství, jež o aplikaci projevily zájem, mohly samy zařízení naplno začít využívat již během příštího roku,“ říká mluvčí. Cena za službu, instalaci, aktualizace, školení a technickou podporu činí 28 tisíc korun bez DPH. Ještě loni v létě byla ve hře i konkurenční Consulting Company Novasoft, jež je spjata s týmem profesora Josefa Psutky z plzeňské Západočeské univerzity. Proč vybrali úředníci libereckou variantu? Na podanou výzvu z elektronického tržiště dle slov ministerstva správně a v termínu do 10. listopadu 2008 zareagovala pouze společnost Newton Technologies.
Její ředitel říká: „Testování na soudech je dlouhodobá záležitost. Uživatelsky jsou nyní připravováni soudci a budeme pokračovat ve školení pro zapisovatelky a asistentky.“ Výzvou je i přepis jednání ze soudních síní, na němž se již pracuje. Herian uzavírá: „Technologie rozpoznávání hlasu už dnes šetří čas i prostředky. Z aplikačního pohledu jsme ale stále na začátku. Věřím, že hlasové technologie budou postupně nahrazovat písemný projev, stejně jako každodenní povely pro ovládání přístrojů. Otázkou je, zda se nám podaří včlenit hlasové technologie do běžného života dříve, než začnou počítače rozpoznávat i myšlenky.“
*
BOX
I na počátku bylo slovo
„[Začínám diktovat.] Na počátku stvořil Bůh nebe a zemi [tečka]. Země pak byla nesličná a pustá [čárka], a tma byla nad propastí [čárka], a Duch Boží vznášel se nad vodami [tečka]. I řekl Bůh [dvojtečka]: Buď světlo [vykřičník]! I bylo světlo [tečka]. [Konec diktátu].“ Tak vypadá tvoření „světa“ skrze software NewtonDictate. Aby správně fungoval, musí se s ním umně zacházet. Má rád plynulou, spisovnou mluvu s určením interpunkce. Úspěšnost (kolem 95 procent) se zvyšuje též s vazbou na konkrétního mluvčího. Pod namluveným textem se uchovává hlasová stopa s časovými značkami. Aplikace umí i přepsat správně nahraný soubor *.MP3 či *.WAV. Přepisovač má intuitivní ovládání, do slovníku lze přidávat vlastní slova a vytvářet i příkazová makra. Často se opakující odstavce jde pak vložit jedním pokynem. Lze také formátovat přímo hlasem? „To ne, přemýšleli jsme o tom, ale rychleji se to udělá ručně,“ vysvětluje projektová manažerka Magdalena Nekolná. Hardwarové nároky nejsou drastické: doporučen je Intel Core 2 Duo 1,8 GHz a lepší, s minimem 1 GB paměti. Ač tento software čeká ještě dlouhý vývoj, už při téhle drobné tvořivosti se cítíte tak trochu jako Bůh.
*
Čtenářům týdeníku EURO k vyzkoušení: http://www.diktovani.cz/