Vědci z VUT Brno určují trendy v softwarovém rozpoznávání jazyka
„Nem értem, mit mond, nem tudok kínaiul.“ Cože? V jaké řeči se tu mluví? Jistě, dle specifické výslovnosti si řada čtenářů tipne maďarštinu, a činí správně. Jenže s jakou určitostí dokážou lidé rozpoznat po pouhých pár vteřinách promluvy thajštinu, farsí, bengálštinu, tamilštinu, arabštinu nebo čínský dialekt? Nebude to asi žádná sláva… Pokud se ovšem neobrátíte na vědce z Fakulty informačních technologií (FIT) Vysokého učení technického v Brně.
Právě skupina asi dvaceti lidí, kteří jsou pod vedením docenta Jana Černockého uskupeni do a již jedenáctým rokem bádají nad elektronickou analýzou řeči, to umí a z krátkých nahrávek dokáže určit jazyk mluvčího až s 95procentní úspěšností. Díky tomu dokázali moravští experti opětovně uspět na každoročních „evaluacích“, jež pořádá národní americký úřad pro standardizaci (NIST). „Přesné umístění s ohledem na pravidla sdělit nelze, ale patříme mezi nejužší špičku,“ tvrdí Černocký. To ale není vše. Mladý tým dokáže též mezi stovkami hlasů identifikovat konkrétní osobu a vyvíjí rovněž vyhledávač v hlasových záznamech dle klíčových slov.
Ora(cle) et labora.
Nový areál FIT v brněnské Božetěchově ulici, jenž je dílem Atelieru 2002 ve spolupráci s architektonickou kanceláří Burian-Křivinka, září novotou. Ale nenechme se mýlit, hned přes ulici je organicky propojen s kartuziánským klášterem, který byl založen roku 1375. Mniši kartuziáni, kteří se řídili heslem „Stat crux, dum volvitur orbis“ (Kříž stojí, zatímco svět se mění), sice již areál opustili za Marie Terezie, ale ojedinělý a inspirativní genius loci tu zůstal. Na Králově Poli vznikl za 748 milionů korun ucelený kampus západního střihu, v němž zdejším asi 2500 studentům informačních věd nechybí moderní posluchárny, studovny, laboratoře, knihovna, menza, klub, ubytování pro hostující učitele, ale ani středověký prevét či márnice. Univerzita s umrlčím sálem? To bude světový unikát.
Na gauči, přesto v aule.
Klíče od cel mnichů však vystřídaly všudypřítomné čipové karty, vždyť i jeden z IT týmů se zabývá zabezpečováním hardwaru. Na fakultě informatiky se už ani nelze příliš divit on-line „streamovaným“ videopřednáškám, takže studenti mohou své pedagogy sledovat z pohodlí kolejních postelí. A ty obzvláště důležité výklady si uložit do notebooku. „Experimentálně pracujeme i na hledání klíčových slov v přednáškách, aby byla pasáž s inkriminovaným pojmem snadno k nalezení,“ nastiňuje jedno z využití softwarových nápadů Speech@FIT doktorand Petr Schwarz. Nicméně ani klášterní kampus se neobejde bez mozkového centra. Serverovna, která se nachází v novém objektu, je napěchována počítačovými stanicemi. „Máme tu přes 400 procesorů, obstarávají operace pro celou FIT. Sál byl sice navrhován dle požadavků našeho Centra výpočetní techniky, ale i za těch pár let od plánů k realizaci se potřeba zvětšila. Je tu přes 60 terabytů dat,“ říká správce serverů Tomáš Kašpárek.
Na bengálí přes maďarštinu.
Jedním z největších „žroutů“ výkonu i paměťové kapacity na FIT je právě řečová skupina. Jak tedy software na rozpoznání jazyka funguje? Existují dva podsystémy: akustický a fonotaktický. „U prvního se každých deset milisekund řeči - čili stokrát za vteřinu - vypočítají parametry, jakási sada několika desítek čísel, které popisují postavení hlasového ústrojí. Na základě toho se dají jazyky rozlišit, třeba ve francouzštině je hodně nosovek, takže jsou zřetelné protirezonance,“ vysvětluje Černocký. A dodává: „Druhý způsob je 'rozsekání' jazyka na sekvenci hlásek. Vtipné je, že se k tomu nemusejí užívat hlásky z daného jazyka. V soutěži NIST jsme měli třeba poznávat bengálštinu, ale pochopitelně nemáme rozpoznávač na fonémy z bengálí. Tudíž jsme řeč proháněli trojicí našich oblíbených detektorů: anglickým, maďarským a ruským.“ Jazyky se rozkouskují a následně je spočítáno, jak často se fonémy objevují. Počty jsou vloženy do tabulek, a když se u neznámé testovací řeči často objevuje kupříkladu sekvence „und“, je možné porovnáním zjistit, že to bude němčina.
Data, kam se podíváš.
K tomuto poznání je však zapotřebí takzvaných trénovacích dat, z nichž se počítač jazyk „naučí“. Podobně jako malé dítě. Počítačový program však jazykům nerozumí, na základě testovacích dat ve formě několika set nahrávek je ale schopen najít soubor typických parametrů dané řeči. Při hodnocení agentury NIST dostali vědci deset tisíc nahrávek ve čtrnácti jazycích. Jednalo se o různě dlouhé promluvy od pár vteřin až po půlminutové hovory, u kterých je pochopitelně chybovost nejmenší. Přesnost výsledků je závislá také na kvalitě a množství trénovacích dat. Anglických nahrávek spontánní mluvy (především z telefonů) mají vědci bezpočet, potíže však měli například s obstaráváním thajských vzorků.
Z Brna mezi elitu.
Češi, již úzce spolupracují s nizozemskými, skotskými, jihoafrickými či švýcarskými kolegy, patří v těchto evaluacích k nejlepším, o čemž svědčí i to, že letošní workshop na věhlasné John Hopkins University má vést Lukáš Burget, vědecký lídr z FIT. Dva z jeho kolegů, kteří se na výzkumu dlouhodobě podílejí, popisují začátky. „Původně jsme na stáži v USA vytvářeli fonémový rozpoznávač, který je při identifikaci jazyka důležitou technologií, v Americe jej chtěli doplnit do jejich systému. A doma v Česku jsme si museli nějak rozdělit témata na dizertace,“ usmívá se doktorand Pavel Matějka. Schwarz doplňuje: „Rozhlédli jsme se, jestli je o takovou věc zájem, a zjistili, že existuje využití pro organizace, které zpracovávají spousty hlasových dat. Přišlo nám to jako hodně perspektivní.“
Ministerstvo: Tohle bereme.
První využití je nasnadě. Bezpečnostní složky. A skutečně, Speech@FIT spolupracuje s Ministerstvem obrany ČR, přičemž zájem přichází i ze zahraničí. K rozpoznání hovorů, dejme tomu v arabštině nebo perštině, a detekci problematických slov typu BOMBA se druží i další dovednost „ajťáků“ z Brna, s níž bodovali už v roce 2005 ve Washingtonu. Software dokáže v telefonních nahrávkách nebo v takzvané IP telefonii identifikovat mluvčího, takže hovor takového teroristy Usámy bin Ládina nebo miliardového lupiče Františka Procházky by ihned rozblikal červená světýlka v bezpečnostní centrále. Ale má to háček: opět je třeba trénovacích nahrávek.
„Na mnoha mluvčích vytvoříme background-model, který by měl modelovat svět. Takový model se pak posouvá pro každého trénovacího mluvčího, od kterého je dat naopak málo. Když přijde nahrávka, proženeme ji oběma modely – model mluvčího dá 'dobré skóre', model světa dá 'špatné skóre'. Špatné odečteme od dobrého a výslednou hodnotu srovnáme s požadovaným prahem. A když je překročen, jde o dotyčnou osobu,“ naznačuje ve zkratce Černocký. Užití se ale netýká jen CIA nebo BIS, řečeno s nadsázkou, ale zájem mají i firemní call centra kvůli identifikaci důležitých zákazníků, dále též střediska tísňového volání. Banky tak mohou získat další „biometrické“ údaje. Vazby na konkrétního mluvčího například zvyšují i procento úspěšnosti u přepisu řeči do textového formátu.
Do šuplíku ne!
Ze všeho, co v Brně vyvíjejí, je znát, že uvažují o uvedení vědy do praxe. Matějka přímo říká: „Je důležité, abychom nedělali věci do šuplíku, ale aby se hned využívaly.“ I proto je jedním z členů ústavu německý doktorand vyslaný firmou Siemens, ve spolupráci s vydavatelstvím Lingea je připravován hlasový přístup k elektronickým slovníkům i kontrola výslovnosti. Další mladík pracuje na analýze hovorů Skypu. Neláká nadané studenty spíše komerční sféra? „Loni jsem byl na stáži u IBM, což je jedna z firem, které nabízejí programy i pro studenty. Takže ti mohou být zároveň u výzkumu a také v praxi,“ vypráví Ondřej Glembek.
Rozpočet skupiny Speech@FIT je kolem deseti milionů korun na rok, ale informatici z VUT nespoléhají jen na příspěvky ministerstva školství, Grantové agentury ČR nebo peněz z Evropské unie (jako je tomu v projektu AMIDA na vyhledávání ve videomítincích). Sami nabízejí své algoritmy a projekty přes komerční společnost Phonexia.
Rýsuje se snad možnost nějakého „AudioGooglu“, který bude prohledávat sdílené zvukové záznamy lidstva? Jistě ne brzy, ale indexování je prý otázkou několika let. Co víc, jiný tým z FIT pod vedením docenta Pavla Zemčíka se zabývá rozpoznáváním objektů v obrazových souborech, takže kdoví, třeba audiovizuální svět projde jednou podobnou revolucí, jako se to stalo psanému a tištěnému slovu. A ona maďarská věta z úvodu? Její smysl vlastně software z FIT vůbec nechápe, ale pro úplnost, znamená: „Nerozumím vám, čínsky nemluvím.“
PRAKTIČTÍ INŽENÝŘI Kde může najít jazykový software uplatnění?
- Bezpečnostní složky (odposlechy, identifikace osob)
- Tísňová volání, firemní call centra, audioslovníky
- Převod řeči do textového formátu (diktování)
- Vyhledávání v audiostopě dle klíčových slov
Pramen: Speech@FIT