Menu Zavřít

David Čaněk: V některých jazycích se strojový překlad přiblíží tomu lidskému

24. 12. 2014
Autor: Michael Tomeš, E15

Počítačové překladače se v posledních letech vylepšují natolik, že jejich překlady můžeme za určitých okolností mylně považovat za dílo člověka. Takzvaný strojový překlad navíc v budoucnu patrně změní i běžnou lidskou komunikaci. "Třeba tím, že budeme zcela běžně psát kratší a výstižnější texty, aby se daly lépe přeložit," říká David Čaněk, zakladatel tuzemské společnosti Memsource, která poskytuje překladový nástroj pro překladatele a překladatelské agentury.

V čem spočívá smysl strojového překladu nebo překladu obecně? Proč se jím vůbec zabývat?

V současném globalizovaném světě se bez překladu už asi neobejdeme. S rostoucím objemem obsahu, který je třeba přeložit, vzniká stále větší potřeba rychlého, kvalitního, ale zároveň levného překladu. Díky tomu se v poslední době dostává čím dál vice do popředí strojový překlad.

Kde všude se strojový překlad využívá?

Uživatele internetu, který nikdy nevyužil služby Google Translate bychom asi našli, ale nebylo by to úplně jednoduché. Pak je tu celá řada profesionálních využití . Zaprvé se používá takzvaný surový (z anglického „raw“) strojový překlad bez jakékoli další úpravy. Raw překlad využívají například centra technické podpory (Microsoft apod.). Druhá varianta je, že strojový překlad ještě upraví člověk – v angličtině se tomu říká machine translation post-editing. Tento způsob překládání se stále více začíná prosazovat i v profesionálním překladu, například v překladatelských agenturách.

Překladatelské agentury skutečně využívají strojový překlad?

V překladovém nástroji Memsource Cloud, který využívají překladatelé a překladatelské agentury po celém světě, se měsíčně přeloží zhruba 100 milionů slov. A přibližně polovina z tohoto objemu se překládá s podporou strojového překladu. Profesionální překladatel samozřejmě využívá strojový překlad kriticky, spíš jako jednu z mnoha pomůcek, která mu urychlí práci. Sám musí vždy vyhodnotit, které úseky strojového překladu lze využít a které nikoli.

 David Čaněk David Čaněk, zakladatel tuzemské společnosti Memsource


Letos uplynulo 60 let od experimentu, kdy se společnost IBM pokusila poprvé přeložit určité sdělení počítačem. Od té doby je celá historie strojového překladu plná sebevědomých předpovědí, kdy konečně stroje v překládání nahradí člověka. K tomu ale stále ještě nedošlo. Z jakého důvodu?

Je pravda, že od padesátých let se snad každých pět let objevovaly optimistické prognózy, že už brzy počítače budou schopné překládat v lidské kvalitě. Důvodů, proč se tak nestalo, je podle mě víc. Zaprvé lidský jazyk úplně nelze převést na jedničky a nuly, jde o komplexní způsob kódování informací, který funguje jinak než počítače.

Zároveň je třeba si položit otázku, jak kvalitní překlad pro daný účel použití potřebujeme. Vezměme si kontext technické podpory. Pokud mám nějaký problém a návod k jeho vyřešení si najdu na internetu v cizím jazyce, pak bude kvalita strojového překladu dostatečná, pokud tomuto návodu po jeho přeložení porozumím. V takovýchto případech bude současný strojový překlad v řadě případu dostatečně kvalitní. Pokud jde třeba o beletrii, tam samozřejmě strojový překlad nefunguje, z krásné literatury si chceme odnést víc než pouhé porozumění obsahu.

Navíc nesmíme zapomínat, že významným faktorem při překládání je čas i cena.

Jakou roli tedy hraje konkrétně cena?

Zásadní. Firemní překladatelské oddělení si může dovolit pouze takovou cenu, na kterou má rozpočet. A ten je vždycky omezený. Na druhou stranu objem obsahu, který je třeba přeložit, spíš roste. Firemní zadavatelé překladů tedy řeší dilema, jak v rámci daného rozpočtu nakoupit kvalitní překladatelské služby a navíc vyjednat krátké dodací lhůty. V překladatelské branži platí, že každý chce nakoupit levné, kvalitní a rychlé překladatelské služby. Problém je v tom, že nelze mít zároveň všechny tři parametry (levně, kvalitně a rychle). Musíte se vždy spokojit pouze s kombinací dvou parametrů: rychlý a kvalitní překlad nebude nikdy levný.

Neřekl bych, že překladatelé nebudou třeba. Spíš jen časem získají jinou roli. Změní se v editory a odborné konzultanty.

Existuje oblast, ve které strojový překlad předčí lidského překladatele?

Pokud jsou hlavními kritérii rychlost a cena, pak bude mít strojový překlad vždy navrch. Lidský (profesionální) překladatel bude mít ještě dlouho navrch, pokud jde o kvalitu. Za zmínění rovněž stojí, že při strojovém překládání výsledek hodně ovlivňuje to, z/do kterého jazyka překládáme. Překlad z angličtiny do románských jazyků jako třeba portugalštiny nebo španělštiny je relativně vysoce kvalitní. O něco méně kvalitní je překlad z angličtiny do češtiny. Ještě horší bude překlad z angličtiny do maďarštiny. A překlad z angličtiny do japonštiny bude z velké části přímo nesrozumitelný. Také záleží na typu obsahu. Obecně si strojový překlad zdaleka nejlépe poradí s krátkými a jednoznačnými větami.

Proč vlastně počítač při překladu chybuje?

Dosáhnout kvalitního překladu není jednoduché pro člověka, natož pro počítač. V minulosti byly algoritmy strojového překladu založeny na zmapování gramatiky určitého jazyka. Takže se v programovacím jazyku popsala příslušná pravidla, podle kterých počítač překládal. Dnes se používají spíš statistické modely. Zjednodušeně řečeno se shromáždí co největší množství originálního obsahu a jeho odpovídajícímu překladu. Tato data se použijí pro „natrénování“ strojového překladu a na základě tohoto modelu se pak počítač „naučí“ překládat. Výsledná kvalita závisí mimo jiné na kvalitě a množství dostupných dat, které byly k dispozici pro natrénování. Není tedy žádným překvapením proč je dnes Google jedním z lídrů na poli strojového překladu.

Zajímavé je, že strojový překlad je založen na zcela odlišném přístupu, než jak překládají lidé. My se totiž snažíme nejdříve porozumět významu a následně tento význam překódovat do jiného jazyka. Počítač vůbec nechápe význam překládaného textu, ani se o to nesnaží.

 David Čaněk, Memsource David Čaněk, zakladatel tuzemské společnosti Memsource


Profesor Nigel Shadbolt z Open Data Instituce v této souvislosti prohlásil, že do 25 let se dožijeme překladu v reálném čase, ze kterého nepoznáme stroj. Může takový moment vůbec nastat, když počítač pracuje jen se statistikami a pravděpodobností?

Může. Takové situace se stávají už dnes, ale jen v případě určitých textů v určitých jazycích. Když si z Googlu Translate vybereme určité věty přeložené z angličtiny do češtiny, tak možná ani stroj v tom neobjevíme. Jde o to rozšiřovat množství dat a vylepšovat algoritmy. Pokud to takhle půjde dál, za nějakou dobu se hodně přiblížíme kvalitě lidského překladu.

Mohla by tak přijít doba, kdy nebudeme vůbec potřebovat lidské překladatele?

Neřekl bych, že překladatelé nebudou třeba. Spíš jen časem získají jinou roli. Z profesionálních překladatelů se změní v editory a odborné konzultanty.

Vyvinou se technologie a příslušné algoritmy natolik, že budou stroje schopné pochopit i tak specifické jazykové obraty jako nadsázku, dvojsmysly apod.?

Jak jsem již uvedl, současné algoritmy se vůbec nesnaží o porozumění textu. Ale pokud stroj získá dostatečné množství dat, může se klidně stát, že například pro dvojsmyslný text najde i odpovídající dvojsmyslný překlad. Prozatím je to ale stále spíš úkol pro člověka. Strojový překlad pracuje doslovně, kreativitu u něj nehledejte. Je možné, že v budoucnu přijdou jiné technologie, které se budou snažit přiblížit lidskému uvažování, ale ty současné to nenabízí.

Strojový překlad je z byznysového pohledu velmi dynamický. Zatímco loni vygeneroval globálně čtyři miliardy dolarů, do pěti let mu Market Research předpovídá růst na 10,4 miliardy dolarů. Kdo generuje hlavně tu poptávku?

Jednak tu jsou běžní uživatelé na internetu, kteří využívají dostupné online překladače. Tyto služby jsou sice často zdarma, ale reklama zobrazující se vedle přeloženého textu již nikoli. Překladové služby expandují do mobilních zařízení. Microsoft nedávno představil Skype Translator, který má ambici překládat hovory v reálném čase. Pokud se na to ale budeme dívat pouze z pohledu peněz, tak celý byznys roste díky poptávce firem, zpravodajských služeb a vládních organizací. Celosvětově nejvíce utrácí za překlady Evropská komise.

Minimálně přijde doba, kdy pro určitý typ obsahu a v určitých jazycích se bude strojový překlad přibližovat kvalitě lidského překladu.

Kdo je vůbec lídrem ve vývoji strojového překladu?

Evropa měla dobré podmínky, aby se stala lídrem v oblasti strojového překladu. V podstatě by to bylo docela přirozené – na malém prostoru zde máme hodně jazyků a také počítačových lingvistů. Nakonec se stejně jako v řadě dalších technologických oborech stali lídry američtí technologičtí giganti. Dnešnímu strojovému překladu jednoznačně dominuje Google a Microsoft, firmy, které ovládají přes 90 procent trhu se strojovým překladem.

Obor má dlouholetou tradici i v českých podmínkách. Počítačová lingvistika se objevila na UK už v 60. letech. Jak jsme na tom dnes?

Domnívám se, že velmi dobře. Na různých českých univerzitách se tomuto oboru úspěšně věnuje celá řada odborníků, kteří spolupracují na významných mezinárodních projektech. S některými jsem měl tu čest se sejít.

Ústavu formální a aplikované lingvistiky (ÚFAL) z MFF UK se nedávno podařilo během jediného dne vytvořit překladač z angličtiny do tagalštiny (filipínštiny). Výsledek jejich práce pomáhá na Filipínách při odstraňování škod po tajfunu Hagupit. Jak moc je to výjimečný úspěch českého strojového překladu?

K vytvoření tohoto překladače bylo použit open source systém Moses. Když to hodně přeženu, s tímto systémem si každý může vytvořit libovolný překladač z dlouhé chvíle o víkendu. Stačí jistá technická zdatnost, ale asi nemusíte mít doktorát z počítačové lingvistiky.

Pokud vím, tak z vědeckého hlediska tedy nejde o nic převratného. Ta výjimečnost ale spočívá v tom, že v ÚFALu jsou schopni své akademické znalosti ve velmi krátkém čase aplikovat v praxi. Oni tak v podstatě ukázali, že nežijí ve slonové věži, ale že tvoří něco, co může mít reálný dopad. Tím vlastně inspirují ostatní vědce, aby o sobě dávali vědět a komerční sektor, aby s nimi spolupracoval. S ÚFALem vlastně spolupracovala i naše společnost a k těmto vědcům chovám velký respekt.

Jak se vlastně strojový překlad vyvíjí? Směřujeme do světa, kdy bude všechno přeloženo?

Naprostá většina světového obsahu - ať už to jsou videa nebo texty - zůstává stále nepřeložena. V tom je obrovský potenciál a překládat stále více, efektivněji a kvalitněji je také cílem řady firem z oboru. Minimálně přijde doba, kdy pro určitý typ obsahu a v určitých jazycích se bude strojový překlad přibližovat kvalitě lidského překladu. Následně se kvůli strojovému překladu zřejmě změní i lidská komunikace. Třeba tím, že budeme zcela běžně psát kratší a výstižnější texty, aby se daly lépe přeložit.

Takže strojům půjdeme naproti a přizpůsobíme se jejich způsobu překladu?

Tento trend můžeme pozorovat již dnes. Některé nadnárodní firmy již zavedly speciální pravidla pro psaní manuálů. Autoři jsou nabádáni, aby používali krátké věty s jednoznačným významem, které je pak jednodušší přeložit, ale i pochopit. Když jsem v 90. letech studoval překladatelství na FFUK, vůbec jsem netušil, do jaké míry se z jazykovědy stane technologický obor.

David Čaněk
Vystudoval Filozofickou fakultu Univerzity Karlovy v Praze. Pracoval v technologických firmách na různých obchodních a produktových pozicích. V letech 2007 až 2010 byl spolumajitelem společnosti České překlady. V roce 2011 svůj podíl prodal a založil společnost Memsource, která poskytuje cloudový překladový nástroj pro překladatele a překladatelské agentury.

Čtěte také:

Čeští lingvisté vytvořili překladač, který pomáhá po tajfunu na Filipínách

Revoluce v komunikaci: Skype překládá v reálném čase

bitcoin_skoleni

Bing přidal do svého překladače klingonštinu

Googlu se prý nelíbí ruský přístup k internetu, ruší tam oddělení

  • Našli jste v článku chybu?