Když se batolata učí chodit, čeká je zpravidla mnoho pádů, než techniku perfektně zvládnou. Robotům oproti tomu stačí funkci chůze předem naprogramovat. Tedy alespoň většině z nich. Vědci z Kalifornské univerzity v Berkeley vyvinuli psího robota, který se veškerý pohyb naučil podobně jako jakýkoli živý tvor – vlastním úsilím.
Zatímco zpočátku mával stroj nohama ve vzduchu jako brouk ležící na zádech, po chvíli už měl nohy přilepené k podlaze. K prvním nemotorným krokům se pak odhodlal zhruba za 30 minut a stačila jen hodina k tomu, aby již robot sebevědomě poskakoval po laboratoři.
Jak je to možné? Díky umělé inteligenci. Konkrétně vědci využili techniku zvanou reinforcement learning, která trénuje algoritmy tím, že je odměňuje za požadované akce. Stejnou technologii pak tým použil k úspěšnému tréninku tří dalších robotů. Ti se například naučili sbírat míčky a přesouvat je z jednoho zásobníku do druhého. Opět ,svépomocí‘.
Tradičně se roboti trénují s využitím počítačového simulátoru. Ten ale podle odborníků nikdy nebude tak věrohodný jako realita. „Vždy budou existovat aspekty světa, které vám budou chybět,“ říká pro Technology Review Danijar Hafner, jeden z vědců, který na projektu pracoval. Přizpůsobení poznatků ze simulátoru skutečnému světu podle něj navíc vyžaduje další inženýrské práce.
Metoda pokus-omyl
Algoritmus týmu nazvaný Dreamer využívá minulé zkušenosti k vytvoření modelu okolního světa a umožňuje robotovi provádět výpočty metodou pokus-omyl, a to v počítačovém programu. Konkrétně tak, že předpovídá možné budoucí výsledky svých potenciálních akcí. To mu pomáhá učit se rychleji, než jak by díky běžné praxi bylo možné. Jakmile se robot naučí chodit, stále se zdokonaluje – umí se například přizpůsobit nečekaným situacím, jež během chůze mohou nastat.
„Učení robotů metodou pokusů a omylů je obtížný problém. Ten ještě ztěžuje dlouhá doba tréninku, kterou takové učení vyžaduje,“ tvrdí Lerrel Pinto, odborný asistent informatiky na New York University specializující se na robotiku a strojové učení. Dreamer podle něj ale ukazuje, že hluboké posilovací učení a modely světa jsou schopny naučit roboty novým dovednostem ve skutečně krátkém čase.
Jeho názor sdílí také profesor robotiky na Oregonské státní univerzitě Jonathan Hurst. Ten říká, že výsledky, jež zatím nebyly recenzovány, jasně ukazují, že posilovací učení bude základním nástrojem budoucího řízení robotů. Odstranění simulátoru z jejich výcviku má dle vědců mnoho výhod.
Algoritmus by dle Hafnera mohl být užitečný pro výuku robotů, jak získat dovednosti v reálném světě a přizpůsobovat se situacím, jako jsou poruchy hardwaru, vysvětluje. Robot by se tak například mohl naučit chodit s nefunkčním motorem v jedné noze.
„Tento přístup by mohl mít obrovský potenciál také při složitějších úkonech, jako je třeba autonomní řízení vyžadující složité a drahé simulátory,“ doplňuje Stefano Albrecht, odborný asistent umělé inteligence na Edinburské univerzitě. Nová generace algoritmů posilování a učení by podle něj mohla extrémně rychle zachytit, jak funguje prostředí v reálném světě.
Stále však existuje několik velkých nevyřešených problémů. Inženýři musejí například ve svém kódu specifikovat, které chování je dobré, a je tedy odměňováno, a jaké je naopak nežádoucí. Tento princip jde každopádně naprogramovat jen velmi obtížně. „Robotik to bude muset udělat zvlášť pro každý úkol nebo problém, který chce, aby robot řešil,“ vysvětluje Pinto.
Ačkoli modely reálného světa zatím začínají od nuly a mohou být nepřesné, v budoucnu by podle Hafnera mohly roboty naučit rozumět i mluveným příkazům. Současnému robotickému psovi hodlá pořídit kamery, aby měl možnost vidět a díky tomu se i lépe orientoval v interiéru. Kromě toho bude také aportovat.