Už jsou to tři roky, co vývojáři Googlu, resp. jeho sesterské společnosti DeepMind představili novou technologii WaveNet, která mj. přináší nový model syntézy hlasu. Google využívá neuronové sítě běžící na jeho vlastních procesorech TPU k tomu, aby se naučily generovat zvukové vlny odpovídající jednotlivým hláskám.
Nejdříve tedy zpracují kvanta textů a jejich namluvené podoby, z čehož se následně samy naučí mluvit. A jde jim to lépe než stávajícím konkatenativním nebo parametrickým modelům, které využívají fragmenty skutečných hlasů, resp. lidmi připravené zvukové vlny.