Zajímavý přehled různých hlasů od různých společností. Přidávám i odkaz na ukázky systému Tecotron 2, který je v současnosti asi ten nejlepší. A to zejména díky využití neurálních sítí a strojovému učení. A dle ukázek to tak skutečně vypadá.
Rovněž mě velice zaujala ukázka s asistentkou od T-Mobile. Úžasný, pozitivní hlas a skvělá stavba vět. Opět připomínka toho, že i tento prvek je v řeči velice důležitý. Je však otázkou, zda jde skutečně o syntézu hlasu, nebo jen předpřipravené nahrávky a jejich spouštění podle předem definovaných scénářů.
Za zmíňku stojí i syntéza od nevidomého programátora (zajímalo by mě, jak ten hledá chybky / ladí kód 🙂
Všechny syntézované hlasy (kromě systému Tecotron 2) totiž znějí dost podobně. Až si člověk říká, proč se tolik společností zabývá vývojem něčeho, co se ve výsledku zní takřka stejně jako to od konkurence.
Ukázky syntetických hlasů (otevře se v novém okně. UPDATE: web přestal fungovat. Musím dohledat jiný)
Audio samples from „Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions“ (otevře se v novém okně)
A taky jsem si všiml jednoho zajímavého prvku. Jedna ukázka je řečena tak, že si člověk automaticky představí, jak se mluvčí směje. A to jde o počítačový hlas. Každopádně jak vidno, zvuk hlasu / řeči obsahuje i tyto informace.