Skip links

Syntéza hlasu / Ukázky různých systémů + nelepší systém současnosti

Zajímavý přehled různých hlasů od různých společností. Přidávám i odkaz na ukázky systému Tecotron 2, který je v současnosti asi ten nejlepší. A to zejména díky využití neurálních sítí a strojovému učení. A dle ukázek to tak skutečně vypadá.

Rovněž mě velice zaujala ukázka s asistentkou od T-Mobile. Úžasný, pozitivní hlas a skvělá stavba vět. Opět připomínka toho, že i tento prvek je v řeči velice důležitý. Je však otázkou, zda jde skutečně o syntézu hlasu, nebo jen předpřipravené nahrávky a jejich spouštění podle předem definovaných scénářů.

Všechny syntézované hlasy (kromě systému Tecotron 2) totiž znějí dost podobně. Až si člověk říká, proč se tolik společností zabývá vývojem něčeho, co se ve výsledku zní takřka stejně jako to od konkurence.

Ukázky syntetických hlasů (otevře se v novém okně)

Audio samples from „Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions“ (otevře se v novém okně)

A taky jsem si všiml jednoho zajímavého prvku. Jedna ukázka je řečena tak, že si člověk automaticky představí, jak se mluvčí směje. A to jde o počítačový hlas. Každopádně jak vidno, zvuk hlasu / řeči obsahuje i tyto informace.

Leave a comment