Desta vez, a empresa divulgou um novo avanço nesse sentido usando redes neurais. Você consegue reconhecer a diferença entre a voz humana e a sintetizada?

O Google criou um sistema chamado Tacotron 2, para síntese de fala diretamente a partir de texto. Ele tem vários recursos interessantes, como corrigir sua escrita: você pode digitar “thisss isrealy awhsome” e ouvir a frase correta (“this is really awesome”). Além disso, o sistema pronuncia as palavras de acordo com o significado. Por exemplo, “desert” pode ser “desertar” ou “deserto” — a rede neural detecta isso, e dá a ênfase correta. Ele também faz pausas quando detecta vírgulas; muda a entonação ao fazer uma pergunta; pronuncia corretamente termos mais complexos como “otolaryngology” ou “Talib Kweli”; e é bom em trava-línguas. O mais crucial, no entanto, é que o Tacotron 2 se aproxima bastante da voz humana. Nos exemplos abaixo, você consegue identificar qual frase foi dita por um humano, e qual foi produzida pela IA do Google? (Se os áudios não rodarem, visite esta página do Google para ouvi-los.)

  1. “That girl did a video about Star Wars lipstick.”
  2. “She earned a doctorate in sociology at Columbia University.”
  3. “George Washington was the first President of the United States.”
  4. “I’m too busy for romance.” O gabarito está no final do post. Eu consegui identificar corretamente as vozes gerada por computador; algumas diferenças no ritmo de fala permitem detectar isso — elas são perceptíveis, mas bem sutis. Essa nova técnica do Google reúne dois projetos anteriores de geração de fala: a WaveNet e o Tacotron original. A WaveNet é uma rede neural que aprende a simular nossa voz. Ela começa com áudios gravados por humanos, tenta replicá-los e vai melhorando a cada iteração, até criar uma voz sintética próxima à real. Ela faz uma simulação usando 16 mil amostras para cada segundo. Por sua vez, o Tacotron original servia para emular recursos de alto nível, como entonação e prosódia. Juntos, esses dois sistemas “produzem uma fala que soa natural e que se aproxima da fidelidade de áudio da fala humana real”, escrevem os pesquisadores. O estudo está disponível aqui. Com informações: TechCrunch. A voz humana corresponde aos exemplos 1a, 2b, 3b e 4a.
Rede neural do Google consegue imitar ainda melhor a voz humana   Tecnoblog - 13