Aparelho auditivo com IA traduz idiomas e reconhece tombos do usuárioLíngua morta de antigos povos é cogitada para uso em programas de IA

Segundos os cientistas, esse sistema de reconhecimento visual de fala (VSR, na sigla em inglês) utiliza algoritmos de aprendizado profundo para analisar o movimento labial, transformando as imagens captadas em conjuntos de caracteres conforme o idioma que está sendo falado. “Embora alguns algoritmos tenham alcançado resultados promissores em tarefas VSR, eles foram treinados principalmente para detectar falas em inglês. Isso limita sua base de usuários em potencial a pessoas que vivem ou trabalham em contextos de língua inglesa”, explicou o professor e autor principal do estudo, Pingchuan Ma, ao site TechXplore.

Modelo poliglota

O treinamento do novo algoritmo foi feito com base em um modelo de aprendizado profundo, capaz de reconhecer movimentos labiais em diversos idiomas. Esse sistema utilizado pelos cientistas é semelhante ao introduzido por estudos anteriores, mas com um conjunto de dados muito maior. Simplificando, esse modelo recebe imagens brutas e aprende automaticamente quais recursos deve extrair para concluir a tarefa de reconhecimento visual da fala. Essa abordagem amplifica a quantidade de informações necessárias para que o algoritmo consiga interpretar praticamente qualquer idioma. “Os resultados mostram que é possível moldar nosso modelo independentemente da língua que está sendo falada. Nos testes iniciais, tivemos um desempenho muito bom, superando outros sistemas de VSR treinados com conjuntos de dados muito maiores”, acrescentou o professor Ma.

Falta fluência

Como já era esperado pelos pesquisadores, o novo algoritmo não teve um desempenho tão bom quanto os modelos de reconhecimento de fala em inglês, principalmente devido aos conjuntos menores de dados disponíveis para o treinamento da inteligência artificial. Mesmo apresentando uma fluência reduzida em outros idiomas, os cientistas acreditam que esse é um passo importante para o desenvolvimento de modelos alternativos de VSR, capazes de reconhecer a fala a partir de movimentos labiais em outras línguas além do inglês. “No futuro, poderemos combinar os modelos de VSR com sistemas de reconhecimento de fala baseados em áudio. Com isso, em um ambiente ruidoso, um modelo audiovisual deve confiar mais no fluxo visual, mas quando a região da boca estiver ocluída, ele dependerá mais do sistema sonoro, podendo se adaptar às condições do local”, disse o professor Pingchuan Ma.