
15 segundos, é tudo que o Voice Engine precisa. Foto: Depositphotos.
A OpenAI, empresa por trás do ChatGPT, criou um sistema que consegue ler palavras e textos com uma voz humana de pessoas reais.
O chamado Voice Engine pode criar falas que soam como pessoas que realmente existem, de forma completa com sua cadência e entonações específicas, tudo a partir de apenas 15 segundos de áudio gravado de uma pessoa falando.
Segundo revela a Bloomberg, o resultado é “convincente” e “não distinguível” da voz da pessoa real.
A novidade está em fase inicial. Apenas 10 desenvolvedores trabalham com ela até o momento, segundo a OpenAI.
Um plano de roll out mais amplo da funcionalidade foi inclusive parado, depois que a Open AI recebeu negativo sobre o Voice Engine.
Especialistas e legisladores consultados pela OpenAI mostraram preocupação com a possibilidade da tecnologia ser usada para cometer fraudes.
“Reconhecemos que gerar uma fala que se assemelha às vozes das pessoas apresenta sérios riscos, que estão especialmente em destaque em um ano eleitoral”, escreveu a empresa em um post no blog na sexta-feira, 29.
O ano eleitoral no caso é nos Estados Unidos, onde Donald Trump e Joe Biden se enfrentam no final do ano.
Tecnologias como o Voice Engine já foram usadas nas primárias americanas.
Em janeiro, uma chamada telefônica falsa, mas realista, foi feita com a voz de Biden no estado de New Hampshire.
Recentemente, a IBM fez um experimento provando que é possível que um robô entre numa ligação telefônica e substitua um dos interlocutores, sem que o outro perceba.
USOS POSITIVOS
Com tantas possibilidades negativas, vale destacar que a tecnologia de simulação de voz também tem usos de casos benéficos.
Um dos parceiros desenvolvedores da Open AI para o Voice Engine é o Instituto de Neurociências Norman Prince, que está usando a tecnologia para ajudar pacientes a recuperar suas vozes.
Por exemplo, a ferramenta foi usada para ajudar a restaurar a voz de uma jovem paciente que perdeu sua capacidade de falar de forma clara devido a um tumor cerebral, replicando seu discurso de uma gravação anterior para um projeto escolar.
O modelo de fala personalizado da OpenAI também pode traduzir o áudio que gera para diferentes idiomas.