MIT desenvolve IA que recria rostos a partir da voz

Tecnologia Speech2Face usa inteligência artificial para ouvir a fala de uma pessoa e produz uma imagem realista dela e até uma caricatura

19/04/2022

MIT desenvolve IA que recria rostos a partir da voz

Tamanho fonte

Por redação AIoT Brasil

Quem assiste a filmes e séries policiais sabe o que é um retrato falado e entende como o computador está colaborando para a criação de imagens cada vez mais realistas dos procurados pela lei. Agora, porém, pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL) elevaram a tecnologia a outro patamar e desenvolveram uma ferramenta que cria a imagem do rosto de uma pessoa depois de ouvir uma gravação da voz dela por apenas 5 segundos.

O programa recebeu o nome de Speech2Face e, de acordo com o CSAIL, em seu treinamento foram utilizados milhões de vídeos do YouTube com mais de 100 mil falantes diferentes: “A inteligência artificial ouve o áudio da fala e o compara com outros áudios ouvidos. Ela pode então criar uma imagem com base nas características faciais mais comuns em clipes semelhantes”.

O estudo foi iniciado em 2019, com a intenção de descobrir se era possível definir a aparência de uma pessoa pela maneira como ela fala. “Projetamos e treinamos uma rede neural profunda para realizar essa tarefa. Durante o treinamento, nosso modelo aprende correlações de voz e rosto que permitem produzir imagens que capturam vários atributos físicos dos falantes, como idade, gênero e etnia. Isso é feito de forma auto-supervisionada, utilizando a co-ocorrência natural de rostos e falas em vídeos da internet, sem a necessidade de modelar explicitamente os atributos. Avaliamos e quantificamos numericamente como e de que maneira as reconstruções do Speech2Face, obtidas diretamente do áudio, se assemelham às imagens reais dos falantes”, explicaram os cientistas.

Também foram encontradas correlações entre a voz e detalhes como o formato da mandíbula, o que sugere a capacidade do Speech2Face de ajudar a produzir insights a respeito das conexões fisiológicas entre a estrutura facial e a fala. Além disso, os pesquisadores combinaram a IA com o aplicativo de emoji personalizado do Google e criaram o Speech2Cartoon, que transforma o rosto em um desenho, como uma caricatura.

A julgar pelos exemplos de recriação divulgados pelo CSAIL, os resultados impressionam, mas ainda não são absolutamente precisos. O laboratório explicou que a tecnologia ainda não está totalmente desenvolvida e que quanto mais longo for o áudio da fala mais aumenta a semelhança com a imagem de referência. Os pesquisadores também disseram que há a preocupação de preservar a privacidade das pessoas e, até que o trabalho se complete, o Speech2Face não estará disponível para uso público.

Dois exemplos da capacidade do Speech2Face: da esquerda para a direita, a imagem de referência, o rosto recriado e a caricatura/Reprodução CSAIL

COMPARTILHE

Notícias Relacionadas

SoundHound adiciona poder de visão à sua plataforma de voz

Sistema Vision AI integra recursos para criar uma IA “que vê o que você vê, ouve o que você diz e responde no momento”

14/08/2025

Truth Social: quando a criatura desmente o seu criador

IA da rede social de Trump afirma que eleição de 2020 não foi fraudada, que as tarifas não impulsionam as bolsas e que Obama é o mais popular

13/08/2025

OpenAI não quer que o ChatGPT faça o papel de terapeuta

Os usuários serão orientados a fazer pausas em conversas longas e deixarão de receber conselhos para a solução de problemas pessoais

11/08/2025