AIoT Brasil BRASIL INTELIGÊNCIA ARTIFICIALE INTERNET DAS COISAS BRASIL

Fechar
A A

Tamanho fonte

Por redação AIoT Brasil

Quem assiste a filmes e séries policiais sabe o que é um retrato falado e entende como o computador está colaborando para a criação de imagens cada vez mais realistas dos procurados pela lei. Agora, porém, pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL) elevaram a tecnologia a outro patamar e desenvolveram uma ferramenta que cria a imagem do rosto de uma pessoa depois de ouvir uma gravação da voz dela por apenas 5 segundos.

O programa recebeu o nome de Speech2Face e, de acordo com o CSAIL, em seu treinamento foram utilizados milhões de vídeos do YouTube com mais de 100 mil falantes diferentes: “A inteligência artificial ouve o áudio da fala e o compara com outros áudios ouvidos. Ela pode então criar uma imagem com base nas características faciais mais comuns em clipes semelhantes”.

O estudo foi iniciado em 2019, com a intenção de descobrir se era possível definir a aparência de uma pessoa pela maneira como ela fala. “Projetamos e treinamos uma rede neural profunda para realizar essa tarefa. Durante o treinamento, nosso modelo aprende correlações de voz e rosto que permitem produzir imagens que capturam vários atributos físicos dos falantes, como idade, gênero e etnia. Isso é feito de forma auto-supervisionada, utilizando a co-ocorrência natural de rostos e falas em vídeos da internet, sem a necessidade de modelar explicitamente os atributos. Avaliamos e quantificamos numericamente como e de que maneira as reconstruções do Speech2Face, obtidas diretamente do áudio, se assemelham às imagens reais dos falantes”, explicaram os cientistas.

Também foram encontradas correlações entre a voz e detalhes como o formato da mandíbula, o que sugere a capacidade do Speech2Face de ajudar a produzir insights a respeito das conexões fisiológicas entre a estrutura facial e a fala. Além disso, os pesquisadores combinaram a IA com o aplicativo de emoji personalizado do Google e criaram o Speech2Cartoon, que transforma o rosto em um desenho, como uma caricatura.

A julgar pelos exemplos de recriação divulgados pelo CSAIL, os resultados impressionam, mas ainda não são absolutamente precisos. O laboratório explicou que a tecnologia ainda não está totalmente desenvolvida e que quanto mais longo for o áudio da fala mais aumenta a semelhança com a imagem de referência. Os pesquisadores também disseram que há a preocupação de preservar a privacidade das pessoas e, até que o trabalho se complete, o Speech2Face não estará disponível para uso público.

Dois exemplos da capacidade do Speech2Face: da esquerda para a direita, a imagem de referência, o rosto recriado e a caricatura/Reprodução CSAIL

Mais populares

02/06/2022

Inteligência artificial detecta fake news na internet

Leia mais
13/01/2021

Testamos os recursos tecnológicos do VW Nivus

Leia mais
20/01/2022

Os principais ataques cibernéticos no Brasil em 2021

Leia mais
23/06/2022

FEA/USP promove conferência de ciência e negócios

Leia mais
27/08/2021

Automação doméstica deve crescer 30% no Brasil

Leia mais
break

Notícias Relacionadas