Qualidade dos dados é chave para resultado confiável da IA, afirma Gartner
Disseminar esta cultura em toda a organização é o grande desafio de uma jornada de êxito
28/04/202519/04/2022
Por redação AIoT Brasil
Quem assiste a filmes e séries policiais sabe o que é um retrato falado e entende como o computador está colaborando para a criação de imagens cada vez mais realistas dos procurados pela lei. Agora, porém, pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL) elevaram a tecnologia a outro patamar e desenvolveram uma ferramenta que cria a imagem do rosto de uma pessoa depois de ouvir uma gravação da voz dela por apenas 5 segundos.
O programa recebeu o nome de Speech2Face e, de acordo com o CSAIL, em seu treinamento foram utilizados milhões de vídeos do YouTube com mais de 100 mil falantes diferentes: “A inteligência artificial ouve o áudio da fala e o compara com outros áudios ouvidos. Ela pode então criar uma imagem com base nas características faciais mais comuns em clipes semelhantes”.
O estudo foi iniciado em 2019, com a intenção de descobrir se era possível definir a aparência de uma pessoa pela maneira como ela fala. “Projetamos e treinamos uma rede neural profunda para realizar essa tarefa. Durante o treinamento, nosso modelo aprende correlações de voz e rosto que permitem produzir imagens que capturam vários atributos físicos dos falantes, como idade, gênero e etnia. Isso é feito de forma auto-supervisionada, utilizando a co-ocorrência natural de rostos e falas em vídeos da internet, sem a necessidade de modelar explicitamente os atributos. Avaliamos e quantificamos numericamente como e de que maneira as reconstruções do Speech2Face, obtidas diretamente do áudio, se assemelham às imagens reais dos falantes”, explicaram os cientistas.
Também foram encontradas correlações entre a voz e detalhes como o formato da mandíbula, o que sugere a capacidade do Speech2Face de ajudar a produzir insights a respeito das conexões fisiológicas entre a estrutura facial e a fala. Além disso, os pesquisadores combinaram a IA com o aplicativo de emoji personalizado do Google e criaram o Speech2Cartoon, que transforma o rosto em um desenho, como uma caricatura.
A julgar pelos exemplos de recriação divulgados pelo CSAIL, os resultados impressionam, mas ainda não são absolutamente precisos. O laboratório explicou que a tecnologia ainda não está totalmente desenvolvida e que quanto mais longo for o áudio da fala mais aumenta a semelhança com a imagem de referência. Os pesquisadores também disseram que há a preocupação de preservar a privacidade das pessoas e, até que o trabalho se complete, o Speech2Face não estará disponível para uso público.
#caricatura#inteligência artificial#retrato falado#Speech2Face
Disseminar esta cultura em toda a organização é o grande desafio de uma jornada de êxito
28/04/2025Mais da metade das organizações se classifica como “experimentadora”, ainda em estágio intermediário na aplicação das ferramentas
25/04/2025Programa Elas na IA foi criado especialmente para mulheres cis ou trans que pretendem obter conhecimentos práticos em inteligência artificial
23/04/2025