AiotAiot


Pesquisadores treinam IA que “vê” e “ouve” ao mesmo tempo

Equipe da University of Cambridge, do Alan Turing Institute e do Google desenvolveu um novo modelo de transformador multimodal

02/12/2021

Pesquisadores treinam IA que “vê” e “ouve” ao mesmo tempo
Tamanho fonte

Por redação AIoT Brasil

A ideia é ambiciosa: um modelo unificado de transformador multimodal de última geração para inteligência artificial, capaz de classificar imagens, vídeos e áudio ao mesmo tempo e, assim, “ver” e “ouvir”. Chamado de PolyVit, o sistema foi desenvolvido em conjunto por uma equipe de cientistas da University of Cambridge, do Alan Turing Institute e do Google e publicado no final de novembro no site da Cornell University.

Os pesquisadores explicaram que buscavam um modelo que atingisse resultados competitivos ou de última geração para classificação de imagem, vídeo e áudio, por meio do treinamento de diferentes tarefas em uma única modalidade. Com uma ferramenta com essa capacidade, foi possível melhorar a precisão de cada tarefa individual e obter resultados de última geração em cinco conjuntos de dados de classificação de áudio e vídeo padrão.

O conceito de transformador multimodal, ou Sota, surgiu em 2017, projetado para processamento de linguagem natural (PNL), e seu desempenho chamou a atenção de pesquisadores de aprendizado de máquina, que posteriormente adaptaram com sucesso a arquitetura baseada na percepção de tarefas como a classificação de imagens, vídeo e áudio. Os resultados foram animadores, mas alcançar o desempenho Sota requer o treinamento de um modelo separado para cada tarefa, já que os algoritmos necessários para processar diferentes tipos de áudio são diferentes dos usados para processar vídeo.

O que a equipe de cientistas propõe é um modelo de transformador que processa várias modalidades e conjuntos de dados e compartilha seus parâmetros, “por meio de um treinamento simples e prático que não exige ajuste de hiperparâmetros para cada combinação de conjuntos de dados, bastando adaptá-los ao treinamento padrão de tarefa única, em vários domínios”. A novidade interessa às empresas de tecnologia, na medida em que sugere a possibilidade de agregar as diferentes soluções de aprendizado de máquinas existentes hoje em um modelo único. Os cientistas, no entanto, admitiram que se trata de uma pesquisa inicial, sem prazo definido para que o PolyViT tenha aplicação prática.

TAGS

#inteligência artificial#PolyVit#sota#transformador multimodal

COMPARTILHE

Notícias Relacionadas