SoundHound adiciona poder de visão à sua plataforma de voz
Sistema Vision AI integra recursos para criar uma IA “que vê o que você vê, ouve o que você diz e responde no momento”
14/08/202526/03/2025
*Imagem: reprodução MIT News
Por Ricardo Marques da Silva
Com a colaboração da Nvidia, pesquisadores do Instituto de Tecnologia de Massachusetts (MIT) desenvolveram uma ferramenta que combina dois modelos de IA generativa para gerar imagens de alta qualidade com mais rapidez do que as abordagens de última geração. O HART, sigla de Hybrid Autoregressive Transformer, usa um modelo autorregressivo para capturar rapidamente o panorama geral e, em seguida, um pequeno modelo de difusão para refinar os detalhes da imagem.
Os cientistas do MIT explicaram que a intenção era reunir os benefícios das duas técnicas de IA generativa mais usadas para criar imagens de alta qualidade, um recurso crucial para, por exemplo, produzir ambientes simulados realistas que podem ser usados para treinar veículos autônomos. A primeira é o modelo de difusão, capaz de gerar imagens muito realistas, mas com a desvantagem de ser lento e computacionalmente intensivo para muitas aplicações. A segunda técnica envolve os modelos autorregressivos que alimentam IAs como o ChatGPT, que são muito mais rápidos, mas produzem imagens de qualidade inferior.
O HART, portanto, foi o resultado da combinação das duas técnicas, a fim de gerar imagens que correspondem ou excedem a qualidade dos modelos de difusão, com velocidade nove vezes maior do que os autorregressivos. Os pesquisadores disseram que o novo processo consome menos recursos computacionais e permite que o HART rode localmente em um laptop ou em até mesmo em um smartphone.
O usuário só precisa digitar um prompt de linguagem natural na interface HART para gerar uma imagem. O modelo também tem uma ampla gama de aplicações, como ajudar pesquisadores a treinar robôs para completar tarefas complexas do mundo real e auxiliar designers a produzir cenas para videogames.
Haotian Tang, coautor principal do artigo que apresentou o HART, explicou: “Se você estiver desenhando uma paisagem e pintar a tela inteira de uma vez, pode não ficar muito bom. Mas se você pintar o quadro geral e depois refinar a imagem com pinceladas menores, sua pintura pode ficar muito melhor. Essa é a ideia básica do HART. Podemos obter um grande impulso em termos de qualidade de reconstrução. Nossos tokens residuais aprendem detalhes de alta frequência, como bordas de um objeto ou o cabelo, os olhos ou a boca de uma pessoa. Esses são lugares onde tokens discretos podem cometer erros”, disse Tang.
A pesquisa contou com financiamento do MIT-IBM Watson AI Lab, do Amazon Science Hub, do MIT AI Hardware Program e da National Science Foundation, enquanto a infraestrutura de GPU para treinar o modelo foi doada pela NVIDIA. O estudo será apresentado oficialmente na Conferência Internacional sobre Representações de Aprendizagem, que ocorrerá entre 24 e 28 de abril em Singapura.
#IA generativa#imagens de alta qualidade#linguagem natural#prompt#veículos autônomos
Sistema Vision AI integra recursos para criar uma IA “que vê o que você vê, ouve o que você diz e responde no momento”
14/08/2025IA da rede social de Trump afirma que eleição de 2020 não foi fraudada, que as tarifas não impulsionam as bolsas e que Obama é o mais popular
13/08/2025Os usuários serão orientados a fazer pausas em conversas longas e deixarão de receber conselhos para a solução de problemas pessoais
11/08/2025