Vídeos do Cidadania mostram como a IA pode ser convincente
Os dois filmes do partido foram produzidos inteiramente com a tecnologia e alertam para o risco de manipulação nas eleições
02/04/202526/03/2025
*Imagem: reprodução MIT News
Por Ricardo Marques da Silva
Com a colaboração da Nvidia, pesquisadores do Instituto de Tecnologia de Massachusetts (MIT) desenvolveram uma ferramenta que combina dois modelos de IA generativa para gerar imagens de alta qualidade com mais rapidez do que as abordagens de última geração. O HART, sigla de Hybrid Autoregressive Transformer, usa um modelo autorregressivo para capturar rapidamente o panorama geral e, em seguida, um pequeno modelo de difusão para refinar os detalhes da imagem.
Os cientistas do MIT explicaram que a intenção era reunir os benefícios das duas técnicas de IA generativa mais usadas para criar imagens de alta qualidade, um recurso crucial para, por exemplo, produzir ambientes simulados realistas que podem ser usados para treinar veículos autônomos. A primeira é o modelo de difusão, capaz de gerar imagens muito realistas, mas com a desvantagem de ser lento e computacionalmente intensivo para muitas aplicações. A segunda técnica envolve os modelos autorregressivos que alimentam IAs como o ChatGPT, que são muito mais rápidos, mas produzem imagens de qualidade inferior.
O HART, portanto, foi o resultado da combinação das duas técnicas, a fim de gerar imagens que correspondem ou excedem a qualidade dos modelos de difusão, com velocidade nove vezes maior do que os autorregressivos. Os pesquisadores disseram que o novo processo consome menos recursos computacionais e permite que o HART rode localmente em um laptop ou em até mesmo em um smartphone.
O usuário só precisa digitar um prompt de linguagem natural na interface HART para gerar uma imagem. O modelo também tem uma ampla gama de aplicações, como ajudar pesquisadores a treinar robôs para completar tarefas complexas do mundo real e auxiliar designers a produzir cenas para videogames.
Haotian Tang, coautor principal do artigo que apresentou o HART, explicou: “Se você estiver desenhando uma paisagem e pintar a tela inteira de uma vez, pode não ficar muito bom. Mas se você pintar o quadro geral e depois refinar a imagem com pinceladas menores, sua pintura pode ficar muito melhor. Essa é a ideia básica do HART. Podemos obter um grande impulso em termos de qualidade de reconstrução. Nossos tokens residuais aprendem detalhes de alta frequência, como bordas de um objeto ou o cabelo, os olhos ou a boca de uma pessoa. Esses são lugares onde tokens discretos podem cometer erros”, disse Tang.
A pesquisa contou com financiamento do MIT-IBM Watson AI Lab, do Amazon Science Hub, do MIT AI Hardware Program e da National Science Foundation, enquanto a infraestrutura de GPU para treinar o modelo foi doada pela NVIDIA. O estudo será apresentado oficialmente na Conferência Internacional sobre Representações de Aprendizagem, que ocorrerá entre 24 e 28 de abril em Singapura.
#IA generativa#imagens de alta qualidade#linguagem natural#prompt#veículos autônomos
Os dois filmes do partido foram produzidos inteiramente com a tecnologia e alertam para o risco de manipulação nas eleições
02/04/2025Objetivo é permitir que as empresas transformem dados comerciais de alto desempenho quase em tempo real
01/04/2025Demora no lançamento da ferramenta foi atribuída pela big tech a problemas regulatórios com uso de dados dos usuários
31/03/2025