Sistema do MIT ensina modelos de IA a expressar conceitos visuais

Desenvolvido por pesquisadores do instituto de tecnologia, SketchAgent transforma prompts de linguagem natural em esboços em poucos segundos

05/06/2025

Sistema do MIT ensina modelos de IA a expressar conceitos visuais

Tamanho fonte

Imagem: Esboços feitos com o SketchAgent/Reprodução MIT

Por redação AIoT Brasil

No treinamento de modelos de IA, quando as palavras não são suficientes para explicar um conceito, a solução mais simples pode surgir por meio de esboços que parecem desenhos infantis. É mais ou menos isso o que foi proposto por pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do Instituto de Tecnologia de Massachusetts (MIT) ao desenvolverem o SketchAgent, um sistema que esboça figuras para expressar visualmente uma ideia.

A ferramenta utiliza um modelo de linguagem multimodal — sistemas de IA que treinam com texto e imagens, como o Claude 3.5 Sonnet da Anthropic — para transformar instruções em linguagem natural em esboços, em poucos segundos. O sistema pode, por exemplo, rabiscar uma casa desenhando junto com uma pessoa ou incorporando entrada de texto para esboçar cada parte separadamente.

O SketchAgent é capaz de criar desenhos abstratos de diferentes conceitos, como um robô, uma borboleta, uma hélice de DNA ou um fluxograma. A ideia é que, no futuro, o sistema possa ser expandido também para um jogo de arte interativo que ajudará professores e pesquisadores a diagramar conceitos complexos ou a dar aos usuários uma rápida aula de desenho.

Yael Vinker, pós-doutoranda no CSAIL e principal autora do artigo que apresentou o SketchAgent, explicou que o sistema apresenta uma maneira mais natural para os humanos se comunicarem com a IA: “Nem todo mundo tem consciência do quanto desenha no dia a dia. Podemos desenhar nossos pensamentos ou ideias para workshops com esboços. Nossa ferramenta visa emular esse processo, tornando os modelos de linguagem multimodal mais úteis para nos ajudar a expressar visualmente uma ideia”.

A equipe testou o SketchAgent em modo de colaboração, em que um humano e um modelo de IA trabalharam em conjunto para desenhar um conceito específico. Em um dos experimentos, os pesquisadores conectaram diferentes modelos de linguagem multimodal ao sistema, para ver qual deles criaria os esboços mais reconhecíveis. Seu modelo padrão, o Claude 3.5 Sonnet, gerou os gráficos vetoriais mais semelhantes aos que são feitos por humanos e superou IAs como o GPT-4o e o Claude 3 Opus.

Além de Yael Vinker e de outros dois pesquisadores do CSAIL, participaram do projeto duas cientistas da Universidade de Stanford. O grupo apresentará seu trabalho na Conferência Visão Computacional e Reconhecimento de Padrões, que se realizará entre 11 e 15 de junho em Nashville, nos Estados Unidos.

COMPARTILHE

Notícias Relacionadas

“Não confie cegamente na IA”, recomenda o CEO do Google

Sundar Pichai disse que mesmo os modelos de IA de ponta são sujeitos a erro e o melhor é utilizá-los em conjunto com outras ferramentas

21/11/2025

Maioria das empresas projeta expansão do investimento em TI

Pesquisa IT Trends Snapshot prevê que em 2026 a prioridade será a segurança das informações, seguida da eficiência operacional

17/11/2025

Google Earth AI ganha novos recursos que refinam as buscas

Uma das inovações é o Raciocínio Geoespacial, que permite a conexão automática de diferentes modelos de IA da Terra

14/11/2025