Ferramentas de IA terão papel fundamental na Copa do Mundo
Conjunto de inovações Football AI Pro oferecerá desde uma nova versão da Visão do Árbitro até avatares 3D dos jogadores
16/03/202605/06/2025

Imagem: Esboços feitos com o SketchAgent/Reprodução MIT
Por redação AIoT Brasil
No treinamento de modelos de IA, quando as palavras não são suficientes para explicar um conceito, a solução mais simples pode surgir por meio de esboços que parecem desenhos infantis. É mais ou menos isso o que foi proposto por pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do Instituto de Tecnologia de Massachusetts (MIT) ao desenvolverem o SketchAgent, um sistema que esboça figuras para expressar visualmente uma ideia.
A ferramenta utiliza um modelo de linguagem multimodal — sistemas de IA que treinam com texto e imagens, como o Claude 3.5 Sonnet da Anthropic — para transformar instruções em linguagem natural em esboços, em poucos segundos. O sistema pode, por exemplo, rabiscar uma casa desenhando junto com uma pessoa ou incorporando entrada de texto para esboçar cada parte separadamente.
O SketchAgent é capaz de criar desenhos abstratos de diferentes conceitos, como um robô, uma borboleta, uma hélice de DNA ou um fluxograma. A ideia é que, no futuro, o sistema possa ser expandido também para um jogo de arte interativo que ajudará professores e pesquisadores a diagramar conceitos complexos ou a dar aos usuários uma rápida aula de desenho.
Yael Vinker, pós-doutoranda no CSAIL e principal autora do artigo que apresentou o SketchAgent, explicou que o sistema apresenta uma maneira mais natural para os humanos se comunicarem com a IA: “Nem todo mundo tem consciência do quanto desenha no dia a dia. Podemos desenhar nossos pensamentos ou ideias para workshops com esboços. Nossa ferramenta visa emular esse processo, tornando os modelos de linguagem multimodal mais úteis para nos ajudar a expressar visualmente uma ideia”.
A equipe testou o SketchAgent em modo de colaboração, em que um humano e um modelo de IA trabalharam em conjunto para desenhar um conceito específico. Em um dos experimentos, os pesquisadores conectaram diferentes modelos de linguagem multimodal ao sistema, para ver qual deles criaria os esboços mais reconhecíveis. Seu modelo padrão, o Claude 3.5 Sonnet, gerou os gráficos vetoriais mais semelhantes aos que são feitos por humanos e superou IAs como o GPT-4o e o Claude 3 Opus.
Além de Yael Vinker e de outros dois pesquisadores do CSAIL, participaram do projeto duas cientistas da Universidade de Stanford. O grupo apresentará seu trabalho na Conferência Visão Computacional e Reconhecimento de Padrões, que se realizará entre 11 e 15 de junho em Nashville, nos Estados Unidos.
#desenhos infantis#linguagem multimodal#linguagem natural#prompts

Conjunto de inovações Football AI Pro oferecerá desde uma nova versão da Visão do Árbitro até avatares 3D dos jogadores
16/03/2026
Processo foi iniciado depois da ofensiva movida contra a empresa pelo governo Trump, relacionada ao uso de IA para fins militares e em vigilância
13/03/2026
World Monitor é um projeto paralelo lançado por Elie Habib, do Anghami, para acompanhar os conflitos no Irã e no Oriente Médio
12/03/2026