SoundHound adiciona poder de visão à sua plataforma de voz
Sistema Vision AI integra recursos para criar uma IA “que vê o que você vê, ouve o que você diz e responde no momento”
14/08/202505/06/2025
Imagem: Esboços feitos com o SketchAgent/Reprodução MIT
Por redação AIoT Brasil
No treinamento de modelos de IA, quando as palavras não são suficientes para explicar um conceito, a solução mais simples pode surgir por meio de esboços que parecem desenhos infantis. É mais ou menos isso o que foi proposto por pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do Instituto de Tecnologia de Massachusetts (MIT) ao desenvolverem o SketchAgent, um sistema que esboça figuras para expressar visualmente uma ideia.
A ferramenta utiliza um modelo de linguagem multimodal — sistemas de IA que treinam com texto e imagens, como o Claude 3.5 Sonnet da Anthropic — para transformar instruções em linguagem natural em esboços, em poucos segundos. O sistema pode, por exemplo, rabiscar uma casa desenhando junto com uma pessoa ou incorporando entrada de texto para esboçar cada parte separadamente.
O SketchAgent é capaz de criar desenhos abstratos de diferentes conceitos, como um robô, uma borboleta, uma hélice de DNA ou um fluxograma. A ideia é que, no futuro, o sistema possa ser expandido também para um jogo de arte interativo que ajudará professores e pesquisadores a diagramar conceitos complexos ou a dar aos usuários uma rápida aula de desenho.
Yael Vinker, pós-doutoranda no CSAIL e principal autora do artigo que apresentou o SketchAgent, explicou que o sistema apresenta uma maneira mais natural para os humanos se comunicarem com a IA: “Nem todo mundo tem consciência do quanto desenha no dia a dia. Podemos desenhar nossos pensamentos ou ideias para workshops com esboços. Nossa ferramenta visa emular esse processo, tornando os modelos de linguagem multimodal mais úteis para nos ajudar a expressar visualmente uma ideia”.
A equipe testou o SketchAgent em modo de colaboração, em que um humano e um modelo de IA trabalharam em conjunto para desenhar um conceito específico. Em um dos experimentos, os pesquisadores conectaram diferentes modelos de linguagem multimodal ao sistema, para ver qual deles criaria os esboços mais reconhecíveis. Seu modelo padrão, o Claude 3.5 Sonnet, gerou os gráficos vetoriais mais semelhantes aos que são feitos por humanos e superou IAs como o GPT-4o e o Claude 3 Opus.
Além de Yael Vinker e de outros dois pesquisadores do CSAIL, participaram do projeto duas cientistas da Universidade de Stanford. O grupo apresentará seu trabalho na Conferência Visão Computacional e Reconhecimento de Padrões, que se realizará entre 11 e 15 de junho em Nashville, nos Estados Unidos.
#desenhos infantis#linguagem multimodal#linguagem natural#prompts
Sistema Vision AI integra recursos para criar uma IA “que vê o que você vê, ouve o que você diz e responde no momento”
14/08/2025IA da rede social de Trump afirma que eleição de 2020 não foi fraudada, que as tarifas não impulsionam as bolsas e que Obama é o mais popular
13/08/2025Os usuários serão orientados a fazer pausas em conversas longas e deixarão de receber conselhos para a solução de problemas pessoais
11/08/2025