Setor de turismo em Portugal quer ampliar a aplicação de IA
Atualmente apenas 6,6% das empresas usam a tecnologia, mas novos projetos avançam com o apoio do governo
04/06/202505/06/2025
Imagem: Esboços feitos com o SketchAgent/Reprodução MIT
Por redação AIoT Brasil
No treinamento de modelos de IA, quando as palavras não são suficientes para explicar um conceito, a solução mais simples pode surgir por meio de esboços que parecem desenhos infantis. É mais ou menos isso o que foi proposto por pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do Instituto de Tecnologia de Massachusetts (MIT) ao desenvolverem o SketchAgent, um sistema que esboça figuras para expressar visualmente uma ideia.
A ferramenta utiliza um modelo de linguagem multimodal — sistemas de IA que treinam com texto e imagens, como o Claude 3.5 Sonnet da Anthropic — para transformar instruções em linguagem natural em esboços, em poucos segundos. O sistema pode, por exemplo, rabiscar uma casa desenhando junto com uma pessoa ou incorporando entrada de texto para esboçar cada parte separadamente.
O SketchAgent é capaz de criar desenhos abstratos de diferentes conceitos, como um robô, uma borboleta, uma hélice de DNA ou um fluxograma. A ideia é que, no futuro, o sistema possa ser expandido também para um jogo de arte interativo que ajudará professores e pesquisadores a diagramar conceitos complexos ou a dar aos usuários uma rápida aula de desenho.
Yael Vinker, pós-doutoranda no CSAIL e principal autora do artigo que apresentou o SketchAgent, explicou que o sistema apresenta uma maneira mais natural para os humanos se comunicarem com a IA: “Nem todo mundo tem consciência do quanto desenha no dia a dia. Podemos desenhar nossos pensamentos ou ideias para workshops com esboços. Nossa ferramenta visa emular esse processo, tornando os modelos de linguagem multimodal mais úteis para nos ajudar a expressar visualmente uma ideia”.
A equipe testou o SketchAgent em modo de colaboração, em que um humano e um modelo de IA trabalharam em conjunto para desenhar um conceito específico. Em um dos experimentos, os pesquisadores conectaram diferentes modelos de linguagem multimodal ao sistema, para ver qual deles criaria os esboços mais reconhecíveis. Seu modelo padrão, o Claude 3.5 Sonnet, gerou os gráficos vetoriais mais semelhantes aos que são feitos por humanos e superou IAs como o GPT-4o e o Claude 3 Opus.
Além de Yael Vinker e de outros dois pesquisadores do CSAIL, participaram do projeto duas cientistas da Universidade de Stanford. O grupo apresentará seu trabalho na Conferência Visão Computacional e Reconhecimento de Padrões, que se realizará entre 11 e 15 de junho em Nashville, nos Estados Unidos.
#desenhos infantis#linguagem multimodal#linguagem natural#prompts
Atualmente apenas 6,6% das empresas usam a tecnologia, mas novos projetos avançam com o apoio do governo
04/06/2025Aplicativo desenvolvido pelas duas empresas oferece aos usuários novos recursos de monitoramento e previsão do nível de glicose
04/06/2025Iniciativa das duas empresas é uma reação às restrições impostas pelo governo Trump às exportações para o país asiático
02/06/2025