AiotAiot


SoundHound adiciona poder de visão à sua plataforma de voz

Sistema Vision AI integra recursos para criar uma IA “que vê o que você vê, ouve o que você diz e responde no momento”

14/08/2025

SoundHound adiciona poder de visão à sua plataforma de voz
Tamanho fonte

*Imagem: reprodução SoundHound

Por Ricardo Marques da Silva

A startup californiana SoundHound AI acaba de anunciar a integração de um mecanismo avançado de visão à sua plataforma de voz, o que significa que o usuário poderá combinar o mundo visual com a inteligência conversacional para interações de IA mais naturais e responsivas. Definido como “um novo paradigma de interação para empresas”, o sistema Vision AI permite, por exemplo, pedir ao aplicativo informações sobre determinado prédio e receber uma resposta instantânea.

“Esta é uma inovação na interseção entre inteligência e execução, oferecendo uma IA que vê o que você vê, ouve o que você diz e responde no momento”, afirmou Pranav Singh, vice-presidente de engenharia da SoundHound AI. Ele explicou que o Vision AI une reconhecimento visual e inteligência conversacional em um fluxo único e sincronizado: “Cada quadro, cada expressão, cada intenção é interpretada dentro do mesmo ecossistema, garantindo experiências de usuário mais rápidas e naturais, que se expandem em todas as superfícies, de quiosques a dispositivos embarcados”, acrescentou.

De acordo com a empresa, o sistema é inspirado na forma harmônica como o cérebro humano processa a linguagem falada e o contexto visual: “O Vision AI reúne as capacidades visuais e de voz em uma plataforma inteligente, permitindo que a tecnologia ouça, veja e interprete o mundo ao seu redor com notável clareza. O mais importante é que essa inovação permitirá que qualquer empresa ofereça interações empáticas e contextualizadas que pareçam mais humanas nos dispositivos instalados em um carro, em um drive-thru, no varejo ou em operações industriais”.

O recurso funciona por meio da união da percepção visual habilitada pela câmera com o reconhecimento automático de fala Polaris, a compreensão de linguagem natural e a orquestração de agentes e tecnologias de conversão de texto em voz. Keyvan Mohajer, CEO da SoundHound AI, acrescentou: “Acreditamos que o futuro da IA não é apenas multimodal – é profundamente integrado, responsivo e construído para ter impacto no mundo real”. Com o Vision AI, estamos redefinindo como os humanos interagem com os produtos e serviços oferecidos e utilizados pelas empresas.”

TAGS

#inteligência conversacional#plataforma de voz#reconhecimento visual#SoundHound#Vision AI

COMPARTILHE

Notícias Relacionadas