Regulação e política na IA: conformidade, proteção e desafios
Com o crescimento exponencial da coleta de dados, a privacidade tornou-se uma preocupação fundamental
30/08/202402/09/2024
Por Amanda Oliveira*
Quem lê comentários em redes sociais como Instagram ou X (antigo Twitter) já deve ter notado que as pessoas podem fazer uso de diferentes maneiras para camuflar termos que podem ser considerados tóxicos, como o uso da técnica “leet speak”, na qual as vogais são substituídas por números. Assim, a palavra “matar”, por exemplo, fica com a grafia “m4t4r”. Essa estratégia revela um dos desafios para o desenvolvimento da Inteligência Artificial na detecção de discurso tóxico na internet, um trabalho que vai muito além da simples identificação de palavras ou termos considerados inapropriados.
Uma ferramenta que pode ser utilizada na detecção de discursos de ódio online são as LLMs (Large Language Models ou Grande Modelos de Linguagem, em português), das quais o ChatGPT, uma aplicação que usa LMM, é o mais popular entre a população em geral. Isso porque, apesar dos grandes modelos de linguagem não serem os melhores na tarefa de classificação, eles possuem uma melhor capacidade em lidar com a diversidade linguística, já que possuem uma maior janela de contexto, o que pode auxiliar fortemente na detecção de discurso de ódio.
Aprendizado de máquina
Uma das soluções para a detecção dessas linguagens mais delicadas e/ou agressivas é utilizar diferentes técnicas do campo da inteligência artificial, como é o caso do machine learning (aprendizado de máquina, em português), que permite que a máquina “aprenda” a partir de conjuntos de dados rotulados por humanos e armazene padrões que possam ser reconhecidos em novos dados.
Dentro do campo de estudo do machine learning, encontra-se a deep learning, que se fundamenta em algoritmos em camadas interconectadas baseando-se no funcionamento dos neurônios do cérebro humano – não por acaso, uma das principais estruturas desse ambiente é a chamada rede neural artificial.
Para o caso de encontrarmos um discurso odioso, é necessário que a “máquina” entenda a língua humana, e é através do Processamento de Linguagem Natural, ou Natural Language Processing (NLP), que isso acontece. O NLP é um campo da inteligência artificial que une a computação com a linguística e tem o objetivo de fazer com que o computador entenda a linguagem humana, permitindo, por exemplo, a identificação de palavras tóxicas ou inapropriadas em um texto.
O foco do NLP para o português brasileiro
Nos últimos anos, não apenas a tarefa de detecção de discurso de ódio, como diversas outras tarefas de NLP, têm evidenciado a necessidade urgente de investir em recursos de Processamento de Linguagem Natural para o português brasileiro.
A comunidade acadêmica e a indústria têm reconhecido essa demanda e destacado a importância de desenvolver conjuntos de dados, dicionários, taxonomias e ferramentas específicas para o idioma. Esses investimentos são cruciais para que as soluções de inteligência artificial voltadas para o português brasileiro possam alavancar significativamente, atingindo níveis de desempenho comparáveis aos observados em idiomas como o inglês.
A construção de grandes conjuntos de dados bem rotulados, ou seja, um conjunto de referências e informações, combinada com a utilização de técnicas avançadas de aprendizado profundo, como Transformers e modelos pré-treinados (por exemplo, o BERT, em inglês Bidirectional Encoder Representations for Transformers, em português, traduzido para Representações Codificadoras Bidirecionais de Transformadores, e o GPT3), pode proporcionar melhorias significativas na precisão e robustez de sistemas de processamento de linguagem natural.
A adaptação desses modelos para o português, por meio de transferência de aprendizado e ajustes finos utilizando grandes conjuntos de dados, é um passo vital para garantir que as nuances e particularidades do nosso idioma sejam adequadamente capturadas.
Assim, é essencial avaliar a capacidade dos modelos atuais no mercado, entendendo as evoluções necessárias para diferentes tarefas. Estudos comparativos são indispensáveis para compreender, por exemplo, a eficácia dos diversos modelos de linguagem disponíveis, fornecendo subsídios valiosos para tomadas de decisões.
Por isso, o desenvolvimento de um ecossistema robusto de recursos de NLP para o português brasileiro é essencial para fomentar a inovação no Brasil. A parceria entre indústria e academia desempenha um papel vital nesse processo, garantindo que as soluções desenvolvidas sejam tanto inovadoras quanto aplicáveis no mundo real.
*Amanda Oliveira é líder e especialista em AI na Blip, plataforma de inteligência conversacional. É mestre em Ciência da Computação pela Universidade Federal de Ouro Preto (UFOP)
#AI#discurso de ódio#discurso tóxico#IA#Instagram#linguagem#moderação#redes sociais
Com o crescimento exponencial da coleta de dados, a privacidade tornou-se uma preocupação fundamental
30/08/2024A partir de chipsets avançados e hardware moderno, os equipamentos reduzem o desfoque de movimento e fornecem imagens nítidas e claras, mesmo em ambientes de baixa iluminação
29/08/2024Em um futuro em que a computação quântica será uma realidade, a segurança será um pilar essencial para garantir a integridade e a privacidade das transações eletrônicas
28/08/2024