OpenAI é acusada na Índia de violação de direitos autorais
Processo foi aberto por uma das principais agências de notícias do país e envolve dados usados no treinamento do ChatGPT
21/11/202421/09/2020
Por redação AIoT Brasil
Um sistema de inteligência artificial que lê todas as páginas da internet, em todos os idiomas, e extrai o máximo possível de fatos para “aprender” com eles e criar o maior gráfico de conhecimento de todos os tempos: essa é proposta da startup Diffbot, de Stanford, Califórnia, ao desenvolver um novo modelo de linguagem que automatiza totalmente o processo de construção de textos.
Assim como o GPT-3, lançado em julho pela OpenAI, o sistema da Diffbot coleta na web bilhões de dados e cria textos que parecem ter sido escritos por humanos. Porém, em vez de usar os dados para treinar um modelo de linguagem, a Diffbot transforma o que lê em uma série de informações inter-relacionadas, com sujeito, verbo e objeto.
Ao comparar os modelos de linguagem atuais com o novo sistema, Mike Tung, CEO da Diffbot, disse que eles são imitadores incríveis, mas têm pouca noção do que estão realmente dizendo: “Eles são realmente bons em gerar histórias sobre unicórnios, mas não são treinados para serem factuais”, afirmou, em entrevista à revista do Instituto de Tecnologia de Massachusetts.
O gráfico de conhecimento é reconstruído de quatro em quatro dias, com base nos quase 150 milhões de novos dados recolhidos a cada mês, e usa mais algoritmos de aprendizado de máquinas para conectar esses novos fatos aos antigos e criar novas conexões que substituem as desatualizadas. A IA da Diffbot lê a web como um humano o faria, mas com muito mais velocidade e em todos os idiomas.
O sistema da Diffbot é aberto a pesquisadores, gratuitamente, mas a startup já tem cerca de 400 clientes pagantes, entre os quais, Snapchat, Nasdaq, Adidas e a Nike (a fabricantes de artigo esportivo utilizam a ferramenta para pesquisar tênis falsificados na web). Ao lado do Google e da Microsoft, a Diffbot é uma das três únicas empresas norte-americanas que rastreiam toda a web pública, o tempo todo.
Mike Tung pretende adicionar uma interface de linguagem natural para os usuários e construir um “sistema de resposta universal”, com as devidas fontes de referência, possivelmente combinando-o com um modelo de linguagem como o GPT-3.
#AI#Diffbot#GPT-3#IA#linguagem natural#Mike Tung#modelo de linguagem#open AI#rastreio web#rastreio web pública
Processo foi aberto por uma das principais agências de notícias do país e envolve dados usados no treinamento do ChatGPT
21/11/2024O AIoT Brasil acompanhará de perto um dos mais importantes eventos de tecnologia do mundo, que deverá receber mais de 70 mil participantes
11/11/2024Confira novas profissões que estão surgindo com a inteligência artificial e saiba como se preparar para esse mercado em expansão
05/11/2024