OpenAI é acusada na Índia de violação de direitos autorais
Processo foi aberto por uma das principais agências de notícias do país e envolve dados usados no treinamento do ChatGPT
21/11/202426/02/2024
Por redação AIoT Brasil
Pesquisadores da Amazon treinaram um grande modelo de linguagem (LLM) durante 100 mil horas, com dados de frases de domínio público, capaz de realizar tarefas como a conversão de texto em fala (TTS) e dotado de “habilidades emergentes”. De acordo com um comunicado publicado há poucos dias pela empresa, o BASE TTS, que significa Big Adaptive Streamable, é o maior modelo de conversão treinado até hoje, com nada menos do que 1 bilhão de parâmetros em sua maior versão.
Um LLM é um modelo de linguagem estatística, treinado com uma grande quantidade de dados para ser usado no processamento de linguagem natural (PLN). “O BASE TTS implanta um transformador autorregressivo que converte textos brutos em códigos discretos (códigos de fala), seguido de um decodificador baseado em convolução que converte esses códigos de fala em formas de onda de maneira incremental e fluida”, informou a Amazon.
Na etapa de desenvolvimento, os pesquisadores treinaram modelos de diferentes capacidades, com até 100 mil horas de dados de fala, para verificar se ocorreriam os mesmos saltos de desempenho que se veem nos modelos de processamento de linguagem natural quando eles ultrapassam determinada escala. Eles comprovaram que o modelo de tamanho médio, com 400 milhões de parâmetros e treinado em 10 mil horas de áudio, revelou uma melhoria acentuada em versatilidade e robustez nas sentenças de teste mais complicadas.
Essas sentenças continham registros léxicos, sintáticos e paralinguísticos complexos, como substantivos compostos, emoções, palavras estrangeiras e pontuação, que normalmente são uma barreira nos sistemas convencionais de conversão de texto em fala. O BASE TTS não lidou perfeitamente com essa dificuldade, mas cometeu um número bem menor de erros em ênfase, entonação e pronúncia do que os modelos existentes. “As frases utilizadas haviam sido projetadas para conter tarefas desafiadoras, nenhuma das quais o BASE TTS foi explicitamente treinado para executar”, explicaram os pesquisadores.
“Ecoando as ‘habilidades emergentes’ amplamente relatadas de grandes modelos de linguagem quando treinados em um volume crescente de dados, mostramos que variantes do BASE TTS construídas com mais de 10 mil horas e mais de 500 milhões de parâmetros conseguiram demonstrar prosódia natural em sentenças textualmente complexas”, afirmou a Amazon. “Demonstramos a naturalidade de última geração do BASE TTS avaliando-o em relação às linhas de base que incluem sistemas de conversão de texto em fala em grande escala disponíveis atualmente, como o YourTTS, o Bark e o TortoiseTTS”, completou.
#grande modelo de linguagem#linguagem natural
Processo foi aberto por uma das principais agências de notícias do país e envolve dados usados no treinamento do ChatGPT
21/11/2024O AIoT Brasil acompanhará de perto um dos mais importantes eventos de tecnologia do mundo, que deverá receber mais de 70 mil participantes
11/11/2024Confira novas profissões que estão surgindo com a inteligência artificial e saiba como se preparar para esse mercado em expansão
05/11/2024