Amazon treina modelo de LLM com 1 bilhão de parâmetros

Ferramenta pode ser usada para executar várias tarefas de processamento de linguagem natural e foi treinada durante 100 mil horas

26/02/2024

Amazon treina modelo de LLM com 1 bilhão de parâmetros

Tamanho fonte

Por redação AIoT Brasil

Pesquisadores da Amazon treinaram um grande modelo de linguagem (LLM) durante 100 mil horas, com dados de frases de domínio público, capaz de realizar tarefas como a conversão de texto em fala (TTS) e dotado de “habilidades emergentes”. De acordo com um comunicado publicado há poucos dias pela empresa, o BASE TTS, que significa Big Adaptive Streamable, é o maior modelo de conversão treinado até hoje, com nada menos do que 1 bilhão de parâmetros em sua maior versão.

Um LLM é um modelo de linguagem estatística, treinado com uma grande quantidade de dados para ser usado no processamento de linguagem natural (PLN). “O BASE TTS implanta um transformador autorregressivo que converte textos brutos em códigos discretos (códigos de fala), seguido de um decodificador baseado em convolução que converte esses códigos de fala em formas de onda de maneira incremental e fluida”, informou a Amazon.

Na etapa de desenvolvimento, os pesquisadores treinaram modelos de diferentes capacidades, com até 100 mil horas de dados de fala, para verificar se ocorreriam os mesmos saltos de desempenho que se veem nos modelos de processamento de linguagem natural quando eles ultrapassam determinada escala. Eles comprovaram que o modelo de tamanho médio, com 400 milhões de parâmetros e treinado em 10 mil horas de áudio, revelou uma melhoria acentuada em versatilidade e robustez nas sentenças de teste mais complicadas.

Essas sentenças continham registros léxicos, sintáticos e paralinguísticos complexos, como substantivos compostos, emoções, palavras estrangeiras e pontuação, que normalmente são uma barreira nos sistemas convencionais de conversão de texto em fala. O BASE TTS não lidou perfeitamente com essa dificuldade, mas cometeu um número bem menor de erros em ênfase, entonação e pronúncia do que os modelos existentes. “As frases utilizadas haviam sido projetadas para conter tarefas desafiadoras, nenhuma das quais o BASE TTS foi explicitamente treinado para executar”, explicaram os pesquisadores.

“Ecoando as ‘habilidades emergentes’ amplamente relatadas de grandes modelos de linguagem quando treinados em um volume crescente de dados, mostramos que variantes do BASE TTS construídas com mais de 10 mil horas e mais de 500 milhões de parâmetros conseguiram demonstrar prosódia natural em sentenças textualmente complexas”, afirmou a Amazon. “Demonstramos a naturalidade de última geração do BASE TTS avaliando-o em relação às linhas de base que incluem sistemas de conversão de texto em fala em grande escala disponíveis atualmente, como o YourTTS, o Bark e o TortoiseTTS”, completou.

COMPARTILHE

Notícias Relacionadas

O que levou a Anthropic a ir à justiça contra o Pentágono

Processo foi iniciado depois da ofensiva movida contra a empresa pelo governo Trump, relacionada ao uso de IA para fins militares e em vigilância

13/03/2026

CEO de streaming de música cria um observatório da guerra

World Monitor é um projeto paralelo lançado por Elie Habib, do Anghami, para acompanhar os conflitos no Irã e no Oriente Médio

12/03/2026

Meta confirma a aquisição da rede de agentes de IA Moltbook

Acordo prevê que os fundadores Matt Schlicht e Ben Parr passem a trabalhar na divisão de pesquisas Meta Superintelligence Labs

11/03/2026