AiotAiot


Como os dados são usados antes de treinar algoritmos de IA

Para que as organizações possam garantir o gerenciamento da expansão de dados e manter a sustentabilidade, devem considerar o armazenamento para maximizar os projetos de IA

14/06/2024

Como os dados são usados antes de treinar algoritmos de IA
Tamanho fonte

*Paulo de Godoy

Há muita coisa teórica sobre o treinamento de modelos de IA, mas os cientistas de dados dedicam muito tempo aos processos que ocorrem antes e depois do treinamento do modelo. Em todos esses diferentes estágios, os dados são transformados e ampliados. Para criar um modelo de IA eficaz e útil, os dados devem ser fáceis de encontrar, acessíveis, prontos para inteligência artificial e precisos.

As organizações devem considerar como capacitar os cientistas de dados; apoiar o crescimento dos dados de forma sustentável; e, com o ritmo acelerado de mudança dos projetos de IA, garantir que tenham a tecnologia para apoiar as necessidades atuais e futuras com soluções como serviço.

Aqui estão os seis estágios pelos quais os dados geralmente passam, bem como algumas considerações sobre como eles serão transformados e ampliados.

  1. Localizar e carregar dados: Ele está na nuvem, no local, em um banco de dados, é não- estruturado ou estruturado? Provavelmente será uma combinação de tudo, fontes de dados do mundo real, dados transacionais e de aplicativos de negócios.
    • Os dados podem precisar ser exportados para um formato que seja mais fácil de usar. Isso resulta na duplicação desses dados, embora em um formato diferente.
    • Talvez seja necessário copiá-los em um local diferente para análise.
    • Dependendo do caso de uso e da escassez dos dados de origem, os cientistas podem querer “amplificar” os dados por meio da geração de dados sintéticos. Eles podem ser criados a partir dos dados de origem e fazendo pequenas variações. Isso pode aumentar significativamente a quantidade de dados a serem armazenados. Observação: há preocupações crescentes de que os dados sintéticos possam “envenenar” o treinamento de IA se tiverem sido gerados por modelos de IA e, portanto, um certo grau de ceticismo é empregado ao considerar os dados sintéticos.
  2. Preparação de dados (pré-processamento):
    • Para torná-lo utilizável, pode haver algo que não esteja no formato correto (ou valores ausentes), o que o torna inútil para alguns tipos de IA. Ou pode haver alguns dados que precisem ser excluídos da análise por outros motivos.
    • Dependendo do tipo de IA para o qual os dados serão usados (preditiva vs.  generativa, por exemplo), eles também podem precisar de rotulagem, ou seja, aprimorar os dados com metadados.
    • A engenharia de recursos – o processo de seleção e aprimoramento de partes específicas dos dados para melhorar o desempenho do modelo – pode resultar na criação de metadados adicionais que precisarão ser armazenados.
    • Para IA preditiva, alguns dos dados precisarão ser excluídos do treinamento e reservados para testes a fim de validar os resultados posteriormente.
  3. Treinamento:
    • Nessa fase, os dados pré-processados estão sendo acessados em sua maior parte. Durante o treinamento, uma forma diferente de dados está sendo criada:
      • Os modelos resultantes, bem como as informações de metadados sobre esses modelos e em quais dados eles foram treinados.
      • Pontos de controle, que são usados como forma de salvar o progresso antes da conclusão do treinamento. Essa inovação no campo da inteligência artificial é útil para reverter parcialmente o treinamento sem precisar refazer todo o trabalho, o que é importante, pois os recursos da GPU são limitados. Com esses pontos de verificação, outro tipo de metadados é criado.
  4. Avaliação do modelo após o treinamento:
    • Para a IA preditiva, é aqui que os dados reservados anteriormente (no final do estágio dois) para testes serão úteis. Mais metadados serão gerados durante o teste para medir e rastrear os resultados.
    • Quando se trata de IA generativa, testar significa criar dados. Geralmente, esses dados são mantidos para análise posterior, pois os cientistas podem querer comparar os resultados ao longo do tempo para verificar a coerência ou a diversidade. Além disso, pode ser necessária uma avaliação humana, e nesse caso é preciso armazenar não apenas o conteúdo gerado, mas também o feedback das pessoas envolvidas na avaliação.
  5. Implementação após o treinamento:
    • Para a IA preditiva, isso pode não gerar dados em si, mas é provável que os cientistas queiram monitorá-los e registrar como e quando o modelo foi usado. Esse monitoramento e registro criarão um tipo diferente de dados que, em alguns casos – especialmente se o entendimento da IA for necessária – será tão importante quanto os dados de origem ou o próprio modelo.
    • No caso da IA generativa, o fato de todo o conteúdo criado ser salvo depende de vários fatores, como quem usa o modelo e para qual finalidade. Se for usado em um contexto voltado para o cliente, muitas organizações decidirão armazenar todo o conteúdo gerado, pois ele poderá ser necessário mais tarde, caso surjam reclamações, por exemplo. Isso pode resultar em muito mais dados do que os dados de origem iniciais usados para treinar o modelo.
    • Técnicas mais recentes de aprimoramento da IA, como a Retrieval-Augmented Generation (RAG), são usadas para melhorar os resultados da IA generativa, analisando informações ou documentos adicionais não usados durante a fase de treinamento. Isso pode exigir que esses dados estejam “prontos para IA” pré-computando e armazenando “vetores” ou metadados para todos os documentos que precisarão ser pesquisados.
  6. Circle back: A criação de um modelo de IA não é algo que se faz uma vez, mas algo que se continua desenvolvendo e aprimorando. As etapas acima serão repetidas com base em:
    • Criação de novos dados de origem que exigirão que o modelo aprenda com eles, pois podem ter padrões diferentes, usando técnicas como o ajuste fino do modelo.
    • Uso do modelo de IA: o feedback humano em relação aos resultados do modelo pode representar informações valiosas a serem usadas para aprimorar a próxima iteração do treinamento.
    • A natureza cíclica da IA também é algo que gerará dados auxiliares, pois os cientistas podem querer rastrear qual versão de um modelo produziu quais resultados e talvez até quais dados foram usados para treiná-lo ou ajustá-lo. Os repositórios de código e os armazenamentos de artefatos – comuns no mundo do desenvolvimento de software – farão parte do cenário e gerarão seus próprios dados.

Ao longo dessa jornada, os dados iniciais são duplicados, ampliados, armazenados em diferentes formatos e aprimorados com metadados. Os modelos de IA que são gerados também começarão a criar seus próprios dados e informações de uso. No total, a quantidade de dados, metadados e informações de registro excede significativamente o tamanho dos dados no início do processo e agora envolve uma variedade de formatos diferentes.

Para que as organizações possam garantir que estão gerenciando a possível expansão de dados e mantendo a sustentabilidade em mente, elas devem considerar o armazenamento de dados para maximizar o impacto dos projetos de IA. Isso precisa incluir a reflexão sobre sustentabilidade e modelos como serviço, entre outros – tópicos que serão abordados na segunda parte desta série.

*Paulo de Godoy é country manager da Pure Storage

TAGS

#AI#algoritmos#armazenamento#dados sintéticos#gerenciamento#IA#metadados#nuvem#Pure Storage#storage

COMPARTILHE

Notícias Relacionadas