Gensyn Testnet online, como tornar o treinamento de IA mais eficiente e mais descentralizado?

robot
Geração do resumo em andamento

Gensyn Testnet online, como tornar o treinamento de IA mais eficiente e mais descentralizado?

Autor: Zen, PANews

A IA é atualmente um dos segmentos mais procurados na indústria de criptomoedas, onde a rede de computação AI descentralizada Gensyn, com um investimento liderado pela a16z e um total de financiamento de 50 milhões de dólares, é sem dúvida um projeto competitivo. Recentemente, a Gensyn lançou oficialmente a Testnet, embora tenha sido mais de um ano após o tempo originalmente previsto, mas com o lançamento da Testnet, finalmente entrou em uma nova fase.

Como uma Rollup Ethereum personalizada projetada especialmente para aprendizado de máquina, a Testnet Gensyn integra uma estrutura de execução, validação e comunicação off-chain, visando fornecer funções-chave para sistemas de IA Descentralização, como identidade persistente, rastreamento de participação, manutenção de atribuição, pagamentos, coordenação de execução remota, validação sem confiança, registro de processos de treinamento e crowdfunding de tarefas de treinamento em grande escala.

A primeira fase da Testnet foca na rastreabilidade da participação dentro do RL Swarm. O RL Swarm é uma aplicação para treinamento pós-aprendizagem por reforço colaborativo, cujos nós podem ser vinculados a identidades na cadeia, garantindo que a contribuição de cada nó participante seja registrada com precisão.

RL Swarm: Funcionalidades principais e treino colaborativo

Na Testnet Gensyn, como aplicação central, o RL Swarm é um sistema de treinamento colaborativo de modelos construído sobre uma rede descentralizada. Ao contrário do treinamento independente de um único modelo tradicional, o RL Swarm permite que múltiplos modelos se comuniquem, critiquem e melhorem uns aos outros na rede, elevando assim o desempenho global. A sua ideia central está na "inteligência coletiva", ou seja, através da colaboração e feedback entre os modelos dos nós, alcança-se um efeito de treinamento mais eficiente.

Pode ser entendido simplesmente que, durante o treinamento de inferência de modelos como o DeepSeek-R1, é possível melhorar o desempenho da inferência através da autoavaliação, enquanto o RL Swarm expande esse mecanismo para um grupo de múltiplos modelos, alcançando o efeito de "muitos mãos tornam o trabalho leve".

Baseado no sistema RL Swarm, o modelo não só depende do seu próprio feedback, mas também observa e avalia o desempenho de outros modelos, identificando suas deficiências e otimizando-se. Cada nó de modelo que se junta ao Swarm participa de um processo de três fases: primeiro, completa o problema de forma independente e apresenta ideias e respostas; em seguida, verifica as respostas de outros nós e fornece feedback; finalmente, o modelo vota na melhor solução e ajusta sua saída com base nisso. Este mecanismo de colaboração não só melhora o desempenho de cada modelo, mas também impulsiona a evolução do modelo coletivo. Os modelos que se juntam ao Swarm conseguem manter os pesos locais melhorados após saírem, obtendo benefícios reais.

Gensyn Testnet online, como tornar o treinamento de IA mais eficiente e mais descentralizado?

Além disso, a Gensyn tornou o código do RL Swarm de código aberto, permitindo que qualquer pessoa execute um nó, inicie ou junte-se a um Swarm existente, sem necessidade de permissão. A comunicação subjacente do Swarm utiliza o protocolo gossip fornecido pelo Hivemind, apoiando a troca de mensagens descentralizadas entre modelos e o compartilhamento de sinais de aprendizado. Seja em um laptop doméstico ou em uma GPU na nuvem, é possível participar do treinamento colaborativo ao se juntar a um nó do RL Swarm.

Infraestrutura três pilares: execução, comunicação e verificação

Atualmente, o RL Swarm ainda é apenas uma demonstração experimental, que mostra um método de aprendizado de máquina em larga escala e escalável, e não a forma final do produto. Nos últimos quatro anos, o trabalho central da Gensyn foi, na verdade, construir a infraestrutura subjacente, que entrou na fase v0.1 após o lançamento da Testnet, e já pode ser executada na prática. De acordo com a apresentação oficial, a arquitetura geral da Gensyn é dividida em três partes: execução, comunicação e verificação.

Execução: consistência e capacidade de computação distribuída

A Gensyn acredita que o futuro do aprendizado de máquina não estará mais limitado a modelos monolíticos tradicionais, mas será composto por parâmetros fragmentados distribuídos em dispositivos em todo o mundo. Para alcançar esse objetivo, a equipe da Gensyn desenvolveu uma arquitetura de execução subjacente capaz de garantir a consistência entre dispositivos. As tecnologias-chave incluem:

  • Armazenamento e treino de parâmetros distribuídos: ao dividir grandes modelos em vários blocos de parâmetros e distribuí-los em diferentes dispositivos, a Gensyn implementou o desdobramento fragmentado do modelo, reduzindo a exigência de memória de um único nó.
  • Aprendizado por Reforço Pós-Treinamento (RL Post-Training): Estudos mostram que quando os modelos são treinados em conjunto, comunicando-se e criticando as respostas uns dos outros, a eficiência de aprendizado geral aumenta significativamente. A Gensyn demonstrou esse conceito com o RL Swarm, permitindo que os modelos avancem rapidamente em discussões coletivas, validando ainda mais a eficácia da execução distribuída.
  • Operadores Reproduzíveis (RepOps): Para garantir que diferentes hardware (como Nvidia A100 e H100) possam produzir resultados de cálculo completamente consistentes, a Gensyn desenvolveu a biblioteca RepOps, que alcança a reprodução bit a bit entre plataformas através da fixação da ordem de execução das operações de ponto flutuante.

Comunicação: interação eficiente de informações

Em cenários de treinamento distribuído em larga escala, a comunicação eficiente entre os nós é crucial. Embora os métodos tradicionais de paralelização de dados possam reduzir os custos de comunicação em certa medida, eles exigem que cada nó armazene o modelo completo, o que limita sua escalabilidade devido às restrições de memória. Para isso, a Gensyn propôs uma nova solução:

  • SkipPipe – Pipeline de salto dinâmico em paralelo: A tecnologia SkipPipe reduz o tempo de espera desnecessário, pulando algumas fases do pipeline tradicional, através da seleção dinâmica de microbatches que passam por diferentes camadas de cálculo. Seu inovador algoritmo de agendamento consegue avaliar em tempo real a disponibilidade de cada caminho, reduzindo o tempo ocioso dos nós e encurtando significativamente a duração geral do treinamento. Dados de testes mostram que, em um ambiente de descentralização, o SkipPipe pode reduzir o tempo de treinamento em cerca de 55%, e mesmo em casos de falha de alguns nós, o desempenho do modelo diminui apenas cerca de 7%.
  • Padrões de comunicação e colaboração entre nós O Gensyn construiu um protocolo de comunicação semelhante ao TCP/IP, permitindo que participantes de todo o mundo, independentemente do dispositivo que utilizam, realizem transferências de dados e trocas de informações de forma eficiente e sem interrupções. Este padrão aberto fornece uma base de rede sólida para o treinamento colaborativo descentralizado.

Verificação: garantir confiança e segurança

Num rede distribuída sem necessidade de confiança, confirmar a veracidade e validade dos resultados de cálculo submetidos por cada parte envolvida é um grande desafio. A Gensyn introduziu um protocolo de validação especializado, destinado a garantir que todos os fornecedores de poder computacional forneçam resultados de trabalho corretos, através de um mecanismo de baixo custo e eficiente:

  • Protocolo de Verificação Verde: Verde é o primeiro sistema de verificação projetado especificamente para aprendizado de máquina moderno. Seu núcleo baseia-se na utilização de um mecanismo leve de resolução de disputas, que localiza rapidamente o passo em que surgem divergências entre o modelo e o validador durante o processo de treinamento. Ao contrário dos métodos de verificação tradicionais que exigem a execução de toda a tarefa novamente, o Verde apenas precisa recalcular as operações em disputa, reduzindo significativamente os custos de verificação.
  • delegação referida (裁决式委托):Após a adoção deste método, se a saída de um determinado fornecedor apresentar problemas, os validadores poderão persuadir um árbitro neutro através de um eficiente jogo de resolução de disputas, garantindo que a correção do resultado computacional seja assegurada sempre que exista pelo menos um nó honesto.
  • Armazenamento e estado intermediário de hash: Para suportar o processo de verificação acima mencionado, os participantes apenas precisam armazenar e hashear partes dos pontos de verificação intermediários de treinamento, em vez de todos os dados, o que reduz tanto a utilização de recursos quanto melhora a escalabilidade e a temporalidade do sistema.
Ver original
O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate.io
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)