Le Testnet de Gensyn est en ligne, comment rendre l'entraînement de l'IA plus efficace et plus décentralisé ?

Question

![Gensyn sur Testnet, comment rendre l'entraînement de l'IA plus efficace et plus décentralisé ?](https://img.gateio.im/social/moments-6404d294956ca781747ec419e6b4d906)L'IA est aujourd'hui l'un des segments les plus en vue de l'industrie de la cryptographie, parmi lesquels Gensyn, un réseau de calcul AI distribué ayant levé 50 millions de dollars sous l'impulsion de a16z, est sans aucun doute un projet compétitif. Récemment, Gensyn a officiellement lancé son Testnet, bien que cela soit plus d'un an après le calendrier initial, avec le lancement du Testnet, il entre enfin dans une nouvelle phase.En tant que Rollup Ethereum personnalisé conçu pour l'apprentissage automatique, le réseau de test Gensyn intègre un cadre d'exécution hors chaîne, de validation et de communication, visant à fournir des fonctionnalités clés pour les systèmes d'IA décentralisés telles que l'identité persistante, le suivi de la participation, la maintenance de l'appartenance, les paiements, la coordination d'exécution à distance, la validation sans confiance, l'enregistrement du processus d'entraînement et le financement collectif de tâches d'entraînement à grande échelle.La première phase du Testnet se concentre sur le suivi de la participation au sein de RL Swarm. RL Swarm est une application utilisée pour l'entraînement postérieur en apprentissage par renforcement collaboratif, dont les nœuds peuvent être liés à une identité sur la chaîne, garantissant ainsi que la contribution de chaque nœud participant est enregistrée avec précision.### RL Swarm : fonctions principales et entraînement collaboratifDans le Testnet de Gensyn, RL Swarm, en tant qu'application centrale, est un système d'entraînement collaboratif de modèles construit sur un réseau décentralisé. Contrairement à l'entraînement indépendant de modèles uniques traditionnels, RL Swarm permet à plusieurs modèles d'échanger, de critiquer et d'améliorer mutuellement au sein du réseau, afin d'améliorer collectivement la performance globale. Son idée centrale repose sur "l'intelligence collective", c'est-à-dire qu'à travers la collaboration et les retours entre les modèles de chaque nœud, un entraînement plus efficace est réalisé.On peut comprendre simplement que des modèles tels que DeepSeek-R1 peuvent améliorer leurs performances d'inférence par l'auto-critique lors de l'entraînement d'inférence, tandis que RL Swarm étend ce mécanisme à un groupe de modèles, réalisant ainsi l'effet de « plusieurs mains font le travail léger ».Basé sur le système RL Swarm, le modèle s’appuie non seulement sur ses propres commentaires, mais identifie également ses propres lacunes et les optimise en observant et en évaluant les performances d’autres modèles. Chaque nœud de modèle qui rejoint Swarm participe à un processus en trois étapes : d’abord le problème de manière indépendante et génère des idées et des réponses, puis examine les réponses des autres nœuds et fournit des commentaires, et enfin le modèle vote sur la solution optimale et corrige sa sortie en conséquence. Ce mécanisme synergique permet non seulement d’améliorer les performances de chaque modèle, mais aussi de favoriser l’évolution de l’ensemble du modèle de population. Les modèles qui rejoignent Swarm seront en mesure de conserver les poids locaux améliorés après leur départ et d’en récolter les avantages réels.![Gensyn Testnet en ligne, comment rendre l'entraînement de l'IA plus efficace et plus décentralisé ?](https://img.gateio.im/social/moments-55866966cb05d82f4a795de8e2fca44b)De plus, Gensyn a rendu le code de RL Swarm open source, permettant à quiconque d'exécuter un nœud, de démarrer ou de rejoindre un Swarm existant sans autorisation. La communication sous-jacente de Swarm utilise le protocole de gossip fourni par Hivemind, supportant la messagerie décentralisée entre les modèles et le partage des signaux d'apprentissage. Que ce soit sur un ordinateur portable à domicile ou sur un GPU dans le cloud, il est possible de participer à l'entraînement collaboratif en rejoignant un nœud RL Swarm.### **Infrastructures** trois grands piliers : exécution, communication et vérificationActuellement, RL Swarm n'est encore qu'une démonstration expérimentale, montrant une méthode d'apprentissage automatique à grande échelle et évolutive, plutôt qu'une forme de produit final. Au cours des quatre dernières années, le travail principal de Gensyn a en fait consisté à construire l'infrastructure sous-jacente, et après la publication du Testnet, il est entré dans la phase v0.1, et peut désormais fonctionner réellement. Selon la présentation officielle, l'architecture globale de Gensyn se divise en trois parties : exécution, communication et vérification.#### Exécution : cohérence et puissance de calcul distribuéeGensyn estime que l'avenir de l'apprentissage machine ne sera plus limité aux modèles monolithiques traditionnels, mais sera composé de paramètres fragmentés répartis sur des appareils du monde entier. Pour atteindre cet objectif, l'équipe de Gensyn a développé une architecture d'exécution sous-jacente capable d'assurer la cohérence entre les appareils. Les technologies clés comprennent :* Stockage et entraînement des paramètres distribués : en divisant un modèle à grande échelle en plusieurs blocs de paramètres et en les répartissant sur différents appareils, Gensyn a réalisé un déploiement fragmenté du modèle, réduisant ainsi les exigences de mémoire pour un seul nœud.* Renforcement de l'apprentissage après entraînement (RL Post-Training) : Des recherches montrent que lorsque les modèles sont entraînés de manière collaborative en groupe, communiquent entre eux et critiquent les réponses des uns et des autres, l'efficacité d'apprentissage globale s'améliore considérablement. Gensyn a démontré ce concept avec RL Swarm, permettant aux modèles de progresser rapidement grâce à des discussions collectives, validant ainsi l'efficacité de l'exécution distribuée.* Opérateurs reproductibles (RepOps) : Pour garantir que différents matériels (comme Nvidia A100 et H100) puissent obtenir des résultats de calcul complètement identiques, Gensyn a développé la bibliothèque RepOps, réalisant une reproduction bit à bit interplateforme grâce à un ordre d'exécution des opérations à virgule flottante fixe.#### Communication : échange d'informations efficaceDans les scénarios d'entraînement distribué à grande échelle, la communication efficace entre les nœuds est essentielle. Bien que les méthodes de parallélisme de données traditionnelles puissent réduire les coûts de communication dans une certaine mesure, elles nécessitent que chaque nœud stocke le modèle complet, ce qui limite leur évolutivité en raison des contraintes de mémoire. Pour cela, Gensyn a proposé une nouvelle solution :* SkipPipe – Pipeline dynamique de saut parallèle : La technologie SkipPipe permet de sauter certaines étapes de la pipeline traditionnelle en sélectionnant dynamiquement les couches de calcul traversées par les micro-batchs, réduisant ainsi le temps d'attente inutile. Son algorithme de planification innovant peut évaluer en temps réel la disponibilité des différents chemins, réduisant à la fois le temps d'inactivité des nœuds et raccourcissant considérablement la durée d'entraînement globale. Selon les données de test, dans un environnement décentralisé, SkipPipe peut réduire le temps d'entraînement d'environ 55 %, et en cas de défaillance de certains nœuds, la performance du modèle ne diminue que d'environ 7 %.* Normes de communication et collaboration inter-nœuds Gensyn a construit un protocole de communication similaire à TCP/IP, permettant aux participants du monde entier, quel que soit leur appareil, de transmettre des données et d'échanger des informations de manière efficace et sans couture. Cette norme ouverte fournit une base réseau solide pour l'entraînement collaboratif décentralisé.#### Vérification : assurer la confiance et la sécuritéDans un réseau distribué sans confiance, confirmer que les résultats de calcul soumis par chaque participant sont réels et valides est un grand défi. Gensyn a donc introduit un protocole de validation spécialisé, visant à garantir que tous les fournisseurs de puissance de calcul fournissent des résultats de travail corrects grâce à un mécanisme à faible coût et efficace :* Protocole de vérification Verde : Verde est le premier système de vérification conçu pour l'apprentissage automatique moderne. Son cœur réside dans l'utilisation d'un mécanisme léger de résolution des litiges, permettant de localiser rapidement l'étape où des divergences se produisent entre le modèle et le vérificateur pendant le processus d'entraînement. Contrairement aux méthodes de vérification traditionnelles qui nécessitent de relancer toute la tâche, Verde ne nécessite que le recalcul des opérations en litige, réduisant ainsi considérablement les coûts de vérification.* délégation par arbitrage (référée) : après avoir adopté cette méthode, si la sortie d'un fournisseur présente un problème, le validateur peut persuader un arbitre neutre par le biais d'un jeu de résolution des litiges efficace, garantissant que la validité du résultat global est assurée tant qu'il existe au moins un nœud honnête.* Stockage et hachage des états intermédiaires : Pour soutenir le processus de validation mentionné ci-dessus, les participants n'ont besoin de stocker et de hacher que des points de contrôle d'entraînement intermédiaires partiels, et non l'intégralité des données, ce qui réduit à la fois l'utilisation des ressources et améliore l'évolutivité et la réactivité du système.

Le Testnet de Gensyn est en ligne, comment rendre l'entraînement de l'IA plus efficace et plus décentralisé ?

RL Swarm : fonctions principales et entraînement collaboratif

Infrastructures trois grands piliers : exécution, communication et vérification

Exécution : cohérence et puissance de calcul distribuée

Communication : échange d'informations efficace

Vérification : assurer la confiance et la sécurité