Gensyn Testnet en línea, ¿cómo hacer que el entrenamiento de IA sea más eficiente y más Descentralización?

Question

![Gensyn Testnet en línea, ¿cómo hacer que el entrenamiento de IA sea más eficiente y más Descentralización?](https://img.gateio.im/social/moments-6404d294956ca781747ec419e6b4d906)La IA es uno de los segmentos más destacados en la industria de las criptomonedas hoy en día, y Gensyn, una red de computación distribuida de IA que ha recaudado 50 millones de dólares bajo el liderazgo de a16z, es sin duda un proyecto competitivo. Recientemente, Gensyn se lanzó oficialmente en el Testnet; aunque se retrasó más de un año respecto a lo previsto, finalmente ha entrado en una nueva fase con el lanzamiento del Testnet.Como una solución personalizada de Ethereum Rollup diseñada específicamente para el aprendizaje automático, la Testnet de Gensyn integra un marco de ejecución, verificación y comunicación fuera de la cadena, con el objetivo de proporcionar funciones clave para sistemas de IA descentralizados, como identidad persistente, seguimiento de participación, mantenimiento de atribuciones, pagos, coordinación de ejecución remota, verificación sin confianza, registro de procesos de entrenamiento y crowdfunding de tareas de entrenamiento a gran escala.La primera fase de la Testnet se centra en rastrear la participación dentro de RL Swarm. RL Swarm es una aplicación para el entrenamiento posterior de aprendizaje por refuerzo colaborativo, cuyos nodos pueden estar vinculados a identidades en la cadena, asegurando que la contribución de cada nodo participante se registre con precisión.### RL Swarm: funciones centrales y entrenamiento colaborativoEn la Testnet de Gensyn, RL Swarm, como aplicación central, es un sistema de entrenamiento colaborativo de modelos construido sobre una red de Descentralización. A diferencia del entrenamiento independiente de un único modelo tradicional, RL Swarm permite que múltiples modelos se comuniquen, critiquen y mejoren entre sí en la red, elevando así el rendimiento general. Su idea central radica en la "sabiduría colectiva", es decir, lograr un efecto de entrenamiento más eficiente a través de la colaboración y retroalimentación entre los modelos de cada nodo.Se puede entender de manera simple que modelos como DeepSeek-R1, durante el entrenamiento de inferencia, pueden mejorar su rendimiento de inferencia a través de la autocrítica, mientras que RL Swarm ha ampliado este mecanismo a un grupo de múltiples modelos, logrando el efecto de "muchos manos hacen el trabajo ligero".Basado en el sistema RL Swarm, el modelo no solo depende de su propia retroalimentación, sino que también observa y evalúa el rendimiento de otros modelos, identificando sus propias deficiencias y optimizándose. Cada nodo de modelo que se une a Swarm participa en un proceso de tres etapas: primero, completa el problema de forma independiente y presenta ideas y respuestas; luego, revisa las respuestas de otros nodos y proporciona retroalimentación; finalmente, el modelo vota para seleccionar la solución óptima y corrige su salida en consecuencia. Este mecanismo de colaboración no solo mejora el rendimiento de cada modelo, sino que también impulsa la evolución de todo el modelo colectivo. Los modelos que se unen a Swarm pueden retener los pesos locales mejorados incluso después de irse, obteniendo beneficios reales.![Gensyn Testnet en línea, ¿cómo hacer que el entrenamiento de IA sea más eficiente y más descentralizado?](https://img.gateio.im/social/moments-55866966cb05d82f4a795de8e2fca44b)Además, Gensyn ha abierto el código de RL Swarm, por lo que cualquier persona puede ejecutar nodos, iniciar o unirse a un Swarm existente sin necesidad de permiso. La comunicación subyacente del Swarm utiliza el protocolo de gossip proporcionado por Hivemind, que admite la mensajería descentralizada entre modelos y el intercambio de señales de aprendizaje. Ya sea en una laptop doméstica o en una GPU en la nube, se puede participar en el entrenamiento colaborativo al unirse a los nodos de RL Swarm.### **Infraestructura** tres pilares: ejecución, comunicación y verificaciónActualmente, RL Swarm sigue siendo una demostración experimental que muestra un enfoque de aprendizaje automático a gran escala y escalable, y no una forma de producto final. En los últimos cuatro años, el trabajo central de Gensyn ha sido construir la infraestructura subyacente, entrando en la fase v0.1 después del lanzamiento de la Testnet, y ya se puede ejecutar de manera efectiva. Según la introducción oficial, la arquitectura general de Gensyn se divide en tres partes: ejecución, comunicación y verificación.#### Ejecución: consistencia y potencia de cálculo distribuidoGensyn considera que el futuro del aprendizaje automático no se limitará a modelos monolíticos tradicionales, sino que estará compuesto por parámetros fragmentados distribuidos en dispositivos de todo el mundo. Para lograr este objetivo, el equipo de Gensyn ha desarrollado una arquitectura de ejecución subyacente que garantiza la coherencia entre dispositivos. Las tecnologías clave incluyen:* Almacenamiento y entrenamiento de parámetros distribuidos: al dividir un modelo a gran escala en varios bloques de parámetros y distribuirlos en diferentes dispositivos, Gensyn ha logrado un despliegue fragmentado del modelo, reduciendo así los requisitos de memoria de un solo nodo.* Entrenamiento posterior a aprendizaje reforzado (RL Post-Training): Los estudios muestran que cuando los modelos son entrenados de manera colaborativa en grupo, se comunican entre sí y critican las respuestas de los demás, la eficiencia de aprendizaje general mejora significativamente. Gensyn demuestra este concepto utilizando RL Swarm, permitiendo que los modelos avancen rápidamente en discusiones colectivas, lo que valida aún más la efectividad de la ejecución distribuida.* Operadores reproducibles (RepOps): Para garantizar que diferentes hardware (como Nvidia A100 y H100) puedan obtener resultados de cálculo completamente consistentes, Gensyn desarrolló la biblioteca RepOps, logrando la reproducción bit a bit entre plataformas a través de un orden de ejecución fijo en las operaciones de punto flotante.#### Comunicación: Interacción de información eficienteEn escenarios de entrenamiento distribuido a gran escala, la comunicación eficiente entre nodos es crucial. Aunque los métodos tradicionales de paralelismo de datos pueden reducir en cierta medida los costos de comunicación, su escalabilidad se ve limitada por la memoria, ya que requieren que cada nodo almacene el modelo completo. Por ello, Gensyn ha propuesto una nueva solución:* SkipPipe – Paralelismo dinámico de la tubería de omisión: La tecnología SkipPipe omite partes de una canalización tradicional mediante la selección dinámica de la capa de cómputo a través de la cual pasa el microlote, lo que reduce los tiempos de espera innecesarios. Su innovador algoritmo de programación puede evaluar la disponibilidad de cada ruta en tiempo real, lo que no solo reduce el tiempo de inactividad de los nodos, sino que también acorta en gran medida el tiempo total de entrenamiento. Según los datos de la prueba, SkipPipe puede reducir el tiempo de entrenamiento en aproximadamente un 55 % en un entorno descentralizado y solo reducir el rendimiento del modelo en aproximadamente un 7 % en caso de falla parcial del nodo.* Estándares de comunicación y colaboración entre nodos Gensyn ha construido un protocolo de comunicación similar a TCP/IP, que permite a los participantes de todo el mundo, sin importar qué dispositivo utilicen, realizar la transmisión de datos y el intercambio de información de manera eficiente y fluida. Este estándar abierto proporciona una base de red sólida para el entrenamiento colaborativo distribuido.#### Verificación: asegurar la confianza y la seguridadEn una red distribuida que no requiere confianza, confirmar la veracidad y validez de los resultados de cálculo presentados por las partes involucradas es un gran desafío. Gensyn ha introducido un protocolo de verificación especializado, diseñado para asegurar que todos los proveedores de potencia computacional ofrezcan resultados de trabajo correctos mediante un mecanismo de bajo costo y alta eficiencia:* Protocolo de Verificación Verde: Verde es el primer sistema de verificación diseñado específicamente para el aprendizaje automático moderno. Su núcleo radica en utilizar un mecanismo ligero de resolución de disputas para localizar rápidamente el paso en el que surge la discrepancia entre el modelo y el validador durante el proceso de entrenamiento. A diferencia de los métodos de verificación tradicionales que requieren volver a ejecutar toda la tarea, Verde solo necesita recalcular las operaciones en disputa, lo que reduce significativamente el costo de verificación.* delegación referida (裁决式委托): Al adoptar este método, si hay un problema con la salida de un proveedor, el validador puede persuadir a un árbitro neutral a través de un eficiente juego de resolución de disputas, asegurando que, cuando al menos un nodo honesto esté presente, la corrección de todo el resultado computacional esté garantizada.* Almacenamiento y hash de estados intermedios: Para apoyar el proceso de verificación mencionado, los participantes solo necesitan almacenar y hacer hash de algunos puntos de control intermedios del entrenamiento, en lugar de todos los datos, lo que reduce el uso de recursos y mejora la escalabilidad y la inmediatez del sistema.

Gensyn Testnet en línea, ¿cómo hacer que el entrenamiento de IA sea más eficiente y más Descentralización?

RL Swarm: funciones centrales y entrenamiento colaborativo

Infraestructura tres pilares: ejecución, comunicación y verificación

Ejecución: consistencia y potencia de cálculo distribuido

Comunicación: Interacción de información eficiente

Verificación: asegurar la confianza y la seguridad