Capa de Datos Descentralizada: La Nueva Infraestructura para la Era de la IA #247

11-26-2024, 4:28:16 AM

Intermedio

Previamente discutimos cómo la IA y Web3 pueden complementarse entre sí en industrias verticales como redes computacionales, plataformas intermedias y aplicaciones de consumidores. Al enfocarnos en los recursos de datos como un campo vertical, los proyectos web emergentes ofrecen nuevas posibilidades para la adquisición, compartición y utilización de datos.

TL/DR

Anteriormente discutimos cómo la IA y Web3 pueden complementarse entre sí en industrias verticales como redes computacionales, plataformas intermediarias y aplicaciones de consumo. Al centrarnos en los recursos de datos como un campo vertical, los nuevos proyectos web ofrecen nuevas posibilidades para la adquisición, intercambio y utilización de datos.

Los proveedores tradicionales de datos tienen dificultades para satisfacer la demanda de datos de alta calidad, en tiempo real y verificables en IA y otras industrias impulsadas por datos, especialmente en términos de transparencia, control del usuario y protección de la privacidad.
Las soluciones Web3 están remodelando el ecosistema de datos. Tecnologías como MPC (Cómputo de múltiples partes), pruebas de conocimiento cero y notario TLS garantizan la autenticidad y privacidad de los datos durante el flujo entre múltiples fuentes, mientras que el almacenamiento distribuido y la informática periférica ofrecen mayor flexibilidad y eficiencia en el procesamiento de datos en tiempo real.
Las redes de datos descentralizadas como infraestructura emergente han dado lugar a varios proyectos representativos como OpenLayer (una capa de datos reales modular), Grass (aprovechando el ancho de banda inactivo del usuario y las redes descentralizadas de nodos de rastreo) y Vana (una red de soberanía de datos de usuario de capa 1), que abren nuevas perspectivas para campos como el entrenamiento de IA y aplicaciones a través de diferentes vías tecnológicas.
Al aprovechar la capacidad de crowdsourcing, capas de abstracción sin confianza y mecanismos de incentivos basados en tokens, la infraestructura de datos descentralizada puede proporcionar soluciones más privadas, seguras, eficientes y rentables en comparación con los gigantes de Web2. También otorga a los usuarios el control sobre sus datos y recursos relacionados, construyendo un ecosistema digital más abierto, seguro e interconectado.

1. El aumento en la demanda de datos

Los datos se han convertido en el principal impulsor de la innovación y la toma de decisiones en todas las industrias. UBS predice que el volumen de datos a nivel mundial se multiplicará por diez desde 2020 hasta 2030, alcanzando los 660 ZB. Para 2025, se espera que cada individuo genere 463 EB (exabytes, 1 EB = 1 mil millones de GB) de datos diariamente a nivel global. El mercado de Datos como Servicio (DaaS) está creciendo rápidamente. Según Grand View Research, el mercado mundial de DaaS tuvo un valor de $14.36 mil millones en 2023 y se espera que crezca a una tasa de crecimiento anual compuesta (CAGR) del 28.1%, alcanzando los $76.8 mil millones para 2030.

El entrenamiento del modelo de IA depende en gran medida de conjuntos de datos grandes para identificar patrones y ajustar parámetros. Después del entrenamiento, también se necesitan conjuntos de datos para probar el rendimiento y las capacidades de generalización de los modelos. Además, los agentes de IA, como formas de aplicación inteligente emergentes, requieren fuentes de datos en tiempo real y fiables para garantizar una toma de decisiones precisa y una ejecución de tareas.

(Fuente: Leewayhertz)

La demanda de análisis empresarial también se está volviendo más diversa y generalizada, sirviendo como una herramienta clave que impulsa la innovación empresarial. Por ejemplo, las plataformas de redes sociales y las empresas de investigación de mercado necesitan datos confiables sobre el comportamiento de los usuarios para formular estrategias y analizar tendencias, integrando datos diversos de múltiples plataformas sociales para construir una imagen más completa.

Para el ecosistema Web3, también se necesita en cadena datos fiables y auténticos para respaldar nuevos productos financieros. A medida que se tokenizan más activos innovadores, se requieren interfaces de datos flexibles y fiables para respaldar el desarrollo de productos y la gestión de riesgos, lo que permite que los contratos inteligentes se ejecuten en función de datos verificables en tiempo real.

Además, los casos de uso en la investigación científica, IoT y otros campos destacan la demanda creciente y vertiginosa de datos diversos, auténticos y en tiempo real. Los sistemas tradicionales pueden tener dificultades para hacer frente al volumen de datos en rápido crecimiento y a las demandas cambiantes.

2. Limitaciones y Desafíos de los Ecosistemas de Datos Tradicionales

Un ecosistema de datos típico incluye la recolección, almacenamiento, procesamiento, análisis y aplicación de datos. Los modelos centralizados se caracterizan por la recolección y almacenamiento centralizados de datos, gestionados por un equipo central de IT con un estricto control de acceso. Por ejemplo, el ecosistema de datos de Google abarca diversas fuentes de datos como los motores de búsqueda, Gmail y el sistema operativo Android. Estas plataformas recopilan datos de usuarios, los almacenan en centros de datos distribuidos globalmente y los procesan utilizando algoritmos para respaldar el desarrollo y la optimización de varios productos y servicios.

En los mercados financieros, LSEG (anteriormente Refinitiv) recopila datos en tiempo real e históricos de bolsas globales, bancos y principales instituciones financieras, mientras utiliza su red de noticias Reuters News para recopilar noticias relacionadas con el mercado. Procesan esta información utilizando algoritmos y modelos patentados para generar análisis y productos de evaluación de riesgos como servicios de valor agregado.

(Fuente: kdnuggets.com)

Si bien la arquitectura de datos tradicional es efectiva en los servicios profesionales, las limitaciones de los modelos centralizados están volviéndose cada vez más evidentes, especialmente en la cobertura de fuentes de datos emergentes, transparencia y protección de la privacidad del usuario. A continuación se presentan algunos problemas clave:

Cobertura de datos insuficiente: Los proveedores tradicionales de datos tienen dificultades para capturar y analizar rápidamente fuentes de datos emergentes como el sentimiento en redes sociales y datos de dispositivos IoT. Los sistemas centralizados encuentran desafiante adquirir e integrar de manera eficiente datos de "larga cola" de numerosas fuentes pequeñas o no convencionales.

Por ejemplo, el evento GameStop de 2021 reveló las limitaciones de los proveedores tradicionales de datos financieros para analizar el sentimiento en las redes sociales. El sentimiento de los inversores en plataformas como Reddit influyó rápidamente en las tendencias del mercado, pero las terminales de datos como Bloomberg y Reuters no lograron capturar estas dinámicas a tiempo, lo que llevó a pronósticos de mercado retrasados.

Acceso limitado a datos: El monopolio limita el acceso. Muchos proveedores tradicionales abren partes de sus datos a través de APIs/servicios en la nube, pero las altas tarifas de acceso y los complejos procesos de autorización aumentan la dificultad de la integración de datos. Los desarrolladores en cadena luchan por acceder rápidamente a datos fuera de la cadena confiables, con datos de alta calidad monopolizados por unos pocos gigantes a un costo elevado.
Problemas de transparencia y credibilidad de los datos: muchos proveedores de datos centralizados carecen de transparencia en sus métodos de recopilación y procesamiento de datos. También faltan mecanismos efectivos para verificar la autenticidad y la integridad de los datos a gran escala. Verificar datos en tiempo real a gran escala sigue siendo complejo y la naturaleza centralizada aumenta el riesgo de manipulación o alteración de los datos.
Protección de la privacidad y propiedad de los datos: Las grandes empresas de tecnología han comercializado extensivamente los datos de los usuarios. Los usuarios, como los creadores de los datos personales, rara vez obtienen un valor adecuado de ellos. A menudo no pueden comprender cómo se recopilan, procesan o utilizan sus datos, ni pueden decidir el alcance y la forma de su uso. La sobrecolección y el mal uso también conllevan graves riesgos para la privacidad. Por ejemplo, el escándalo de Cambridge Analytica de Facebook expuso fallas significativas en la transparencia y la protección de la privacidad en los ecosistemas tradicionales de datos.
Silos de datos: Los datos en tiempo real de diferentes fuentes y formatos son difíciles de integrar rápidamente, lo que dificulta un análisis exhaustivo. Gran parte de estos datos permanecen encerrados dentro de las organizaciones, lo que limita el intercambio y la innovación entre industrias y organizaciones. Este efecto de "silo de datos" obstruye la integración y el análisis de datos entre dominios. Por ejemplo, en la industria de consumo, las marcas necesitan integrar datos de plataformas de comercio electrónico, tiendas físicas, redes sociales e investigación de mercado, pero estos conjuntos de datos pueden estar aislados debido a inconsistencias o segregación de la plataforma. Del mismo modo, las empresas de viajes compartidos como Uber y Lyft recopilan grandes cantidades de datos en tiempo real sobre el tráfico, la demanda de pasajeros y las ubicaciones geográficas, pero la dinámica competitiva impide que estos conjuntos de datos se compartan o integren.

Más allá de estos problemas, los proveedores de datos tradicionales enfrentan desafíos relacionados con la eficiencia de costos y la flexibilidad. Aunque están abordando activamente estos problemas, las tecnologías emergentes Web3 ofrecen nuevas perspectivas y posibilidades para abordarlos.

3. El Ecosistema de Datos Web3

Desde el lanzamiento de soluciones de almacenamiento descentralizado como IPFS (Sistema de Archivos Interplanetarios) en 2014, una serie de proyectos emergentes han apuntado a abordar las limitaciones de los ecosistemas tradicionales de datos. Las soluciones de datos descentralizados se han convertido en un ecosistema interconectado de múltiples capas que abarca todas las etapas del ciclo de vida de los datos, incluyendo la generación de datos, almacenamiento, intercambio, procesamiento y análisis, verificación y seguridad, así como privacidad y propiedad.

Almacenamiento de datos: El rápido desarrollo de Filecoin y Arweave demuestra que el almacenamiento descentralizado (DCS) se está convirtiendo en un cambio de paradigma en el campo del almacenamiento. DCS reduce los puntos únicos de falla a través de una arquitectura distribuida, mientras atrae a participantes con una eficiencia de costos competitiva. Con la aparición de aplicaciones a gran escala, la capacidad de almacenamiento DCS ha crecido exponencialmente (por ejemplo, la capacidad total de almacenamiento en red de Filecoin alcanzó los 22 exabytes para 2024).
Procesamiento y Análisis: Plataformas descentralizadas de computación de datos como Fluence mejoran el rendimiento en tiempo real y la eficiencia del procesamiento de datos a través de la computación en el borde, especialmente para escenarios de aplicación en tiempo real como IoT e inferencia de IA. Los proyectos de Web3 utilizan tecnologías como el aprendizaje federado, la privacidad diferencial, entornos de ejecución confiables y el cifrado completamente homomórfico para proporcionar una protección de privacidad flexible en la capa de computación.
Plataformas de Mercados/Intercambio de Datos: Para facilitar la valoración y circulación de datos, Ocean Protocol emplea mecanismos de tokenización y DEX para crear canales eficientes y abiertos de intercambio de datos. Por ejemplo, ha colaborado con Daimler (empresa matriz de Mercedes-Benz) para desarrollar mercados de intercambio de datos para la gestión de la cadena de suministro. Por otro lado, Streamr ha desarrollado una red de transmisión de datos basada en suscripciones sin permisos, diseñada para escenarios de IoT y análisis en tiempo real, mostrando un potencial excepcional en proyectos de transporte y logística (por ejemplo, colaborando con el proyecto de ciudad inteligente de Finlandia).

A medida que aumenta el intercambio y la utilización de datos, asegurar la autenticidad, credibilidad y privacidad se ha vuelto crítico. Esto impulsa al ecosistema Web3 a innovar en la verificación de datos y la protección de la privacidad, lo que lleva a soluciones innovadoras.

3.1 Innovaciones en Verificación de Datos y Protección de Privacidad

Muchas tecnologías Web3 y proyectos nativos se centran en abordar problemas de autenticidad de datos y protección de la privacidad. Más allá de la adopción generalizada de tecnologías como Pruebas de Conocimiento Cero (ZK) y Computación Multi-Parte (MPC), TLS Notary ha surgido como un método de verificación nuevo y notable.

Introducción a TLS Notary

El protocolo de seguridad de la capa de transporte (TLS) es un protocolo de cifrado ampliamente utilizado para las comunicaciones en red. Su principal objetivo es garantizar la seguridad, integridad y confidencialidad de la transmisión de datos entre un cliente y un servidor. TLS es un estándar común de cifrado en las comunicaciones de red modernas, aplicado en escenarios como HTTPS, correo electrónico y mensajería instantánea.

(Principios de cifrado TLS, Fuente: TechTarget)

Cuando TLS Notary se introdujo por primera vez hace una década, su objetivo era verificar la autenticidad de las sesiones de TLS mediante la introducción de un "notario" externo al cliente (probador) y al servidor.

Utilizando la tecnología de división de claves, la clave maestra de una sesión TLS se divide en dos partes, que se mantienen separadas por el cliente y el notario. Este diseño permite que el notario participe como un tercero de confianza en el proceso de verificación sin acceder al contenido real de la comunicación. Este mecanismo tiene como objetivo detectar ataques de intermediarios, prevenir certificados fraudulentos y asegurar que los datos de comunicación no sean manipulados durante la transmisión. También permite a terceros de confianza confirmar la legitimidad de las comunicaciones mientras se protege la privacidad.

Así, TLS Notary ofrece verificación segura de datos y equilibra de manera efectiva las necesidades de verificación con la protección de la privacidad.

En 2022, el proyecto TLS Notary fue reestructurado por el laboratorio de investigación de privacidad y escalabilidad (PSE) de la Fundación Ethereum. La nueva versión del protocolo TLS Notary fue reescrita desde cero en el lenguaje de programación Rust e integrada con protocolos criptográficos más avanzados como MPC. Estas actualizaciones permiten a los usuarios demostrar la autenticidad de los datos recibidos de un servidor a un tercero sin revelar el contenido de los datos. Si bien mantiene sus capacidades de verificación central, el nuevo TLS Notary mejora significativamente la protección de la privacidad, lo que lo hace más adecuado para los requisitos actuales y futuros de privacidad de los datos.

3.2 Variantes y extensiones de TLS Notary

En los últimos años, la tecnología de Notario TLS ha seguido evolucionando, lo que ha dado lugar a diversas derivaciones que mejoran aún más su privacidad y capacidades de verificación:

zkTLS: una versión mejorada de TLS Notary que integra tecnología ZKP, permitiendo a los usuarios generar pruebas criptográficas de los datos de la página web sin exponer información sensible. Es especialmente adecuado para escenarios de comunicación que requieren alta protección de privacidad.
3P-TLS (Three-Party TLS): Este protocolo introduce tres partes: el cliente, el servidor y el auditor, lo que permite al auditor verificar la seguridad de las comunicaciones sin revelar el contenido. Este protocolo es útil en escenarios que requieren transparencia y privacidad, como auditorías de cumplimiento o revisiones de transacciones financieras.

Los proyectos Web3 aprovechan estas tecnologías criptográficas para mejorar la verificación de datos y la protección de la privacidad, abordando problemas como los monopolios de datos, los silos y la transmisión confiable. Los usuarios pueden verificar de forma segura la propiedad de cuentas de redes sociales, registros de compras para préstamos financieros, historial crediticio bancario, antecedentes profesionales y credenciales académicas sin comprometer su privacidad. Algunos ejemplos incluyen:

Protocolo de recuperación: Utiliza zkTLS para generar pruebas de conocimiento cero del tráfico HTTPS, lo que permite a los usuarios importar de forma segura la actividad, reputación y datos de identidad de sitios web externos sin exponer información sensible.
zkPass: Combina la tecnología 3P-TLS para permitir a los usuarios verificar datos privados del mundo real de forma segura, con aplicaciones en KYC y servicios de crédito. También es compatible con la red HTTPS.
Red de Opacidad: Construida sobre zkTLS, permite a los usuarios demostrar de forma segura sus actividades en plataformas como Uber, Spotify y Netflix sin acceder directamente a las APIs de estas plataformas, lo que permite la verificación de actividades entre plataformas.

(Proyectos trabajando en Oráculos TLS, Fuente: Bastian Wetzel)

La verificación de datos en Web3 es un eslabón esencial en el ecosistema de datos, con vastas perspectivas de aplicación. El florecimiento de este ecosistema está guiando la economía digital hacia un modelo más abierto, dinámico y centrado en el usuario. Sin embargo, el desarrollo de tecnologías de verificación de autenticidad es solo el comienzo de la construcción de infraestructuras de datos de próxima generación.

4. Redes de Datos Descentralizadas

Algunos proyectos han combinado las tecnologías de verificación de datos mencionadas anteriormente con una mayor exploración de los ecosistemas de datos aguas arriba, como la trazabilidad de datos, la recolección de datos distribuidos y la transmisión confiable. A continuación, destacamos tres proyectos representativos—OpenLayer, Grass y Vana—que muestran un potencial único en la construcción de infraestructura de datos de próxima generación.

4.1 Capa abierta

OpenLayer, uno de los proyectos del acelerador de startups a16z Crypto 2024 Spring, es la primera capa de datos auténtica modular. Su objetivo es proporcionar una solución modular innovadora para coordinar la recopilación, verificación y transformación de datos, abordando las necesidades tanto de las empresas Web2 como de las Web3. OpenLayer ha recibido el apoyo de fondos de renombre e inversores ángeles, incluyendo Geometry Ventures y LongHash Ventures.

Las capas de datos tradicionales enfrentan múltiples desafíos: falta de mecanismos de verificación confiables, dependencia de arquitecturas centralizadas que limitan la accesibilidad, falta de interoperabilidad y flujo entre diferentes sistemas, y la ausencia de mecanismos justos de distribución de valor de datos.

Un problema más específico es la creciente escasez de datos de entrenamiento para la IA. En internet público, muchos sitios web ahora implementan medidas antidescarga para evitar la descarga masiva de datos por parte de empresas de IA. En datos propietarios privados, la situación es aún más compleja. Los datos valiosos a menudo se almacenan en forma protegida debido a su naturaleza sensible, careciendo de mecanismos de incentivos efectivos. Los usuarios no pueden monetizar de forma segura sus datos privados y, por lo tanto, son reacios a compartir información sensible.

Para abordar estos problemas, OpenLayer combina tecnologías de verificación de datos para construir una Capa de Datos Auténtica Modular. A través de la descentralización y los incentivos económicos, coordina los procesos de recopilación, verificación y transformación de datos, proporcionando una infraestructura de datos más segura, eficiente y flexible para las empresas de Web2 y Web3.

4.1.1 Componentes fundamentales del diseño modular de OpenLayer

OpenLayer proporciona una plataforma modular que simplifica la recopilación de datos, la verificación confiable y los procesos de transformación.

a) OpenNodes

Los OpenNodes son los componentes principales responsables de la recopilación descentralizada de datos en el ecosistema de OpenLayer. A través de aplicaciones móviles, extensiones de navegador y otros canales, los usuarios pueden recopilar datos. Los diferentes operadores/nodos pueden optimizar sus recompensas realizando tareas que se adapten mejor a sus especificaciones de hardware.

OpenNodes admite tres tipos principales de datos:

Los datos de internet disponibles públicamente (por ejemplo, datos financieros, meteorológicos, deportivos y de redes sociales)
Datos privados del usuario (por ejemplo, historial de visualización de Netflix, registros de pedidos de Amazon)
Datos autoinformados de fuentes confiables (por ejemplo, datos verificados por los propietarios o hardware específico confiable).

Los desarrolladores pueden agregar fácilmente nuevos tipos de datos, especificar fuentes de datos y definir requisitos y métodos de recuperación. Los usuarios pueden proporcionar datos anonimizados a cambio de recompensas. Este diseño permite que el sistema se expanda continuamente para satisfacer nuevas demandas de datos. Las diversas fuentes de datos hacen que OpenLayer sea adecuado para varios escenarios de aplicación y reduzcan el umbral para la provisión de datos.

b) OpenValidators

Los OpenValidators se encargan de verificar los datos recopilados, permitiendo a los consumidores de datos confirmar la precisión de los datos proporcionados por el usuario frente a su fuente. Los métodos de verificación utilizan pruebas criptográficas y los resultados pueden validarse retrospectivamente. Varios proveedores pueden ofrecer servicios de verificación para el mismo tipo de prueba, lo que permite a los desarrolladores seleccionar el proveedor más adecuado para sus necesidades.

En casos de uso iniciales, especialmente para datos públicos o privados de API de Internet, OpenLayer utiliza TLS Notary como solución de verificación. Exporta datos de cualquier aplicación web y verifica su autenticidad sin comprometer la privacidad.

Más allá de TLS Notary, gracias a su diseño modular, el sistema de verificación puede integrar fácilmente otros métodos para adaptarse a diversas necesidades de datos y verificación, incluyendo:

Conexiones TLS certificadas: Utilizando entornos de ejecución confiables (TEEs) para establecer conexiones TLS certificadas, garantizando la integridad y autenticidad de los datos durante la transmisión.
Enclaves seguros: Utilizando entornos de aislamiento seguro a nivel de hardware (por ejemplo, Intel SGX) para procesar y verificar datos sensibles, ofreciendo una protección de datos de mayor nivel.
Generadores de pruebas ZK: Integrando pruebas de conocimiento cero para verificar atributos de datos o resultados de cálculos sin exponer los datos subyacentes.

c) OpenConnect

OpenConnect es el módulo responsable de la transformación de datos y la usabilidad dentro del ecosistema de OpenLayer. Procesa datos de diversas fuentes, garantizando la interoperabilidad entre diferentes sistemas para cumplir con diversos requisitos de aplicación. Por ejemplo:

Convirtiendo datos en un formato de Oracle en cadena para uso directo por contratos inteligentes.
Preprocesamiento de datos sin estructurar en datos estructurados para el entrenamiento de inteligencia artificial.

Proporcionar anonimización de datos que preserva la privacidad para cuentas privadas de usuario mientras se mejora la seguridad durante el intercambio de datos para reducir filtraciones y mal uso.

Para satisfacer las demandas de datos en tiempo real de las aplicaciones de IA y blockchain, OpenConnect admite una transformación eficiente de datos en tiempo real.

Actualmente, a través de la integración con EigenLayer, los operadores de OpenLayer AVS (Servicio de Validación Activa) supervisan las tareas de solicitud de datos, recopilan datos, los verifican y reportan los resultados al sistema. Los operadores apuestan o vuelven a apostar activos en EigenLayer para proporcionar garantías económicas para sus acciones. El comportamiento malicioso resulta en la reducción de activos. Como uno de los primeros proyectos AVS en la red principal de EigenLayer, OpenLayer ha atraído a más de 50 operadores y $4 mil millones en activos re-apostados.

4.2 Hierba

Grass, el proyecto insignia desarrollado por Wynd Network, está diseñado para crear una capa de datos descentralizada y una plataforma de entrenamiento de IA. A finales de 2023, Grass completó una ronda de financiación inicial de $3.5 millones liderada por Polychain Capital y Tribe Capital. En septiembre de 2024, aseguró financiamiento de la Serie A, con $5 millones liderados por HackVC y la participación adicional de Polychain, Delphi, Lattice y Brevan Howard.

A medida que el entrenamiento de IA depende cada vez más de fuentes de datos diversas y expansivas, Grass aborda esta necesidad creando una red de nodos de rastreo web distribuida. Esta red aprovecha la infraestructura física descentralizada y el ancho de banda de usuarios inactivos para recopilar y proporcionar conjuntos de datos verificables para el entrenamiento de IA. Los nodos enrutan las solicitudes web a través de las conexiones a Internet de los usuarios, accediendo a sitios web públicos y compilando conjuntos de datos estructurados. La limpieza y el formato inicial de los datos se realizan utilizando tecnología de computación en el borde, lo que garantiza salidas de alta calidad.

Grass utiliza la arquitectura de Capa de datos Solana Layer 2 Data Rollup para mejorar la eficiencia de procesamiento. Los validadores reciben, verifican y procesan por lotes transacciones web de nodos, generando pruebas de conocimiento cero (ZK) para confirmar la autenticidad de los datos. Los datos verificados se almacenan en el libro mayor de datos de Grass (L2), con pruebas correspondientes vinculadas a la cadena de bloques Solana L1.

4.2.1 Componentes clave de Grass

a) Nodos de hierba:

Los usuarios instalan la aplicación Grass o la extensión del navegador, lo que permite que su ancho de banda inactivo alimente el rastreo web descentralizado. Los nodos enrutan las solicitudes web, acceden a sitios web públicos y compilan conjuntos de datos estructurados. Utilizando la computación en el borde, realizan la limpieza inicial de datos y el formato. Los usuarios ganan tokens GRASS como recompensa basada en su contribución de ancho de banda y el volumen de datos proporcionado.

b) Enrutadores：

Actuando como intermediarios, los routers conectan los nodos de Grass con los validadores. Gestionan la red de nodos, y la amplitud de banda de relé, y se incentivan en función del ancho de banda verificado total que facilitan.

c) Validadores:

Los validadores reciben y verifican las transacciones web transmitidas por los enrutadores. Generan pruebas ZK para confirmar la validez de los datos, aprovechando conjuntos de claves únicas para establecer conexiones seguras de TLS y suites de encriptación. Si bien Grass actualmente utiliza validadores centralizados, existen planes para pasar a un comité de validadores descentralizado.

d) Procesadores ZK:

Estos procesadores validan las pruebas de datos de sesión del nodo y agrupan todas las pruebas de solicitudes web para enviarlas a la Capa 1 de Solana.

e) Registro de Datos de Grass (Grass L2):

El Registro de Datos de Grass almacena conjuntos de datos completos y los vincula a sus respectivas pruebas L1 en Solana, garantizando transparencia y trazabilidad.

f) Modelos de incrustación de bordes:

Estos modelos transforman datos web no estructurados en conjuntos de datos estructurados adecuados para el entrenamiento de inteligencia artificial.

Origen: Hierba

Comparación: Grass vs. OpenLayer

Grass y OpenLayer comparten el compromiso de aprovechar las redes distribuidas para proporcionar a las empresas acceso a datos abiertos de Internet y datos privados autenticados. Ambos utilizan mecanismos de incentivos para promover el intercambio de datos y la producción de conjuntos de datos de alta calidad, pero sus arquitecturas técnicas y modelos de negocio difieren.

Arquitectura técnica:

Grass utiliza una arquitectura de Solana Layer 2 Data Rollup con validación centralizada, basada en un único validador. OpenLayer, como adoptante temprano del Servicio de Validación Activa (AVS) de EigenLayer, emplea un mecanismo de validación descentralizado utilizando incentivos económicos y penalizaciones. Su diseño modular enfatiza la escalabilidad y flexibilidad en los servicios de verificación de datos.

Enfoque del producto:

Ambos proyectos permiten a los usuarios monetizar datos a través de nodos, pero sus casos de uso empresarial divergen:

Grass cuenta con un modelo de mercado de datos que utiliza L2 para almacenar conjuntos de datos estructurados y de alta calidad de forma verificable. Estos conjuntos de datos están diseñados a medida para empresas de inteligencia artificial como recursos de entrenamiento.
OpenLayer se enfoca en la verificación en tiempo real de transmisiones de datos (VaaS) en lugar de almacenamiento de datos dedicado. Sirve para escenarios dinámicos como oráculos para RWA/DeFi/mercados de predicción, datos sociales en tiempo real y aplicaciones de inteligencia artificial que requieren entradas de datos instantáneas.

Grass se dirige principalmente a empresas de inteligencia artificial y científicos de datos que necesitan conjuntos de datos estructurados a gran escala, así como a instituciones de investigación y empresas que requieren datos basados en la web. OpenLayer atiende a desarrolladores Web3 que necesitan fuentes de datos fuera de la cadena, empresas de inteligencia artificial que requieren flujos verificables en tiempo real, y empresas que persiguen estrategias innovadoras como verificar el uso de productos de la competencia.

Competencia futura y sinergias

Si bien ambos proyectos ocupan actualmente nichos distintos, es posible que sus funcionalidades converjan a medida que la industria evoluciona:

El césped podría expandirse para ofrecer datos estructurados en tiempo real.
OpenLayer podría desarrollar un libro mayor de datos dedicado para la gestión de conjuntos de datos.

Ambos proyectos también podrían integrar el etiquetado de datos como un paso crítico para entrenar conjuntos de datos. Grass, con su vasta red de más de 2.2 millones de nodos activos, podría desplegar rápidamente servicios de Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) para optimizar modelos de IA. OpenLayer, con su experiencia en verificación y procesamiento de datos en tiempo real, podría mantener una ventaja en la credibilidad y calidad de los datos, especialmente para conjuntos de datos privados.

A pesar de la posible superposición, sus fortalezas únicas y enfoques tecnológicos pueden permitirles dominar diferentes nichos dentro del ecosistema de datos descentralizados.

（Source：IOSG, David）

4.3 Vana: Una red de pool de datos centrada en el usuario

Vana es una red de grupo de datos centrada en el usuario diseñada para proporcionar datos de alta calidad para la inteligencia artificial y aplicaciones relacionadas. En comparación con OpenLayer y Grass, Vana adopta un enfoque tecnológico y empresarial distinto. En septiembre de 2024, Vana aseguró $5 millones en financiamiento liderado por Coinbase Ventures, después de una ronda de Serie A de $18 millones en la que Paradigm fue el inversionista principal, con la participación de Polychain y Casey Caruso.

Lanzada originalmente en 2018 como un proyecto de investigación del MIT, Vana es una blockchain de Capa 1 dedicada a los datos privados de los usuarios. Sus innovaciones en la propiedad de los datos y la distribución del valor permiten a los usuarios obtener beneficios de los modelos de IA entrenados con sus datos. Vana logra esto a través de Piscinas de Liquidez de Datos (DLP) sin confianza, privadas y atribuibles y un innovador mecanismo de Prueba de Contribución que facilita el flujo y la monetización de datos privados.

4.3.1. Fondos de liquidez de datos (DLP)

Vana introduce un concepto único de Piscinas de Liquidez de Datos (DLP, por sus siglas en inglés), que están en el núcleo de la red de Vana. Cada DLP es una red independiente de igual a igual que agrupa tipos específicos de activos de datos. Los usuarios pueden cargar sus datos privados, como registros de compras, hábitos de navegación y actividad en redes sociales, en DLPs designados y decidir si autorizan o no el uso de terceros específicos.

Los datos dentro de estos grupos se someten a desidentificación para proteger la privacidad del usuario, al tiempo que siguen siendo útiles para aplicaciones comerciales, como el entrenamiento de modelos de IA y la investigación de mercado. Los usuarios que contribuyen datos a un DLP son recompensados con tokens DLP correspondientes. Estos tokens representan la contribución del usuario al grupo, otorgan derechos de gobernanza y dan derecho al usuario a una parte de las ganancias futuras.

A diferencia de la venta única tradicional de datos, Vana permite que los datos participen continuamente en el ciclo económico, lo que permite a los usuarios recibir recompensas continuas con un seguimiento de uso transparente y visualizado.

4.3.2. Mecanismo de Prueba de Contribución

El mecanismo de Prueba de Contribución (PoC) es una piedra angular del enfoque de Vana para garantizar la calidad de los datos. Cada DLP puede definir una función de PoC única adaptada a sus características, verificando la autenticidad y completitud de los datos enviados y evaluando su contribución para mejorar el rendimiento del modelo de IA. Este mecanismo cuantifica las contribuciones de los usuarios, registrándolas para la asignación de recompensas. Similar al concepto de 'Prueba de Trabajo' en criptomonedas, PoC recompensa a los usuarios en función de la calidad, cantidad y frecuencia de uso de los datos. Los contratos inteligentes automatizan este proceso, garantizando que los contribuyentes sean compensados de manera justa y transparente.

Arquitectura Técnica de Vana

Capa de liquidez de datos:

Esta capa central permite la contribución, verificación y registro de datos en las Capas de Datos, transformando los datos en activos digitales transferibles en la cadena. Los creadores de Capas de Datos implementan contratos inteligentes para establecer propósitos, métodos de verificación y parámetros de contribución. Los contribuyentes de datos envían datos para su validación, y el módulo de PoC evalúa la calidad de los datos y asigna derechos de gobernanza y recompensas.

Capa de portabilidad de datos:

Como capa de aplicación de Vana, esta plataforma facilita la colaboración entre los contribuyentes de datos y los desarrolladores. Proporciona infraestructura para construir modelos de entrenamiento de IA distribuidos y aplicaciones descentralizadas de IA utilizando la liquidez en las capas de datos.

Connectoma:

Una contabilidad descentralizada que respalda el ecosistema de Vana, Connectome actúa como un mapa de flujo de datos en tiempo real. Registra todas las transacciones de datos en tiempo real mediante el consenso de Prueba de Participación, asegurando la transferencia eficiente de tokens DLP y permitiendo el acceso a datos cruzados de DLP. Totalmente compatible con EVM, permite la interoperabilidad con otras redes, protocolos y aplicaciones DeFi.

（Source： Vana）

Vana ofrece un enfoque fresco al centrarse en la liquidez y el empoderamiento de los datos del usuario. Este modelo de intercambio de datos descentralizado no solo admite el entrenamiento de IA y los mercados de datos, sino que también permite compartir y poseer datos sin problemas en múltiples plataformas en el ecosistema Web3. En última instancia, fomenta un Internet abierto donde los usuarios pueden ser dueños y gestionar sus datos y los productos inteligentes creados a partir de ellos.

5. La Propuesta de Valor de las Redes de Datos Descentralizadas

En 2006, el científico de datos Clive Humby afirmó famosamente: "Los datos son el nuevo petróleo". Durante las últimas dos décadas, hemos sido testigos de la rápida evolución de tecnologías que "refinan" este recurso, como el análisis de grandes datos y el aprendizaje automático, que han desbloqueado un valor sin precedentes de los datos. Según IDC, para 2025, la esfera global de datos se expandirá a 163 ZB, con la mayoría proveniente de individuos. A medida que IoT, los dispositivos portátiles, la inteligencia artificial y los servicios personalizados se vuelvan más generalizados, gran parte de los datos requeridos para uso comercial provendrán de individuos.

Desafíos de las soluciones tradicionales e innovaciones Web3

Las soluciones de datos Web3 superan las limitaciones de la infraestructura tradicional aprovechando las redes de nodos distribuidos. Estas redes permiten una recopilación de datos más amplia y eficiente al tiempo que mejoran la accesibilidad y verificabilidad en tiempo real de conjuntos de datos específicos. Las tecnologías Web3 garantizan la autenticidad e integridad de los datos al tiempo que protegen la privacidad del usuario, fomentando un modelo de utilización de datos más justo. Esta arquitectura descentralizada democratiza el acceso a los datos y permite a los usuarios compartir los beneficios económicos de la economía de los datos.

Tanto OpenLayer como Grass se basan en modelos de usuario-nodo para mejorar procesos específicos de recopilación de datos, mientras que Vana monetiza datos privados de usuarios. Estos enfoques no solo mejoran la eficiencia, sino que también permiten a los usuarios comunes participar en el valor creado por la economía de datos, creando así un escenario beneficioso para los usuarios y los desarrolladores.

A través de la tokenomía, las soluciones de datos de Web3 rediseñan los modelos de incentivos, estableciendo un mecanismo de distribución de valor más justo. Estos sistemas atraen una participación significativa de usuarios, recursos de hardware e inversión de capital, optimizando el funcionamiento de toda la red de datos.

Las soluciones Web3 ofrecen modularidad y escalabilidad, lo que permite la iteración tecnológica y la expansión del ecosistema. Por ejemplo: el diseño modular de OpenLayer proporciona flexibilidad para futuros avances; la arquitectura distribuida de Grass optimiza el entrenamiento de modelos de IA al proporcionar conjuntos de datos diversos y de alta calidad.

Desde la generación, almacenamiento y verificación de datos hasta el intercambio y análisis, las soluciones impulsadas por Web3 abordan las deficiencias de las infraestructuras tradicionales. Al permitir a los usuarios monetizar sus datos, estas soluciones transforman fundamentalmente la economía de datos.

A medida que las tecnologías evolucionan y los escenarios de aplicación se expanden, las capas de datos descentralizadas están preparadas para convertirse en una piedra angular de la infraestructura de próxima generación. Apoyarán a una amplia gama de industrias basadas en datos, al tiempo que permitirán a los usuarios tomar el control de sus datos y su potencial económico.

Descargo de responsabilidad:

Este artículo es reimpreso de [IOSG Ventures]. Todos los derechos de autor pertenecen al autor original [IOSG Ventures]. Si hay objeciones a esta reproducción, por favor contacte alGate Learnequipo, y ellos lo resolverán rápidamente.
Descargo de responsabilidad: Las opiniones expresadas en este artículo son únicamente las del autor y no constituyen asesoramiento de inversión.
El equipo de Aprendizaje de gate tradujo el artículo a otros idiomas. Está prohibido copiar, distribuir o plagiar los artículos traducidos a menos que se mencione.

Contenido

Resumen

1. El aumento en la demanda de datos

2. Limitaciones y desafíos de los ecosistemas de datos tradicionales

3. El ecosistema de datos Web3

4. Redes de Datos Descentralizadas

5. La Propuesta de Valor de las Redes de Datos Descentralizadas

Calendario cripto

Actualización de Hayabusa

VeChain ha revelado planes para la actualización Hayabusa, programada para diciembre. Esta actualización tiene como objetivo mejorar significativamente tanto el rendimiento del protocolo como la tokenómica, marcando lo que el equipo llama la versión más centrada en la utilidad de VeChain hasta la fecha.

VET

-3.53%

2025-12-27

Atardeceres de Litewallet

La Fundación Litecoin ha anunciado que la aplicación Litewallet se retirará oficialmente el 31 de diciembre. La aplicación ya no se mantiene activamente, con solo correcciones de errores críticas abordadas hasta esa fecha. El chat de soporte también se descontinuará después de este plazo. Se alienta a los usuarios a hacer la transición a Billetera Nexus, con herramientas de migración y una guía paso a paso proporcionadas dentro de Litewallet.

LTC

-1.1%

2025-12-30

La migración de tokens OM finaliza

MANTRA Chain emitió un recordatorio para que los usuarios migraran sus tokens OM a la mainnet de MANTRA Chain antes del 15 de enero. La migración asegura la participación continua en el ecosistema mientras $OM se transfiere a su cadena nativa.

-4.32%

2026-01-14

Cambio de precio de CSM

Hedera ha anunciado que a partir de enero de 2026, la tarifa fija en USD para el servicio ConsensusSubmitMessage aumentará de $0.0001 a $0.0008.

HBAR

-2.94%

2026-01-27

Desbloqueo de adquisición retrasado

Router Protocol ha anunciado un retraso de 6 meses en el desbloqueo de vesting de su token ROUTE. El equipo cita la alineación estratégica con la Arquitectura de Gráfico Abierto (OGA) del proyecto y el objetivo de mantener el impulso a largo plazo como las principales razones del aplazamiento. No se realizarán nuevos desbloqueos durante este período.

ROUTE

-1.03%

2026-01-28