Grass - Une Révolution des Données

Intermédiaire12/9/2024, 8:36:14 AM
Grass donne aux modèles d'IA et aux applications un accès à l'ensemble d'Internet en tant qu'ensemble de données, qui est collecté via un réseau de nœuds dans le monde entier qui contribuent à leur bande passante Internet inutilisée. Ils ont une forte traction initiale avec plus de 2,5 millions d'utilisateurs.

Résumé exécutif

L'IA générative est l'innovation la plus importante de mémoire récente et devient encore plus importante à mesure que le temps passe. L'IA générative est essentiellement le produit de trois éléments :

Algorithmes + Données + Calcul = Intelligence

Cela signifie que les données et les calculs deviendront probablement deux des actifs les plus importants au monde et y accéder sera extrêmement important.

Les modèles d'IA générative sont avides de données. Les données sur lesquelles les modèles d'IA générative les plus importants fonctionnent sont l'ensemble des connaissances humaines, qui est une approximation de la somme de toutes les connaissances humaines.

La cryptographie consiste à donner accès à de nouvelles ressources numériques dans le monde entier et à transformer en actifs des choses qui ne l'étaient pas auparavant grâce à des jetons. Grass fait cela pour les données.

Grass donne aux modèles et applications d'IA un accès à l'ensemble d'Internet en tant qu'ensemble de données en direct, collectées via un réseau de nœuds du monde entier qui contribuent à leur bande passante Internet inutilisée. Ils ont une forte traction initiale avec plus de 2,5 millions d'utilisateurs.[1]

Le marché potentiel à long terme pour Grass est énorme et est relatif à la taille du marché de l'IA et de sa croissance future. Dans le passé, la collecte de jeux de données de cette envergure était réservée aux plus grands géants de la technologie. Grass apporte de nouvelles économies aux données, réduisant les coûts. Cela démocratise l'accès aux données non seulement pour les grandes entreprises élites, mais aussi pour la longue traîne de l'industrie de l'IA.

Le Problème

L'entraînement et l'optimisation des modèles d'IA nécessitent des quantités énormes de données. Historiquement, une grande partie de ces données a été collectée par les créateurs de modèles d'IA en extrayant des données à partir de sites web. Ce processus d'extraction présente plusieurs défis :

  • Le web scraping est coûteux. Seules quelques grandes organisations sont capables de scraper périodiquement l'ensemble du web. Cela exclut les petits développeurs d'IA de l'accès aux données.
  • Blocage IP. Il y a eu un jeu du chat et de la souris entre ces services d'extraction et les créateurs de contenu. Il est assez simple de bloquer une adresse IP pour arrêter l'extraction, ce qui rend difficile la réalisation des objectifs d'extraction et la collecte des données nécessaires à l'entraînement et à l'optimisation de l'IA.
  • Ressources gaspillées. Le scraping web est une tâche qui peut profiter à de nombreux clients. Le matériel, la bande passante et la puissance de calcul nécessaires à cela sont inefficaces s'ils sont effectués par un seul client.
  • Fraîcheur des données. Il est fastidieux et coûteux de scanner l'ensemble d'Internet. Cela le rend impraticable pour la plupart des utilisateurs de le scanner souvent, ce qui rend les données moins fraîches/récentes, impactant la qualité des modèles d'IA.

Solution de Grass

Grass vise à résoudre ces problèmes en créant un réseau fédéré de robots d'exploration Web. Chaque individu participant au réseau Grass contribue à partir de sa bande passante Internet inutilisée pour fournir une petite quantité de données d'exploration à partir de son adresse IP. Grass assemble ensuite les données de chacun de ces nœuds pour former un ensemble de données combinées utiles à l'entraînement et à l'optimisation de l'IA. C'est une utilisation élégante et appropriée des réseaux distribués alimentés par la cryptomonnaie.

Il existe également d'autres cas d'utilisation pour Internet inutilisé, tels que:

  • Collecte de données locales/géographiques, telles que des annonces
  • Effectuer des recherches académiques
  • Vérification des prix locaux

Aujourd'hui, Grass collecte des données à l'aide de matériel existant (ordinateurs portables, ordinateurs de bureau, etc.). À l'avenir, Grass prévoit de proposer un appareil de collecte de données, qui est un dispositif matériel personnalisé dédié exclusivement à la collecte de données, créant des efficacités en raison de l'optimisation de l'appareil pour cette tâche particulière.

Avantages de l'herbe

Il existe plusieurs avantages à utiliser un réseau distribué pour la collecte de données :

  • Accès démocratisé aux données Web qui devient moins cher à grande échelle. Au lieu qu'un seul client collecte des données pour ses propres besoins, Grass collecte des données au nom de nombreux clients. Ces données peuvent être revendues plusieurs fois, créant des économies d'échelle sur les données, réduisant les coûts économiques du scraping et rendant le marché plus efficace. À grande échelle, Grass peut hypothétiquement devenir la solution de collecte de données la plus rentable pour les clients, créant un effet de réseau économique autour de leur protocole. Cela signifie que la collecte de données est désormais disponible pour tous, et pas seulement pour quelques grandes entreprises disposant des ressources nécessaires pour scraper le Web.
  • Le blocage de l'IP devient inapplicable. En distribuant le grattage, il devient beaucoup plus difficile de détecter et d'arrêter le grattage, car chaque nœud ne fait qu'une quantité relativement mineure de capture de données et est difficile à distinguer du trafic Internet typique. Cela se traduit par des ensembles de données plus complets pour l'entraînement.
  • La bande passante Internet est utilisée de manière plus efficace. Étant donné que Grass est essentiellement une plateforme de consommation collaborative de bande passante Internet inutilisée, elle est plus efficace que de fournir de nouvelles bandes passantes uniquement pour le scraping.
  • Les données sont plus précises et récentes. Il est plus rentable de récupérer plus fréquemment que ce qu'un client typique pourrait faire lui-même. Cela se traduit par moins de données obsolètes. Cela est important car les modèles d'IA résultants sont plus à jour.

Le défi : les créateurs de contenu qui monétisent leurs données

L'une des choses délicates à naviguer lors du grattage de données est les créateurs de contenu. Cela inclut des sites tels que le NY Times et Reddit, qui ont commencé à monétiser leurs données en les concédant sous licence à des tiers pour la formation de modèles d'IA. Ils sont naturellement protecteurs des données sur leurs sites, car ces données représentent des sources de revenus très lucratives pour eux. En effet, Reddit a interdit l'utilisation de son API développeur pour l'apprentissage automatique afin de protéger son modèle économique de concession de licence de ses données aux créateurs de modèles d'IA (voir les conditions d'utilisation).ici).

Que réserve l'avenir aux créateurs de contenu? Eh bien, pour le contenu généré par les utilisateurs (UGC), comme Reddit, il y a un argument selon lequel les utilisateurs possèdent leurs propres données (plutôt que la plate-forme), car le contenu a été créé par les utilisateurs et devrait être possédé par ces utilisateurs. Cet argument doit encore être pleinement exploré d'un point de vue juridique. Il sera intéressant de garder un œil sur cette question à l'avenir. Cependant, si les utilisateurs possèdent effectivement leurs données contribuées, alors Grass pourrait représenter un chemin hypothétique pour aider ces utilisateurs à monétiser leurs propres données contribuées. Par exemple, Grass pourrait récompenser les contributeurs Reddit eux-mêmes pour avoir bénévolement contribué leurs données qu'ils ont créées sur Reddit.

Pour les créateurs de contenu payants tels que le NY Times, le contenu est créé par des rédacteurs rémunérés, et en tant que tel, il n'y a pas d'argument en faveur des données appartenant aux utilisateurs. Ainsi, Grass pourrait simplement exclure ces sites de l'analyse. En outre, Grass pourrait atteindre un niveau de développement où il deviendrait possible pour Grass lui-même de devenir client de ces sites et de payer des frais de licence. La façon dont cela pourrait fonctionner hypothétiquement est que les clients de Grass pourraient payer pour les données, puis Grass pourrait partager les revenus avec les créateurs de contenu, permettant ainsi la création de modèles d'IA avec un budget flexible. Autrement dit, Grass pourrait atteindre une telle envergure qu'il pourrait négocier un accord de licence en gros au nom de tous ses clients.

Lancement de Grass

L'herbe a eu un lancement extrêmement impressionnant plus tôt cette année :

  • Grass a eu la plus grande distribution de largages aériens de l'histoire de Solana.[2]
  • Plus de 2 millions de portefeuillesrevendiquél'airdrop, causant le réseau Solana à plier sous la pression.
  • Il y a plus de 2,5 millions d'utilisateurs de Grass dans le monde entier.[3]
  • L'herbe a déjà la capacité et les données pour entraîner le modèle ChatGPT 3.5 d'OpenAI.
  • À titre de démonstration de leur plateforme, Grass a rendu accessible au public un ensemble de données constitué de 600 millions de publications et de commentaires provenant de Reddit à partir de 2024 (voir icipour l'annonce eticipour l'ensemble de données).

Au moment de la rédaction, le token Grass avait action de prix positive post-lancement (+115%), ce qui est inhabituel car la plupart des jetons chutent dans les jours/semaines suivant leur inscription. Il s'agit probablement d'un reflet de leur approche intelligente en matière de distribution de largent airdrop, ainsi que de leur croyance en l'avenir et au potentiel de Grass. Dans l'ensemble, il s'agit d'un excellent départ pour le réseau et nous croyons que cela ouvre la voie à de nombreuses années prospères à venir.

Performance du jeton Grass depuis son lancement le 28 octobre 2024

Source : TradingView.

Commencez à contribuerOptimisez votre bande passante Internet inutilisée en connectant votre portefeuille Solana et gagnez le jeton Grass.

Vous souhaitez utiliser les ensembles de données de Grass pour votre entreprise, vos recherches ou votre projet? Contactez l'équipe de gate.discover@grassfoundation.io.

Notes de bas de page

[1] Source: https://www.getgrass.io/.
[2] Source: https://www.google.com/url?q=https://www.theblock.co/post/323805/grass-becomes-most-distributed-solana-airdrop-as-nearly-1-5-million-addresses-claim-tokens&sa=D&source=docs&ust=1732646335082707&usg=AOvVaw0oVvhJL661rmE1ABmJqOyP.
[3] Source: https://www.getgrass.io/.

Avertissement:

  1. Cet article est repris de[Hack VC], Tous les droits d'auteur appartiennent à l'auteur original [Ed Roman]. S'il y a des objections à cette reproduction, veuillez contacter le Porte Apprendreéquipe, et ils s'en occuperont rapidement.
  2. Clause de non-responsabilité : Les points de vue et opinions exprimés dans cet article sont uniquement ceux de l'auteur et ne constituent aucun conseil en investissement.
  3. Les traductions de l'article dans d'autres langues sont réalisées par l'équipe Learn de Gate. Sauf mention contraire, la copie, la distribution ou le plagiat des articles traduits est interdit.

Grass - Une Révolution des Données

Intermédiaire12/9/2024, 8:36:14 AM
Grass donne aux modèles d'IA et aux applications un accès à l'ensemble d'Internet en tant qu'ensemble de données, qui est collecté via un réseau de nœuds dans le monde entier qui contribuent à leur bande passante Internet inutilisée. Ils ont une forte traction initiale avec plus de 2,5 millions d'utilisateurs.

Résumé exécutif

L'IA générative est l'innovation la plus importante de mémoire récente et devient encore plus importante à mesure que le temps passe. L'IA générative est essentiellement le produit de trois éléments :

Algorithmes + Données + Calcul = Intelligence

Cela signifie que les données et les calculs deviendront probablement deux des actifs les plus importants au monde et y accéder sera extrêmement important.

Les modèles d'IA générative sont avides de données. Les données sur lesquelles les modèles d'IA générative les plus importants fonctionnent sont l'ensemble des connaissances humaines, qui est une approximation de la somme de toutes les connaissances humaines.

La cryptographie consiste à donner accès à de nouvelles ressources numériques dans le monde entier et à transformer en actifs des choses qui ne l'étaient pas auparavant grâce à des jetons. Grass fait cela pour les données.

Grass donne aux modèles et applications d'IA un accès à l'ensemble d'Internet en tant qu'ensemble de données en direct, collectées via un réseau de nœuds du monde entier qui contribuent à leur bande passante Internet inutilisée. Ils ont une forte traction initiale avec plus de 2,5 millions d'utilisateurs.[1]

Le marché potentiel à long terme pour Grass est énorme et est relatif à la taille du marché de l'IA et de sa croissance future. Dans le passé, la collecte de jeux de données de cette envergure était réservée aux plus grands géants de la technologie. Grass apporte de nouvelles économies aux données, réduisant les coûts. Cela démocratise l'accès aux données non seulement pour les grandes entreprises élites, mais aussi pour la longue traîne de l'industrie de l'IA.

Le Problème

L'entraînement et l'optimisation des modèles d'IA nécessitent des quantités énormes de données. Historiquement, une grande partie de ces données a été collectée par les créateurs de modèles d'IA en extrayant des données à partir de sites web. Ce processus d'extraction présente plusieurs défis :

  • Le web scraping est coûteux. Seules quelques grandes organisations sont capables de scraper périodiquement l'ensemble du web. Cela exclut les petits développeurs d'IA de l'accès aux données.
  • Blocage IP. Il y a eu un jeu du chat et de la souris entre ces services d'extraction et les créateurs de contenu. Il est assez simple de bloquer une adresse IP pour arrêter l'extraction, ce qui rend difficile la réalisation des objectifs d'extraction et la collecte des données nécessaires à l'entraînement et à l'optimisation de l'IA.
  • Ressources gaspillées. Le scraping web est une tâche qui peut profiter à de nombreux clients. Le matériel, la bande passante et la puissance de calcul nécessaires à cela sont inefficaces s'ils sont effectués par un seul client.
  • Fraîcheur des données. Il est fastidieux et coûteux de scanner l'ensemble d'Internet. Cela le rend impraticable pour la plupart des utilisateurs de le scanner souvent, ce qui rend les données moins fraîches/récentes, impactant la qualité des modèles d'IA.

Solution de Grass

Grass vise à résoudre ces problèmes en créant un réseau fédéré de robots d'exploration Web. Chaque individu participant au réseau Grass contribue à partir de sa bande passante Internet inutilisée pour fournir une petite quantité de données d'exploration à partir de son adresse IP. Grass assemble ensuite les données de chacun de ces nœuds pour former un ensemble de données combinées utiles à l'entraînement et à l'optimisation de l'IA. C'est une utilisation élégante et appropriée des réseaux distribués alimentés par la cryptomonnaie.

Il existe également d'autres cas d'utilisation pour Internet inutilisé, tels que:

  • Collecte de données locales/géographiques, telles que des annonces
  • Effectuer des recherches académiques
  • Vérification des prix locaux

Aujourd'hui, Grass collecte des données à l'aide de matériel existant (ordinateurs portables, ordinateurs de bureau, etc.). À l'avenir, Grass prévoit de proposer un appareil de collecte de données, qui est un dispositif matériel personnalisé dédié exclusivement à la collecte de données, créant des efficacités en raison de l'optimisation de l'appareil pour cette tâche particulière.

Avantages de l'herbe

Il existe plusieurs avantages à utiliser un réseau distribué pour la collecte de données :

  • Accès démocratisé aux données Web qui devient moins cher à grande échelle. Au lieu qu'un seul client collecte des données pour ses propres besoins, Grass collecte des données au nom de nombreux clients. Ces données peuvent être revendues plusieurs fois, créant des économies d'échelle sur les données, réduisant les coûts économiques du scraping et rendant le marché plus efficace. À grande échelle, Grass peut hypothétiquement devenir la solution de collecte de données la plus rentable pour les clients, créant un effet de réseau économique autour de leur protocole. Cela signifie que la collecte de données est désormais disponible pour tous, et pas seulement pour quelques grandes entreprises disposant des ressources nécessaires pour scraper le Web.
  • Le blocage de l'IP devient inapplicable. En distribuant le grattage, il devient beaucoup plus difficile de détecter et d'arrêter le grattage, car chaque nœud ne fait qu'une quantité relativement mineure de capture de données et est difficile à distinguer du trafic Internet typique. Cela se traduit par des ensembles de données plus complets pour l'entraînement.
  • La bande passante Internet est utilisée de manière plus efficace. Étant donné que Grass est essentiellement une plateforme de consommation collaborative de bande passante Internet inutilisée, elle est plus efficace que de fournir de nouvelles bandes passantes uniquement pour le scraping.
  • Les données sont plus précises et récentes. Il est plus rentable de récupérer plus fréquemment que ce qu'un client typique pourrait faire lui-même. Cela se traduit par moins de données obsolètes. Cela est important car les modèles d'IA résultants sont plus à jour.

Le défi : les créateurs de contenu qui monétisent leurs données

L'une des choses délicates à naviguer lors du grattage de données est les créateurs de contenu. Cela inclut des sites tels que le NY Times et Reddit, qui ont commencé à monétiser leurs données en les concédant sous licence à des tiers pour la formation de modèles d'IA. Ils sont naturellement protecteurs des données sur leurs sites, car ces données représentent des sources de revenus très lucratives pour eux. En effet, Reddit a interdit l'utilisation de son API développeur pour l'apprentissage automatique afin de protéger son modèle économique de concession de licence de ses données aux créateurs de modèles d'IA (voir les conditions d'utilisation).ici).

Que réserve l'avenir aux créateurs de contenu? Eh bien, pour le contenu généré par les utilisateurs (UGC), comme Reddit, il y a un argument selon lequel les utilisateurs possèdent leurs propres données (plutôt que la plate-forme), car le contenu a été créé par les utilisateurs et devrait être possédé par ces utilisateurs. Cet argument doit encore être pleinement exploré d'un point de vue juridique. Il sera intéressant de garder un œil sur cette question à l'avenir. Cependant, si les utilisateurs possèdent effectivement leurs données contribuées, alors Grass pourrait représenter un chemin hypothétique pour aider ces utilisateurs à monétiser leurs propres données contribuées. Par exemple, Grass pourrait récompenser les contributeurs Reddit eux-mêmes pour avoir bénévolement contribué leurs données qu'ils ont créées sur Reddit.

Pour les créateurs de contenu payants tels que le NY Times, le contenu est créé par des rédacteurs rémunérés, et en tant que tel, il n'y a pas d'argument en faveur des données appartenant aux utilisateurs. Ainsi, Grass pourrait simplement exclure ces sites de l'analyse. En outre, Grass pourrait atteindre un niveau de développement où il deviendrait possible pour Grass lui-même de devenir client de ces sites et de payer des frais de licence. La façon dont cela pourrait fonctionner hypothétiquement est que les clients de Grass pourraient payer pour les données, puis Grass pourrait partager les revenus avec les créateurs de contenu, permettant ainsi la création de modèles d'IA avec un budget flexible. Autrement dit, Grass pourrait atteindre une telle envergure qu'il pourrait négocier un accord de licence en gros au nom de tous ses clients.

Lancement de Grass

L'herbe a eu un lancement extrêmement impressionnant plus tôt cette année :

  • Grass a eu la plus grande distribution de largages aériens de l'histoire de Solana.[2]
  • Plus de 2 millions de portefeuillesrevendiquél'airdrop, causant le réseau Solana à plier sous la pression.
  • Il y a plus de 2,5 millions d'utilisateurs de Grass dans le monde entier.[3]
  • L'herbe a déjà la capacité et les données pour entraîner le modèle ChatGPT 3.5 d'OpenAI.
  • À titre de démonstration de leur plateforme, Grass a rendu accessible au public un ensemble de données constitué de 600 millions de publications et de commentaires provenant de Reddit à partir de 2024 (voir icipour l'annonce eticipour l'ensemble de données).

Au moment de la rédaction, le token Grass avait action de prix positive post-lancement (+115%), ce qui est inhabituel car la plupart des jetons chutent dans les jours/semaines suivant leur inscription. Il s'agit probablement d'un reflet de leur approche intelligente en matière de distribution de largent airdrop, ainsi que de leur croyance en l'avenir et au potentiel de Grass. Dans l'ensemble, il s'agit d'un excellent départ pour le réseau et nous croyons que cela ouvre la voie à de nombreuses années prospères à venir.

Performance du jeton Grass depuis son lancement le 28 octobre 2024

Source : TradingView.

Commencez à contribuerOptimisez votre bande passante Internet inutilisée en connectant votre portefeuille Solana et gagnez le jeton Grass.

Vous souhaitez utiliser les ensembles de données de Grass pour votre entreprise, vos recherches ou votre projet? Contactez l'équipe de gate.discover@grassfoundation.io.

Notes de bas de page

[1] Source: https://www.getgrass.io/.
[2] Source: https://www.google.com/url?q=https://www.theblock.co/post/323805/grass-becomes-most-distributed-solana-airdrop-as-nearly-1-5-million-addresses-claim-tokens&sa=D&source=docs&ust=1732646335082707&usg=AOvVaw0oVvhJL661rmE1ABmJqOyP.
[3] Source: https://www.getgrass.io/.

Avertissement:

  1. Cet article est repris de[Hack VC], Tous les droits d'auteur appartiennent à l'auteur original [Ed Roman]. S'il y a des objections à cette reproduction, veuillez contacter le Porte Apprendreéquipe, et ils s'en occuperont rapidement.
  2. Clause de non-responsabilité : Les points de vue et opinions exprimés dans cet article sont uniquement ceux de l'auteur et ne constituent aucun conseil en investissement.
  3. Les traductions de l'article dans d'autres langues sont réalisées par l'équipe Learn de Gate. Sauf mention contraire, la copie, la distribution ou le plagiat des articles traduits est interdit.
เริ่มตอนนี้
สมัครและรับรางวัล
$100