Notre thèse Crypto AI (Partie II) : la décentralisation des calculs est KING

Avancé12/18/2024, 1:31:12 AM
Dans la deuxième partie de ma thèse, je me plongerai dans quatre des sous-secteurs les plus prometteurs de Crypto AI : Calcul décentralisé : Entraînement, Inférence & Places de marché GPU, Réseaux de données, AI vérifiable, Agents AI vivant on-chain. Cet article représente le résultat de semaines de recherche approfondie et de conversations avec des fondateurs et des équipes à travers le paysage de la Crypto AI. Il n'est pas conçu pour être une plongée exhaustive dans chaque secteur, c'est un vrai labyrinthe pour un autre jour.

Je n’ai pas secoué cette grande manque.

Cela me hante encore car c’était le pari le plus évident pour quiconque était attentif, pourtant je n’ai pas investi un seul dollar.

Non, ce n’était pas le prochain tueur de Solana ou un memecoin avec un chien portant un drôle de chapeau.

C’était… NVIDIA.

NVDA prix de l’action depuis le début de l’année. Source : Google

En seulement un an, NVDA a triplé, passant d’une capitalisation boursière de 1 billion de dollars à 3 billions de dollars. Il a même surpassé Bitcoin sur la même période.

Bien sûr, une partie de cela relève de la hype de l’IA. Mais une grande partie est ancrée dans la réalité. NVIDIA a annoncé un chiffre d’affaires de 60 milliards de dollars pour l’exercice 2024, soit une augmentation stupéfiante de 126% par rapport à 2023. Cette croissance a été stimulée par les grandes entreprises technologiques qui se sont emparées des GPU dans une course mondiale à l’IA pour l’AGI.

Alors pourquoi ai-je manqué ça?

Pendant deux ans, j’étais entièrement concentré sur la crypto et je ne regardais pas ce qui se passait dans le domaine de l’IA. C’était une grosse erreur et ça me hante encore.

Mais je ne fais pas la même erreur deux fois.

Aujourd’hui, Crypto AI a une étrange ressemblance. Nous sommes au bord d’une explosion de l’innovation. Les parallèles avec la ruée vers l’or en Californie au milieu des années 1800 sont difficiles à ignorer - des industries et des villes ont surgi du jour au lendemain, les infrastructures ont avancé à une vitesse vertigineuse et des fortunes ont été faites par ceux qui ont osé sauter.

Comme NVIDIA à ses débuts, Crypto AI semblera évidente avec du recul.

Dans Partie I de ma thèse, J’ai expliqué pourquoi Crypto AI est l’opportunité la plus excitante d’aujourd’hui pour les investisseurs et les bâtisseurs.

Voici un bref récapitulatif :

  • Beaucoup le considèrent encore comme du «vaporware».
  • L’IA Crypto est à ses débuts, probablement à 1-2 ans de l’apogée de l’engouement.
  • Il y a une opportunité de croissance de plus de 230 milliards de dollars dans cet espace, au minimum.

Au cœur de Crypto AI se trouve l’IA avec une infrastructure crypto superposée. Cela signifie qu’il est plus susceptible de suivre la trajectoire de croissance exponentielle de l’IA que le marché plus large des crypto-monnaies. Donc, pour rester en avance, vous devez vous tenir au courant des dernières recherches en IA sur Arxiv et parler aux fondateurs qui croient qu’ils construisent la prochaine grande chose.

Dans la deuxième partie de ma thèse, je vais plonger dans quatre des sous-secteurs les plus prometteurs de Crypto AI :

  1. Calcul décentralisé : Entraînement, Inférence & Places de marché GPU
  2. Réseaux de données
  3. IA vérifiable
  4. Agents IA vivant sur la chaîne

Ce morceau représente l’aboutissement de semaines de recherches approfondies et de conversations avec des fondateurs et des équipes à travers le paysage de l’IA Crypto. Il n’est pas conçu pour être une plongée profonde exhaustive dans chaque secteur, c’est un terrier de lapin pour un autre jour.

Considérez-le plutôt comme une feuille de route de haut niveau conçue pour susciter la curiosité, affiner votre recherche et guider votre réflexion en matière d’investissement.

Cartographie du paysage

Je visualise la pile d’IA décentralisée comme un écosystème en couches : cela commence par l’informatique décentralisée et les réseaux de données ouverts d’un côté, qui alimentent la formation de modèles d’IA décentralisés.

Chaque inférence est ensuite vérifiée - les entrées et les sorties également - en utilisant une combinaison de cryptographie, d’incitations cryptonomiques et de réseaux d’évaluation. Ces sorties vérifiées alimentent des agents d’IA pouvant fonctionner de manière autonome on-chain, ainsi que des applications d’IA grand public et d’entreprise auxquelles les utilisateurs peuvent réellement faire confiance.

Les réseaux de coordination les relient tous ensemble, permettant une communication et une collaboration transparentes dans tout l’écosystème.

Dans cette vision, toute personne travaillant dans l’IA pourrait exploiter une ou plusieurs couches de cette pile, en fonction de ses besoins spécifiques. Que ce soit en utilisant le calcul décentralisé pour l’entraînement de modèles ou en utilisant des réseaux d’évaluation pour garantir des sorties de haute qualité, la pile offre une gamme d’options.

Grâce à la composition inhérente de la blockchain, je crois que nous évoluons naturellement vers un avenir modulaire. Chaque couche devient hyper-spécialisée, avec des protocoles optimisés pour des fonctions distinctes plutôt que pour une approche intégrée tout-en-un.

Source : topology.vc

Il y a eu une explosion cambrienne de startups se construisant à tous les niveaux de la pile d’IA décentralisée, la plupart étant fondées au cours des 1 à 3 dernières années. Il est clair : nous en sommes encore au début.

La carte la plus complète et la plus à jour du paysage des start-ups Crypto AI que j’ai vue est entretenue par Casey et son équipe chez topology.vc. C’est une ressource inestimable pour toute personne suivant l’espace.

Alors que je plonge dans les sous-secteurs de l’IA Crypto, je me demande constamment : quelle est l’ampleur de l’opportunité ici ? Je ne m’intéresse pas aux petits paris—je recherche des marchés qui peuvent atteindre des centaines de milliards.

1. Taille du marché

Commençons par la taille du marché. Lors de l’évaluation d’un sous-secteur, je me demande : crée-t-il un marché totalement nouveau ou perturbe-t-il un marché existant ?

Prenez par exemple le calcul décentralisé. Il s’agit d’une catégorie perturbatrice dont le potentiel peut être estimé en regardant le marché établi de l’informatique en nuage, d’une valeur d’environ ~$680B aujourd’hui et devrait atteindre 2,5 billions de dollars en 2032.

Les nouveaux marchés sans précédent, comme les agents d’IA, sont plus difficiles à quantifier. Sans données historiques, les évaluer implique un mélange de suppositions éclairées et de vérifications instinctives sur les problèmes qu’ils résolvent. Et le piège est que parfois, ce qui ressemble à un nouveau marché est en réalité simplement une solution à la recherche d’un problème.

2. Timing

Le timing est tout. La technologie a tendance à s’améliorer et à devenir moins chère avec le temps, mais la cadence du progrès varie.

À quel point la technologie dans un sous-secteur donné est-elle mature ? Est-elle prête à être mise à l’échelle ou est-elle encore en phase de recherche, avec des applications pratiques à plusieurs années ? Le moment détermine si un secteur mérite une attention immédiate ou s’il doit être laissé dans la catégorie “attendre et voir”.

Prenons l’homomorphisme entièrement homomorphe (FHE) comme exemple : le potentiel est indéniable, mais aujourd’hui, c’est encore trop lent pour une utilisation généralisée. Il est probable que nous soyons encore plusieurs années avant de le voir atteindre une viabilité grand public. En se concentrant d’abord sur les secteurs plus proches de l’extension, je peux consacrer mon temps et mon énergie là où la dynamique - et l’opportunité - se construisent.

Si je devais cartographier ces catégories sur un graphique de taille par rapport au temps, cela ressemblerait à ceci. Gardez à l’esprit qu’il s’agit plus d’un croquis conceptuel que d’un guide strict. Il y a beaucoup de nuances - par exemple, dans l’inférence vérifiable, différentes approches comme zkML et opML sont à des niveaux de préparation différents pour une utilisation.

Cela dit, je suis convaincu que l’échelle de l’IA sera si massive que même ce qui semble “de niche” aujourd’hui pourrait évoluer vers un marché significatif.

Il est également important de noter que le progrès technologique ne suit pas toujours une ligne droite - il se produit souvent par bonds. Mes points de vue sur le moment et la taille du marché changeront lorsque des percées émergentes se produiront.

Avec ce cadre à l’esprit, décomposons chaque sous-secteur.

Secteur 1: Calcul décentralisé

TL;dr

  • L’informatique décentralisée est l’épine dorsale de l’IA décentralisée.
  • Les marchés des GPU, la formation décentralisée et l’inférence décentralisée sont profondément interconnectés et prospèrent ensemble.
  • Le côté offre provient généralement de petits centres de données de niveau intermédiaire et de GPUs grand public.
  • La demande est faible mais en croissance. Aujourd’hui, elle provient d’utilisateurs sensibles aux prix et insensibles à la latence, ainsi que de petites startups d’IA.
  • Le plus grand défi pour les marchés GPU Web3 aujourd’hui est en fait de les faire fonctionner.
  • Orchestrer des GPU à travers un réseau décentralisé nécessite une ingénierie avancée et une architecture réseau bien conçue et robuste.

1.1. Places de marché GPU / Réseaux de calcul

Plusieurs équipes d’IA Crypto se positionnent pour tirer parti de la pénurie de GPU par rapport à la demande en construisant des réseaux décentralisés qui exploitent la puissance de calcul latente mondiale.

La proposition de valeur fondamentale des places de marché de GPU est triple :

  1. Vous pouvez accéder à des calculs «jusqu’à 90% moins chers» que AWS, ce qui provient (1) de l’élimination des intermédiaires et (2) de l’ouverture de l’offre. Essentiellement, ces places de marché vous permettent d’accéder au coût marginal le plus bas des calculs à l’échelle mondiale.
  2. Une plus grande flexibilité : pas de contrats d’engagement, pas de KYC, pas de temps d’attente.
  3. Résistance à la censure

Pour s’attaquer à l’offre sur le marché, ces places de marché se procurent des calculs à partir de :

  • Les GPU de qualité entreprise (par exemple A100s, H100s) provenant de petits à moyens centres de données peinent à trouver une demande, que ce soit de mineurs de Bitcoin cherchant à diversifier ou de mineurs de Bitcoin cherchant à diversifier. Je sais aussi que des équipes exploitent de grands projets d’infrastructure financés par le gouvernement, où des centres de données ont été construits dans le cadre d’initiatives de croissance technologique. Ces fournisseurs sont souvent incités à maintenir leurs GPU sur le réseau, ce qui les aide à compenser les coûts d’amortissement de leurs GPU.
  • GPU grand public provenant des millions de joueurs et des utilisateurs domestiques qui connectent leurs ordinateurs au réseau en échange d’incitations en jetons

D’un autre côté, la demande de calcul décentralisé aujourd’hui vient de :

  1. Utilisateurs sensibles aux prix et insensibles à la latence. Ce segment privilégie l’abordabilité à la vitesse. Pensez aux chercheurs qui explorent de nouveaux domaines, aux développeurs indépendants d’IA et à d’autres utilisateurs soucieux des coûts qui n’ont pas besoin de traitement en temps réel. En raison de contraintes budgétaires, beaucoup d’entre eux peuvent rencontrer des difficultés avec les hyperscalers traditionnels tels que AWS ou Azure. Étant donné qu’ils sont assez répartis dans la population, le marketing ciblé est essentiel pour attirer ce groupe.
  2. Les plus petites startups d’IA sont confrontées à des défis pour sécuriser des ressources de calcul flexibles et évolutives sans se verrouiller dans des contrats à long terme avec les principaux fournisseurs de cloud. Le développement commercial est vital pour attirer ce segment, car ils recherchent activement des alternatives à l’enfermement chez les hyperscalers.
  3. Les start-ups d’IA Crypto construisant des produits d’IA décentralisés mais sans leur propre offre de calcul devront puiser dans les ressources de l’un de ces réseaux.
  4. Jeux en nuage : Bien qu’elle ne soit pas directement pilotée par l’intelligence artificielle, les jeux en nuage sont une source croissante de demande en ressources GPU.

La chose essentielle à retenir : les développeurs privilégient toujours les coûts et la fiabilité.

Le véritable défi : la demande, pas l’offre

Les startups de cet espace vantent souvent la taille de leurs réseaux d’approvisionnement en GPU comme un signe de succès. Mais c’est trompeur - c’est au mieux une mesure de vanité.

La contrainte réelle n’est pas l’approvisionnement mais la demande. Les principaux indicateurs à suivre ne sont pas le nombre de GPU disponibles, mais plutôt le taux d’utilisation et le nombre de GPU réellement loués.

Les jetons sont excellents pour démarrer le côté offre, en créant les incitations nécessaires pour se développer rapidement. Cependant, ils ne résolvent pas intrinsèquement le problème de la demande. Le véritable test consiste à amener le produit à un état suffisamment bon pour que la demande latente se matérialise.

Haseeb Qureshi (Dragonfly) met le meilleur :

Faire fonctionner réellement les réseaux de calcul

Contrairement à ce que l’on pense communément, le plus grand obstacle pour les places de marché GPU distribuées web3 aujourd’hui est tout simplement de les faire fonctionner correctement.

Ce n’est pas un problème trivial.

Orchestrer des GPU à travers un réseau distribué est complexe, avec des couches de défis - allocation des ressources, mise à l’échelle dynamique de la charge de travail, équilibrage de la charge sur les nœuds et les GPU, gestion de la latence, transfert de données, tolérance aux pannes, et gestion de matériels divers dispersés à travers diverses géographies. Je pourrais continuer indéfiniment.

Parvenir à cela nécessite une ingénierie sérieuse et une architecture réseau robuste et correctement conçue.

Pour mettre les choses en perspective, considérez Kubernetes de Google. Il est largement considéré comme la référence en matière d’orchestration de conteneurs, automatisant des processus tels que l’équilibrage de charge et la mise à l’échelle dans des environnements distribués - des défis très similaires à ceux auxquels sont confrontés les réseaux de GPU distribués. Kubernetes lui-même a été construit sur plus d’une décennie d’expérience de Google, et même alors, il a fallu des années d’itération incessante pour le rendre correct.

Certains des marchés de calcul GPU déjà en activité aujourd’hui peuvent gérer des charges de travail à petite échelle, mais les problèmes commencent à apparaître dès qu’ils essaient de se développer. Je soupçonne que cela est dû au fait qu’ils ont été construits sur des fondations architecturales mal conçues.

Un autre défi/opportunité pour les réseaux de calcul décentralisés est de garantir la fiabilité : vérifier que chaque nœud fournit réellement la puissance de calcul qu’il prétend avoir. Actuellement, cela repose sur la réputation du réseau, et dans certains cas, les fournisseurs de calcul sont classés selon leur score de réputation. La blockchain semble être une solution naturelle pour les systèmes de vérification sans confiance. Des startups comme GensynetSpheronpoussent pour une approche sans confiance pour résoudre ce problème.

Aujourd’hui, de nombreuses équipes web3 naviguent encore à travers ces défis, ce qui signifie que l’opportunité est grande ouverte.

Taille du marché de l’informatique décentralisée

Quelle est la taille du marché des réseaux de calcul décentralisés ?

Aujourd’hui, cela représente probablement seulement une infime partie de l’industrie du cloud computing, qui va de 680 milliards de dollars à 2,5 billions de dollars. Pourtant, malgré les frictions supplémentaires pour les utilisateurs, il y aura toujours une demande tant que les coûts resteront inférieurs à ceux des fournisseurs traditionnels.

Je crois que les coûts resteront plus bas à court et moyen terme en raison d’un mélange de subventions en jetons et du déverrouillage de l’offre provenant d’utilisateurs peu sensibles au prix (par exemple, si je peux louer mon ordinateur portable de jeu pour gagner un peu d’argent supplémentaire, je suis content, que cela soit 20 $ ou 50 $ par mois).

Mais le véritable potentiel de croissance pour les réseaux informatiques décentralisés - et l’expansion réelle de leur TAM - viendra lorsque:

  1. La formation décentralisée des modèles d’IA devient pratique
  2. La demande en matière d’inférence explose et les centres de données existants ne sont pas en mesure de la satisfaire. Cela commence déjà à se mettre en place. Jensen Huang déclare que la demande en matière d’inférence va augmenter “un milliard de fois”.
  3. Des accords de niveau de service (SLA) appropriés deviennent disponibles, abordant une barrière critique à l’adoption par les entreprises. Actuellement, le calcul décentralisé fonctionne sur une base de meilleur effort, laissant les utilisateurs avec des niveaux de qualité de service variables (par exemple, % de disponibilité). Avec des SLA en place, ces réseaux pourraient offrir des métriques de fiabilité et de performance standardisées, rendant le calcul décentralisé une alternative viable aux fournisseurs de services cloud traditionnels.

Calcul décentralisé et sans permission constitue la couche de base, l’infrastructure fondamentale, pour un écosystème d’IA décentralisé.

Malgré l’expansion continue de la chaîne d’approvisionnement en silicium (c’est-à-dire les GPU), je pense que nous ne sommes qu’à l’aube de l’ère de l’intelligence humaine. Il y aura une demande insatiable de calcul.

Surveillez le point d’inflexion qui pourrait déclencher une réévaluation majeure de tous les marchés de GPU en activité. Il arrivera probablement bientôt.

Autres notes:

  • Le marché des GPU pure-play est encombré, avec une concurrence entre les plates-formes décentralisées et également le essor des néoclouds IA web2comme Vast.ai et Lambda.
  • Les petits nœuds (par exemple, 4 x H100) ne sont pas très demandés en raison de leur utilisation limitée, mais bonne chance pour trouver quelqu’un vendant de grands clusters - ils sont toujours très demandés.
  • Est-ce qu’un acteur dominant agrégera l’ensemble de l’offre de calcul pour les protocoles décentralisés, ou restera-t-elle fragmentée entre plusieurs places de marché? Je penche plutôt pour la première option et une distribution de type loi de puissance des résultats, car la consolidation favorise souvent l’efficacité de l’infrastructure. Mais cela prendra du temps pour se mettre en place, et en attendant, la fragmentation et le désordre continuent.
  • Les développeurs veulent se concentrer sur la création d’applications, et non sur le déploiement et la configuration. Les places de marché doivent dissocier ces complexités, rendant l’accès au calcul aussi fluide que possible.

1.2. Formation décentralisée

TL;dr

  • Si les lois d’échelle s’appliquent, former la prochaine génération de modèles d’IA de pointe dans un seul centre de données deviendra un jour impossible, physiquement.
  • L’entraînement des modèles d’IA nécessite beaucoup de transfert de données entre les GPU. La faible vitesse de transfert de données (interconnexion) entre les GPU distribués est souvent le plus grand obstacle.
  • Les chercheurs explorent simultanément plusieurs approches et des percées se produisent (par exemple, Open DiLoCo, DisTrO). Ces avancées s’empileront et se combineront, accélérant ainsi les progrès dans le domaine.
  • L’avenir de la formation décentralisée réside probablement dans des modèles plus petits et spécialisés conçus pour des applications de niche plutôt que dans des modèles frontière axés sur l’IA générale.
  • La demande d’inférence est sur le point d’exploser avec le passage à des modèles comme le o1 d’OpenAI, créant des opportunités pour des réseaux d’inférence décentralisés.

Imaginez ceci : un modèle d’IA massif et révolutionnaire, non développé dans des laboratoires d’élite secrets, mais mis en œuvre par des millions de personnes ordinaires. Des joueurs, dont les GPU génèrent généralement des explosions cinématographiques de Call of Duty, prêtent désormais leur matériel à quelque chose de plus grand - un modèle d’IA open source et collectivement possédé, sans gardiens centraux.

Dans ce futur, les modèles à l’échelle de la fondation ne sont pas seulement l’apanage des meilleurs laboratoires d’IA.

Mais ancrer cette vision dans la réalité d’aujourd’hui. Pour l’instant, la majeure partie de la formation intensive à l’IA reste ancrée dans les centres de données centralisés, et cela devrait probablement être la norme pendant un certain temps.

Des entreprises comme OpenAI mettent à l’échelle leurs énormes clusters. Elon Musk récemment annoncéque xAI est sur le point de terminer la construction d’un centre de données avec l’équivalent de 200 000 GPU H100.

Mais ce n’est pas seulement une question de nombre brut de GPU. L’utilisation des FLOPS du modèle (MFU) - une mesure introduite dansLe document PaLM de Googleen 2022, suit l’efficacité avec laquelle la capacité maximale d’un GPU est utilisée. Étonnamment, MFU tourne souvent autour de 35-40%.

Pourquoi si bas? Bien que les performances des GPU aient explosé au fil des ans, suivant la loi de Moore, les améliorations du réseau, de la mémoire et du stockage ont considérablement tardé, créant des goulots d’étranglement. Par conséquent, les GPU restent souvent inactifs, en attente de données.

La formation en IA reste très centralisée aujourd’hui à cause d’un mot — Efficacité.

La formation de grands modèles dépend de techniques comme :

• Parallélisme des données : division des ensembles de données entre plusieurs GPU pour effectuer des opérations en parallèle, accélérant ainsi le processus d’entraînement.

• Parallélisme du modèle : Distribution de parties du modèle sur les GPU pour contourner les contraintes de mémoire.

Ces méthodes nécessitent des GPU pour échanger constamment des données, ce qui rend la vitesse d’interconnexion - le taux auquel les données sont transférées entre les ordinateurs du réseau - absolument essentielle.

Lorsque la formation de modèles d’IA de pointe peut coûter plus de 1 milliard de dollars, chaque gain d’efficacité compte.

Avec leurs interconnexions à haute vitesse, les centres de données centralisés permettent un transfert rapide des données entre les GPU et permettent de réaliser des économies substantielles de coûts pendant le temps d’entraînement que les configurations décentralisées ne peuvent pas encore égaler…

Surmonter la lenteur de la vitesse d’interconnexion

Si vous parlez avec des personnes travaillant dans le domaine de l’IA, beaucoup vous diront que la formation décentralisée ne fonctionnera tout simplement pas.

Dans les configurations décentralisées, les clusters de GPU ne sont pas physiquement situés au même endroit, ce qui rend le transfert de données entre eux beaucoup plus lent et devient un goulot d’étranglement. La formation nécessite que les GPU se synchronisent et échangent des données à chaque étape. Plus ils sont éloignés, plus la latence est élevée. Une latence plus élevée signifie une vitesse d’entraînement plus lente et des coûts plus élevés.

Ce qui pourrait prendre quelques jours dans un centre de données centralisé pourrait s’étendre à deux semaines avec une approche décentralisée à un coût plus élevé. Ce n’est tout simplement pas viable.

Mais cela est sur le point de changer.

La bonne nouvelle est qu’il y a eu une énorme augmentation de l’intérêt pour la recherche sur la formation distribuée. Les chercheurs explorent simultanément plusieurs approches, comme en témoignent l’effervescence des études et des articles publiés. Ces avancées s’empileront et se multiplieront, accélérant ainsi les progrès dans le domaine.

Il s’agit également de tester en production et de voir jusqu’où nous pouvons repousser les limites.

Certaines techniques de formation décentralisée peuvent déjà gérer des modèles plus petits dans des environnements d’interconnexion lente. Maintenant, la recherche de pointe pousse à étendre ces méthodes à des modèles de plus en plus grands.

  • Par exemple, le Prime Intellect’s ouvrir le document DiCoLodémontre une approche pratique qui implique des « îlots » de GPU effectuant 500 étapes locales avant de se synchroniser, réduisant ainsi les besoins en bande passante jusqu’à 500 fois. Ce qui a commencé comme une recherche de Google DeepMind sur des modèles plus petits a maintenant été mis à l’échelle pour entraîner un modèle de 10 milliards de paramètres en novembre et entièrement open-source aujourd’hui.
  • Nous Rechercheélève la barre avec son cadre DisTrO, qui utilise des optimiseurs pour réduire jusqu’à 10 000 fois les besoins en communication inter-GPU lors de la formation d’un modèle à 1,2 milliard de paramètres, à couper le souffle.
  • Et l’élan continue de croître. En décembre, Nous a annoncé la pré-formation d’un modèle de 15 milliards de paramètres avec une courbe de perte (comment l’erreur du modèle diminue avec le temps) et un taux de convergence (la vitesse à laquelle les performances du modèle se stabilisent) qui correspondent ou dépassent généralement les résultats obtenus avec des configurations d’entraînement centralisées. Oui, mieux que centralisée.
  • La parallélisme SWARM et DTFMHE sont d’autres méthodes pour former des modèles d’IA très grands sur différents types de dispositifs, même si ces dispositifs ont des vitesses et des connexions variables.

Un autre défi consiste à gérer une gamme diversifiée de matériels GPU, y compris des GPU grand public avec une mémoire limitée, qui sont typiques dans les réseaux décentralisés. Des techniques telles que le parallélisme de modèle (division des couches du modèle entre les appareils) peuvent aider à rendre cela réalisable.

L’avenir de la formation décentralisée

Les méthodes d’entraînement décentralisées actuelles sont encore limitées à des tailles de modèle bien inférieures à la frontière (GPT-4 est rapporté à près d’un billion de paramètres, soit 100 fois plus grand que le modèle 10B de Prime Intellect). Pour une véritable mise à l’échelle, nous aurons besoin de percées dans l’architecture du modèle, d’une infrastructure de réseau meilleure et d’une répartition plus intelligente des tâches entre les appareils.

Et nous pouvons rêver grand. Imaginez un monde où la formation décentralisée agrège plus de puissance de calcul GPU que même les plus grands centres de données centralisés pourraient jamais rassembler.

Pluralis Recherche(une équipe pointue en formation décentralisée, à surveiller de près) affirme que ce n’est pas seulement possible, c’est inévitable. Les centres de données centralisés sont limités par des contraintes physiques comme l’espace et le disponibilité de puissance, tandis que les réseaux décentralisés peuvent puiser dans un pool de ressources mondiales pratiquement illimité.

Même Jensen Huang de NVIDIA a reconnu queformation décentralisée asynchronepourrait débloquer le véritable potentiel de la mise à l’échelle de l’IA. Les réseaux d’entraînement distribués sont également plus tolérants aux pannes.

Ainsi, dans un futur potentiel, les modèles d’IA les plus puissants du monde seront formés de manière décentralisée.

C’est une perspective excitante, mais je ne suis pas encore entièrement convaincu. Nous avons besoin de preuves plus solides que la formation décentralisée des plus grands modèles est techniquement et économiquement viable.

Voici où je vois une promesse immense : le point fort de la formation décentralisée pourrait se situer dans des modèles plus petits, spécialisés et open source conçus pour des cas d’utilisation ciblés, plutôt que de rivaliser avec les modèles de pointe ultra-grands pilotés par l’AGI. Certaines architectures, en particulier les modèles non-transformateurs, prouvent déjà être un choix naturel pour les configurations décentralisées.

Et il y a une autre pièce à ce puzzle: les jetons. Une fois que la formation décentralisée devient faisable à grande échelle, les jetons pourraient jouer un rôle pivot dans l’incitation et la récompense des contributeurs, amorçant efficacement ces réseaux.

La route vers cette vision est longue, mais les progrès sont très encourageants. Les avancées dans la formation décentralisée bénéficieront à tous, même aux grandes entreprises technologiques et aux laboratoires de recherche en IA de premier plan, car l’échelle des modèles futurs dépassera la capacité d’un seul centre de données.

L’avenir est distribué. Et lorsque une technologie détient un tel potentiel large, l’histoire montre qu’elle s’améliore toujours plus rapidement que quiconque ne s’y attend.

1.3. Inférence décentralisée

En ce moment, la majorité de la puissance de calcul en IA est dirigée vers la formation de modèles massifs. Les meilleurs laboratoires d’IA sont engagés dans une course aux armements pour développer les meilleurs modèles fondamentaux et finalement atteindre l’AGI.

Mais voici mon point de vue : cette intense focalisation sur le calcul pour l’entraînement se déplacera vers l’inférence dans les années à venir. Alors que l’IA est de plus en plus intégrée dans les applications que nous utilisons quotidiennement - de la santé au divertissement - les ressources de calcul nécessaires pour soutenir l’inférence seront stupéfiantes.

Et ce n’est pas seulement de la spéculation. La mise à l’échelle du calcul du temps d’inférence est le dernier mot à la mode en IA. OpenAI a récemment publié une version d’aperçu/miniature de son dernier modèle, o1 (nom de code : Strawberry), et le grand changement ? Il prend le temps de réfléchir en se demandant d’abord quelles sont les étapes à suivre pour répondre à la question, puis passe en revue chacune de ces étapes.

Ce modèle est conçu pour des tâches plus complexes et lourdes de planification, comme résoudre des mots croiséset s’attaque à des problèmes qui nécessitent une réflexion plus poussée. Vous remarquerez qu’il est plus lent, prend plus de temps pour générer des réponses, mais les résultats sont beaucoup plus réfléchis et nuancés. Il est également beaucoup plus coûteux à exécuter (25 fois le coût de GPT-4)

Le changement de focus est clair : le prochain saut de performance en IA ne viendra pas seulement de l’entraînement de modèles plus importants, mais aussi de l’augmentation de l’utilisation de calcul lors de l’inférence.

Si vous voulez en savoir plus, plusieurs recherchesdocumentsdémontrer:

  • L’échelle d’inférence informatique par échantillonnage répété conduit à de grandes améliorations dans diverses tâches.
  • Il existe également une loi d’échelle exponentielle pour l’inférence.

Une fois que les modèles puissants sont formés, leurs tâches d’inférence, où les modèles font des choses, peuvent être déchargées vers des réseaux de calcul décentralisés. Cela a tellement de sens car :

  • L’inférence nécessite beaucoup moins de ressources que l’entraînement. Une fois entraînés, les modèles peuvent être compressés et optimisés à l’aide de techniques telles que la quantification, l’élagage ou la distillation. Ils peuvent même être divisés avec un parallélisme de tenseur ou de pipeline pour s’exécuter sur des appareils grand public. Vous n’avez pas besoin d’une carte graphique haut de gamme pour alimenter l’inférence.
  • Cela se produit déjà.Exo Labsa trouvé comment exécuter un modèle Llama3 à 450 milliards de paramètres sur du matériel grand public comme les MacBooks et les Mac Minis. La distribution des inférences sur de nombreux appareils peut gérer efficacement et de manière rentable même des charges de travail à grande échelle.
  • Une meilleure expérience utilisateur. L’exécution des calculs plus près de l’utilisateur réduit la latence, ce qui est essentiel pour des applications en temps réel telles que les jeux, la réalité augmentée ou les voitures autonomes. Chaque milliseconde compte.

Pensez à l’inférence décentralisée comme un CDN (réseau de diffusion de contenu) pour l’IA : au lieu de livrer rapidement des sites web en se connectant à des serveurs proches, l’inférence décentralisée exploite la puissance de calcul locale pour fournir des réponses en IA en un temps record. En adoptant l’inférence décentralisée, les applications d’IA deviennent plus efficaces, réactives et fiables.

La tendance est claire. La nouvelle puce M4 Pro d’Applerivaux de NVIDIARTX 3070 Ti - un GPU qui, jusqu’à récemment, était le domaine des joueurs hardcore. Le matériel que nous avons déjà est de plus en plus capable de gérer des charges de travail AI avancées.

La valeur ajoutée de Crypto

Pour que les réseaux d’inférence décentralisés réussissent, il doit y avoir des incitations économiques convaincantes pour la participation. Les nœuds du réseau doivent être rémunérés pour leurs contributions de calcul. Le système doit garantir une distribution équitable et efficace des récompenses. La diversité géographique est essentielle, réduisant la latence des tâches d’inférence et améliorant la tolérance aux pannes.

Et la meilleure façon de construire des réseaux décentralisés? Crypto.

Les jetons fournissent un mécanisme puissant pour aligner les intérêts des participants, en s’assurant que tout le monde travaille vers le même objectif : mettre à l’échelle le réseau et augmenter la valeur du jeton.

Les jetons stimulent également la croissance du réseau. Ils aident à résoudre le problème classique de l’œuf et de la poule qui freine la plupart des réseaux en récompensant les premiers adoptants et en favorisant la participation dès le premier jour.

Le succès de Bitcoin et d’Ethereum prouve ce point - ils ont déjà agrégé les plus grands pools de puissance de calcul sur la planète.

Les réseaux d’inférence décentralisés sont les prochains sur la liste. Avec une diversité géographique, ils réduisent la latence, améliorent la tolérance aux pannes et rapprochent l’IA de l’utilisateur. Et avec des incitations alimentées par la cryptographie, ils se développeront plus rapidement et mieux que les réseaux traditionnels ne pourraient jamais le faire.

Clause de non-responsabilité :

  1. Cet article est repris à partir de[[](https://www.chainofthought.xyz/p/our-crypto-ai-thesis-part-ii-decentralised-compute)[Chaîne de pensée](https://www.chainofthought.xyz/)\]. Tous les droits d’auteur appartiennent à l’auteur original [Teng Yan]. S’il y a des objections à cette reproduction, veuillez contacter le Porte Apprendreéquipe, et ils s’en occuperont rapidement.
  2. Clause de non-responsabilité : Les points de vue et opinions exprimés dans cet article sont uniquement ceux de l’auteur et ne constituent aucun conseil en investissement.
  3. Les traductions de l’article dans d’autres langues sont effectuées par l’équipe Gate Learn. Sauf mention contraire, la copie, la distribution ou le plagiat des articles traduits est interdit.

Notre thèse Crypto AI (Partie II) : la décentralisation des calculs est KING

Avancé12/18/2024, 1:31:12 AM
Dans la deuxième partie de ma thèse, je me plongerai dans quatre des sous-secteurs les plus prometteurs de Crypto AI : Calcul décentralisé : Entraînement, Inférence & Places de marché GPU, Réseaux de données, AI vérifiable, Agents AI vivant on-chain. Cet article représente le résultat de semaines de recherche approfondie et de conversations avec des fondateurs et des équipes à travers le paysage de la Crypto AI. Il n'est pas conçu pour être une plongée exhaustive dans chaque secteur, c'est un vrai labyrinthe pour un autre jour.

Je n’ai pas secoué cette grande manque.

Cela me hante encore car c’était le pari le plus évident pour quiconque était attentif, pourtant je n’ai pas investi un seul dollar.

Non, ce n’était pas le prochain tueur de Solana ou un memecoin avec un chien portant un drôle de chapeau.

C’était… NVIDIA.

NVDA prix de l’action depuis le début de l’année. Source : Google

En seulement un an, NVDA a triplé, passant d’une capitalisation boursière de 1 billion de dollars à 3 billions de dollars. Il a même surpassé Bitcoin sur la même période.

Bien sûr, une partie de cela relève de la hype de l’IA. Mais une grande partie est ancrée dans la réalité. NVIDIA a annoncé un chiffre d’affaires de 60 milliards de dollars pour l’exercice 2024, soit une augmentation stupéfiante de 126% par rapport à 2023. Cette croissance a été stimulée par les grandes entreprises technologiques qui se sont emparées des GPU dans une course mondiale à l’IA pour l’AGI.

Alors pourquoi ai-je manqué ça?

Pendant deux ans, j’étais entièrement concentré sur la crypto et je ne regardais pas ce qui se passait dans le domaine de l’IA. C’était une grosse erreur et ça me hante encore.

Mais je ne fais pas la même erreur deux fois.

Aujourd’hui, Crypto AI a une étrange ressemblance. Nous sommes au bord d’une explosion de l’innovation. Les parallèles avec la ruée vers l’or en Californie au milieu des années 1800 sont difficiles à ignorer - des industries et des villes ont surgi du jour au lendemain, les infrastructures ont avancé à une vitesse vertigineuse et des fortunes ont été faites par ceux qui ont osé sauter.

Comme NVIDIA à ses débuts, Crypto AI semblera évidente avec du recul.

Dans Partie I de ma thèse, J’ai expliqué pourquoi Crypto AI est l’opportunité la plus excitante d’aujourd’hui pour les investisseurs et les bâtisseurs.

Voici un bref récapitulatif :

  • Beaucoup le considèrent encore comme du «vaporware».
  • L’IA Crypto est à ses débuts, probablement à 1-2 ans de l’apogée de l’engouement.
  • Il y a une opportunité de croissance de plus de 230 milliards de dollars dans cet espace, au minimum.

Au cœur de Crypto AI se trouve l’IA avec une infrastructure crypto superposée. Cela signifie qu’il est plus susceptible de suivre la trajectoire de croissance exponentielle de l’IA que le marché plus large des crypto-monnaies. Donc, pour rester en avance, vous devez vous tenir au courant des dernières recherches en IA sur Arxiv et parler aux fondateurs qui croient qu’ils construisent la prochaine grande chose.

Dans la deuxième partie de ma thèse, je vais plonger dans quatre des sous-secteurs les plus prometteurs de Crypto AI :

  1. Calcul décentralisé : Entraînement, Inférence & Places de marché GPU
  2. Réseaux de données
  3. IA vérifiable
  4. Agents IA vivant sur la chaîne

Ce morceau représente l’aboutissement de semaines de recherches approfondies et de conversations avec des fondateurs et des équipes à travers le paysage de l’IA Crypto. Il n’est pas conçu pour être une plongée profonde exhaustive dans chaque secteur, c’est un terrier de lapin pour un autre jour.

Considérez-le plutôt comme une feuille de route de haut niveau conçue pour susciter la curiosité, affiner votre recherche et guider votre réflexion en matière d’investissement.

Cartographie du paysage

Je visualise la pile d’IA décentralisée comme un écosystème en couches : cela commence par l’informatique décentralisée et les réseaux de données ouverts d’un côté, qui alimentent la formation de modèles d’IA décentralisés.

Chaque inférence est ensuite vérifiée - les entrées et les sorties également - en utilisant une combinaison de cryptographie, d’incitations cryptonomiques et de réseaux d’évaluation. Ces sorties vérifiées alimentent des agents d’IA pouvant fonctionner de manière autonome on-chain, ainsi que des applications d’IA grand public et d’entreprise auxquelles les utilisateurs peuvent réellement faire confiance.

Les réseaux de coordination les relient tous ensemble, permettant une communication et une collaboration transparentes dans tout l’écosystème.

Dans cette vision, toute personne travaillant dans l’IA pourrait exploiter une ou plusieurs couches de cette pile, en fonction de ses besoins spécifiques. Que ce soit en utilisant le calcul décentralisé pour l’entraînement de modèles ou en utilisant des réseaux d’évaluation pour garantir des sorties de haute qualité, la pile offre une gamme d’options.

Grâce à la composition inhérente de la blockchain, je crois que nous évoluons naturellement vers un avenir modulaire. Chaque couche devient hyper-spécialisée, avec des protocoles optimisés pour des fonctions distinctes plutôt que pour une approche intégrée tout-en-un.

Source : topology.vc

Il y a eu une explosion cambrienne de startups se construisant à tous les niveaux de la pile d’IA décentralisée, la plupart étant fondées au cours des 1 à 3 dernières années. Il est clair : nous en sommes encore au début.

La carte la plus complète et la plus à jour du paysage des start-ups Crypto AI que j’ai vue est entretenue par Casey et son équipe chez topology.vc. C’est une ressource inestimable pour toute personne suivant l’espace.

Alors que je plonge dans les sous-secteurs de l’IA Crypto, je me demande constamment : quelle est l’ampleur de l’opportunité ici ? Je ne m’intéresse pas aux petits paris—je recherche des marchés qui peuvent atteindre des centaines de milliards.

1. Taille du marché

Commençons par la taille du marché. Lors de l’évaluation d’un sous-secteur, je me demande : crée-t-il un marché totalement nouveau ou perturbe-t-il un marché existant ?

Prenez par exemple le calcul décentralisé. Il s’agit d’une catégorie perturbatrice dont le potentiel peut être estimé en regardant le marché établi de l’informatique en nuage, d’une valeur d’environ ~$680B aujourd’hui et devrait atteindre 2,5 billions de dollars en 2032.

Les nouveaux marchés sans précédent, comme les agents d’IA, sont plus difficiles à quantifier. Sans données historiques, les évaluer implique un mélange de suppositions éclairées et de vérifications instinctives sur les problèmes qu’ils résolvent. Et le piège est que parfois, ce qui ressemble à un nouveau marché est en réalité simplement une solution à la recherche d’un problème.

2. Timing

Le timing est tout. La technologie a tendance à s’améliorer et à devenir moins chère avec le temps, mais la cadence du progrès varie.

À quel point la technologie dans un sous-secteur donné est-elle mature ? Est-elle prête à être mise à l’échelle ou est-elle encore en phase de recherche, avec des applications pratiques à plusieurs années ? Le moment détermine si un secteur mérite une attention immédiate ou s’il doit être laissé dans la catégorie “attendre et voir”.

Prenons l’homomorphisme entièrement homomorphe (FHE) comme exemple : le potentiel est indéniable, mais aujourd’hui, c’est encore trop lent pour une utilisation généralisée. Il est probable que nous soyons encore plusieurs années avant de le voir atteindre une viabilité grand public. En se concentrant d’abord sur les secteurs plus proches de l’extension, je peux consacrer mon temps et mon énergie là où la dynamique - et l’opportunité - se construisent.

Si je devais cartographier ces catégories sur un graphique de taille par rapport au temps, cela ressemblerait à ceci. Gardez à l’esprit qu’il s’agit plus d’un croquis conceptuel que d’un guide strict. Il y a beaucoup de nuances - par exemple, dans l’inférence vérifiable, différentes approches comme zkML et opML sont à des niveaux de préparation différents pour une utilisation.

Cela dit, je suis convaincu que l’échelle de l’IA sera si massive que même ce qui semble “de niche” aujourd’hui pourrait évoluer vers un marché significatif.

Il est également important de noter que le progrès technologique ne suit pas toujours une ligne droite - il se produit souvent par bonds. Mes points de vue sur le moment et la taille du marché changeront lorsque des percées émergentes se produiront.

Avec ce cadre à l’esprit, décomposons chaque sous-secteur.

Secteur 1: Calcul décentralisé

TL;dr

  • L’informatique décentralisée est l’épine dorsale de l’IA décentralisée.
  • Les marchés des GPU, la formation décentralisée et l’inférence décentralisée sont profondément interconnectés et prospèrent ensemble.
  • Le côté offre provient généralement de petits centres de données de niveau intermédiaire et de GPUs grand public.
  • La demande est faible mais en croissance. Aujourd’hui, elle provient d’utilisateurs sensibles aux prix et insensibles à la latence, ainsi que de petites startups d’IA.
  • Le plus grand défi pour les marchés GPU Web3 aujourd’hui est en fait de les faire fonctionner.
  • Orchestrer des GPU à travers un réseau décentralisé nécessite une ingénierie avancée et une architecture réseau bien conçue et robuste.

1.1. Places de marché GPU / Réseaux de calcul

Plusieurs équipes d’IA Crypto se positionnent pour tirer parti de la pénurie de GPU par rapport à la demande en construisant des réseaux décentralisés qui exploitent la puissance de calcul latente mondiale.

La proposition de valeur fondamentale des places de marché de GPU est triple :

  1. Vous pouvez accéder à des calculs «jusqu’à 90% moins chers» que AWS, ce qui provient (1) de l’élimination des intermédiaires et (2) de l’ouverture de l’offre. Essentiellement, ces places de marché vous permettent d’accéder au coût marginal le plus bas des calculs à l’échelle mondiale.
  2. Une plus grande flexibilité : pas de contrats d’engagement, pas de KYC, pas de temps d’attente.
  3. Résistance à la censure

Pour s’attaquer à l’offre sur le marché, ces places de marché se procurent des calculs à partir de :

  • Les GPU de qualité entreprise (par exemple A100s, H100s) provenant de petits à moyens centres de données peinent à trouver une demande, que ce soit de mineurs de Bitcoin cherchant à diversifier ou de mineurs de Bitcoin cherchant à diversifier. Je sais aussi que des équipes exploitent de grands projets d’infrastructure financés par le gouvernement, où des centres de données ont été construits dans le cadre d’initiatives de croissance technologique. Ces fournisseurs sont souvent incités à maintenir leurs GPU sur le réseau, ce qui les aide à compenser les coûts d’amortissement de leurs GPU.
  • GPU grand public provenant des millions de joueurs et des utilisateurs domestiques qui connectent leurs ordinateurs au réseau en échange d’incitations en jetons

D’un autre côté, la demande de calcul décentralisé aujourd’hui vient de :

  1. Utilisateurs sensibles aux prix et insensibles à la latence. Ce segment privilégie l’abordabilité à la vitesse. Pensez aux chercheurs qui explorent de nouveaux domaines, aux développeurs indépendants d’IA et à d’autres utilisateurs soucieux des coûts qui n’ont pas besoin de traitement en temps réel. En raison de contraintes budgétaires, beaucoup d’entre eux peuvent rencontrer des difficultés avec les hyperscalers traditionnels tels que AWS ou Azure. Étant donné qu’ils sont assez répartis dans la population, le marketing ciblé est essentiel pour attirer ce groupe.
  2. Les plus petites startups d’IA sont confrontées à des défis pour sécuriser des ressources de calcul flexibles et évolutives sans se verrouiller dans des contrats à long terme avec les principaux fournisseurs de cloud. Le développement commercial est vital pour attirer ce segment, car ils recherchent activement des alternatives à l’enfermement chez les hyperscalers.
  3. Les start-ups d’IA Crypto construisant des produits d’IA décentralisés mais sans leur propre offre de calcul devront puiser dans les ressources de l’un de ces réseaux.
  4. Jeux en nuage : Bien qu’elle ne soit pas directement pilotée par l’intelligence artificielle, les jeux en nuage sont une source croissante de demande en ressources GPU.

La chose essentielle à retenir : les développeurs privilégient toujours les coûts et la fiabilité.

Le véritable défi : la demande, pas l’offre

Les startups de cet espace vantent souvent la taille de leurs réseaux d’approvisionnement en GPU comme un signe de succès. Mais c’est trompeur - c’est au mieux une mesure de vanité.

La contrainte réelle n’est pas l’approvisionnement mais la demande. Les principaux indicateurs à suivre ne sont pas le nombre de GPU disponibles, mais plutôt le taux d’utilisation et le nombre de GPU réellement loués.

Les jetons sont excellents pour démarrer le côté offre, en créant les incitations nécessaires pour se développer rapidement. Cependant, ils ne résolvent pas intrinsèquement le problème de la demande. Le véritable test consiste à amener le produit à un état suffisamment bon pour que la demande latente se matérialise.

Haseeb Qureshi (Dragonfly) met le meilleur :

Faire fonctionner réellement les réseaux de calcul

Contrairement à ce que l’on pense communément, le plus grand obstacle pour les places de marché GPU distribuées web3 aujourd’hui est tout simplement de les faire fonctionner correctement.

Ce n’est pas un problème trivial.

Orchestrer des GPU à travers un réseau distribué est complexe, avec des couches de défis - allocation des ressources, mise à l’échelle dynamique de la charge de travail, équilibrage de la charge sur les nœuds et les GPU, gestion de la latence, transfert de données, tolérance aux pannes, et gestion de matériels divers dispersés à travers diverses géographies. Je pourrais continuer indéfiniment.

Parvenir à cela nécessite une ingénierie sérieuse et une architecture réseau robuste et correctement conçue.

Pour mettre les choses en perspective, considérez Kubernetes de Google. Il est largement considéré comme la référence en matière d’orchestration de conteneurs, automatisant des processus tels que l’équilibrage de charge et la mise à l’échelle dans des environnements distribués - des défis très similaires à ceux auxquels sont confrontés les réseaux de GPU distribués. Kubernetes lui-même a été construit sur plus d’une décennie d’expérience de Google, et même alors, il a fallu des années d’itération incessante pour le rendre correct.

Certains des marchés de calcul GPU déjà en activité aujourd’hui peuvent gérer des charges de travail à petite échelle, mais les problèmes commencent à apparaître dès qu’ils essaient de se développer. Je soupçonne que cela est dû au fait qu’ils ont été construits sur des fondations architecturales mal conçues.

Un autre défi/opportunité pour les réseaux de calcul décentralisés est de garantir la fiabilité : vérifier que chaque nœud fournit réellement la puissance de calcul qu’il prétend avoir. Actuellement, cela repose sur la réputation du réseau, et dans certains cas, les fournisseurs de calcul sont classés selon leur score de réputation. La blockchain semble être une solution naturelle pour les systèmes de vérification sans confiance. Des startups comme GensynetSpheronpoussent pour une approche sans confiance pour résoudre ce problème.

Aujourd’hui, de nombreuses équipes web3 naviguent encore à travers ces défis, ce qui signifie que l’opportunité est grande ouverte.

Taille du marché de l’informatique décentralisée

Quelle est la taille du marché des réseaux de calcul décentralisés ?

Aujourd’hui, cela représente probablement seulement une infime partie de l’industrie du cloud computing, qui va de 680 milliards de dollars à 2,5 billions de dollars. Pourtant, malgré les frictions supplémentaires pour les utilisateurs, il y aura toujours une demande tant que les coûts resteront inférieurs à ceux des fournisseurs traditionnels.

Je crois que les coûts resteront plus bas à court et moyen terme en raison d’un mélange de subventions en jetons et du déverrouillage de l’offre provenant d’utilisateurs peu sensibles au prix (par exemple, si je peux louer mon ordinateur portable de jeu pour gagner un peu d’argent supplémentaire, je suis content, que cela soit 20 $ ou 50 $ par mois).

Mais le véritable potentiel de croissance pour les réseaux informatiques décentralisés - et l’expansion réelle de leur TAM - viendra lorsque:

  1. La formation décentralisée des modèles d’IA devient pratique
  2. La demande en matière d’inférence explose et les centres de données existants ne sont pas en mesure de la satisfaire. Cela commence déjà à se mettre en place. Jensen Huang déclare que la demande en matière d’inférence va augmenter “un milliard de fois”.
  3. Des accords de niveau de service (SLA) appropriés deviennent disponibles, abordant une barrière critique à l’adoption par les entreprises. Actuellement, le calcul décentralisé fonctionne sur une base de meilleur effort, laissant les utilisateurs avec des niveaux de qualité de service variables (par exemple, % de disponibilité). Avec des SLA en place, ces réseaux pourraient offrir des métriques de fiabilité et de performance standardisées, rendant le calcul décentralisé une alternative viable aux fournisseurs de services cloud traditionnels.

Calcul décentralisé et sans permission constitue la couche de base, l’infrastructure fondamentale, pour un écosystème d’IA décentralisé.

Malgré l’expansion continue de la chaîne d’approvisionnement en silicium (c’est-à-dire les GPU), je pense que nous ne sommes qu’à l’aube de l’ère de l’intelligence humaine. Il y aura une demande insatiable de calcul.

Surveillez le point d’inflexion qui pourrait déclencher une réévaluation majeure de tous les marchés de GPU en activité. Il arrivera probablement bientôt.

Autres notes:

  • Le marché des GPU pure-play est encombré, avec une concurrence entre les plates-formes décentralisées et également le essor des néoclouds IA web2comme Vast.ai et Lambda.
  • Les petits nœuds (par exemple, 4 x H100) ne sont pas très demandés en raison de leur utilisation limitée, mais bonne chance pour trouver quelqu’un vendant de grands clusters - ils sont toujours très demandés.
  • Est-ce qu’un acteur dominant agrégera l’ensemble de l’offre de calcul pour les protocoles décentralisés, ou restera-t-elle fragmentée entre plusieurs places de marché? Je penche plutôt pour la première option et une distribution de type loi de puissance des résultats, car la consolidation favorise souvent l’efficacité de l’infrastructure. Mais cela prendra du temps pour se mettre en place, et en attendant, la fragmentation et le désordre continuent.
  • Les développeurs veulent se concentrer sur la création d’applications, et non sur le déploiement et la configuration. Les places de marché doivent dissocier ces complexités, rendant l’accès au calcul aussi fluide que possible.

1.2. Formation décentralisée

TL;dr

  • Si les lois d’échelle s’appliquent, former la prochaine génération de modèles d’IA de pointe dans un seul centre de données deviendra un jour impossible, physiquement.
  • L’entraînement des modèles d’IA nécessite beaucoup de transfert de données entre les GPU. La faible vitesse de transfert de données (interconnexion) entre les GPU distribués est souvent le plus grand obstacle.
  • Les chercheurs explorent simultanément plusieurs approches et des percées se produisent (par exemple, Open DiLoCo, DisTrO). Ces avancées s’empileront et se combineront, accélérant ainsi les progrès dans le domaine.
  • L’avenir de la formation décentralisée réside probablement dans des modèles plus petits et spécialisés conçus pour des applications de niche plutôt que dans des modèles frontière axés sur l’IA générale.
  • La demande d’inférence est sur le point d’exploser avec le passage à des modèles comme le o1 d’OpenAI, créant des opportunités pour des réseaux d’inférence décentralisés.

Imaginez ceci : un modèle d’IA massif et révolutionnaire, non développé dans des laboratoires d’élite secrets, mais mis en œuvre par des millions de personnes ordinaires. Des joueurs, dont les GPU génèrent généralement des explosions cinématographiques de Call of Duty, prêtent désormais leur matériel à quelque chose de plus grand - un modèle d’IA open source et collectivement possédé, sans gardiens centraux.

Dans ce futur, les modèles à l’échelle de la fondation ne sont pas seulement l’apanage des meilleurs laboratoires d’IA.

Mais ancrer cette vision dans la réalité d’aujourd’hui. Pour l’instant, la majeure partie de la formation intensive à l’IA reste ancrée dans les centres de données centralisés, et cela devrait probablement être la norme pendant un certain temps.

Des entreprises comme OpenAI mettent à l’échelle leurs énormes clusters. Elon Musk récemment annoncéque xAI est sur le point de terminer la construction d’un centre de données avec l’équivalent de 200 000 GPU H100.

Mais ce n’est pas seulement une question de nombre brut de GPU. L’utilisation des FLOPS du modèle (MFU) - une mesure introduite dansLe document PaLM de Googleen 2022, suit l’efficacité avec laquelle la capacité maximale d’un GPU est utilisée. Étonnamment, MFU tourne souvent autour de 35-40%.

Pourquoi si bas? Bien que les performances des GPU aient explosé au fil des ans, suivant la loi de Moore, les améliorations du réseau, de la mémoire et du stockage ont considérablement tardé, créant des goulots d’étranglement. Par conséquent, les GPU restent souvent inactifs, en attente de données.

La formation en IA reste très centralisée aujourd’hui à cause d’un mot — Efficacité.

La formation de grands modèles dépend de techniques comme :

• Parallélisme des données : division des ensembles de données entre plusieurs GPU pour effectuer des opérations en parallèle, accélérant ainsi le processus d’entraînement.

• Parallélisme du modèle : Distribution de parties du modèle sur les GPU pour contourner les contraintes de mémoire.

Ces méthodes nécessitent des GPU pour échanger constamment des données, ce qui rend la vitesse d’interconnexion - le taux auquel les données sont transférées entre les ordinateurs du réseau - absolument essentielle.

Lorsque la formation de modèles d’IA de pointe peut coûter plus de 1 milliard de dollars, chaque gain d’efficacité compte.

Avec leurs interconnexions à haute vitesse, les centres de données centralisés permettent un transfert rapide des données entre les GPU et permettent de réaliser des économies substantielles de coûts pendant le temps d’entraînement que les configurations décentralisées ne peuvent pas encore égaler…

Surmonter la lenteur de la vitesse d’interconnexion

Si vous parlez avec des personnes travaillant dans le domaine de l’IA, beaucoup vous diront que la formation décentralisée ne fonctionnera tout simplement pas.

Dans les configurations décentralisées, les clusters de GPU ne sont pas physiquement situés au même endroit, ce qui rend le transfert de données entre eux beaucoup plus lent et devient un goulot d’étranglement. La formation nécessite que les GPU se synchronisent et échangent des données à chaque étape. Plus ils sont éloignés, plus la latence est élevée. Une latence plus élevée signifie une vitesse d’entraînement plus lente et des coûts plus élevés.

Ce qui pourrait prendre quelques jours dans un centre de données centralisé pourrait s’étendre à deux semaines avec une approche décentralisée à un coût plus élevé. Ce n’est tout simplement pas viable.

Mais cela est sur le point de changer.

La bonne nouvelle est qu’il y a eu une énorme augmentation de l’intérêt pour la recherche sur la formation distribuée. Les chercheurs explorent simultanément plusieurs approches, comme en témoignent l’effervescence des études et des articles publiés. Ces avancées s’empileront et se multiplieront, accélérant ainsi les progrès dans le domaine.

Il s’agit également de tester en production et de voir jusqu’où nous pouvons repousser les limites.

Certaines techniques de formation décentralisée peuvent déjà gérer des modèles plus petits dans des environnements d’interconnexion lente. Maintenant, la recherche de pointe pousse à étendre ces méthodes à des modèles de plus en plus grands.

  • Par exemple, le Prime Intellect’s ouvrir le document DiCoLodémontre une approche pratique qui implique des « îlots » de GPU effectuant 500 étapes locales avant de se synchroniser, réduisant ainsi les besoins en bande passante jusqu’à 500 fois. Ce qui a commencé comme une recherche de Google DeepMind sur des modèles plus petits a maintenant été mis à l’échelle pour entraîner un modèle de 10 milliards de paramètres en novembre et entièrement open-source aujourd’hui.
  • Nous Rechercheélève la barre avec son cadre DisTrO, qui utilise des optimiseurs pour réduire jusqu’à 10 000 fois les besoins en communication inter-GPU lors de la formation d’un modèle à 1,2 milliard de paramètres, à couper le souffle.
  • Et l’élan continue de croître. En décembre, Nous a annoncé la pré-formation d’un modèle de 15 milliards de paramètres avec une courbe de perte (comment l’erreur du modèle diminue avec le temps) et un taux de convergence (la vitesse à laquelle les performances du modèle se stabilisent) qui correspondent ou dépassent généralement les résultats obtenus avec des configurations d’entraînement centralisées. Oui, mieux que centralisée.
  • La parallélisme SWARM et DTFMHE sont d’autres méthodes pour former des modèles d’IA très grands sur différents types de dispositifs, même si ces dispositifs ont des vitesses et des connexions variables.

Un autre défi consiste à gérer une gamme diversifiée de matériels GPU, y compris des GPU grand public avec une mémoire limitée, qui sont typiques dans les réseaux décentralisés. Des techniques telles que le parallélisme de modèle (division des couches du modèle entre les appareils) peuvent aider à rendre cela réalisable.

L’avenir de la formation décentralisée

Les méthodes d’entraînement décentralisées actuelles sont encore limitées à des tailles de modèle bien inférieures à la frontière (GPT-4 est rapporté à près d’un billion de paramètres, soit 100 fois plus grand que le modèle 10B de Prime Intellect). Pour une véritable mise à l’échelle, nous aurons besoin de percées dans l’architecture du modèle, d’une infrastructure de réseau meilleure et d’une répartition plus intelligente des tâches entre les appareils.

Et nous pouvons rêver grand. Imaginez un monde où la formation décentralisée agrège plus de puissance de calcul GPU que même les plus grands centres de données centralisés pourraient jamais rassembler.

Pluralis Recherche(une équipe pointue en formation décentralisée, à surveiller de près) affirme que ce n’est pas seulement possible, c’est inévitable. Les centres de données centralisés sont limités par des contraintes physiques comme l’espace et le disponibilité de puissance, tandis que les réseaux décentralisés peuvent puiser dans un pool de ressources mondiales pratiquement illimité.

Même Jensen Huang de NVIDIA a reconnu queformation décentralisée asynchronepourrait débloquer le véritable potentiel de la mise à l’échelle de l’IA. Les réseaux d’entraînement distribués sont également plus tolérants aux pannes.

Ainsi, dans un futur potentiel, les modèles d’IA les plus puissants du monde seront formés de manière décentralisée.

C’est une perspective excitante, mais je ne suis pas encore entièrement convaincu. Nous avons besoin de preuves plus solides que la formation décentralisée des plus grands modèles est techniquement et économiquement viable.

Voici où je vois une promesse immense : le point fort de la formation décentralisée pourrait se situer dans des modèles plus petits, spécialisés et open source conçus pour des cas d’utilisation ciblés, plutôt que de rivaliser avec les modèles de pointe ultra-grands pilotés par l’AGI. Certaines architectures, en particulier les modèles non-transformateurs, prouvent déjà être un choix naturel pour les configurations décentralisées.

Et il y a une autre pièce à ce puzzle: les jetons. Une fois que la formation décentralisée devient faisable à grande échelle, les jetons pourraient jouer un rôle pivot dans l’incitation et la récompense des contributeurs, amorçant efficacement ces réseaux.

La route vers cette vision est longue, mais les progrès sont très encourageants. Les avancées dans la formation décentralisée bénéficieront à tous, même aux grandes entreprises technologiques et aux laboratoires de recherche en IA de premier plan, car l’échelle des modèles futurs dépassera la capacité d’un seul centre de données.

L’avenir est distribué. Et lorsque une technologie détient un tel potentiel large, l’histoire montre qu’elle s’améliore toujours plus rapidement que quiconque ne s’y attend.

1.3. Inférence décentralisée

En ce moment, la majorité de la puissance de calcul en IA est dirigée vers la formation de modèles massifs. Les meilleurs laboratoires d’IA sont engagés dans une course aux armements pour développer les meilleurs modèles fondamentaux et finalement atteindre l’AGI.

Mais voici mon point de vue : cette intense focalisation sur le calcul pour l’entraînement se déplacera vers l’inférence dans les années à venir. Alors que l’IA est de plus en plus intégrée dans les applications que nous utilisons quotidiennement - de la santé au divertissement - les ressources de calcul nécessaires pour soutenir l’inférence seront stupéfiantes.

Et ce n’est pas seulement de la spéculation. La mise à l’échelle du calcul du temps d’inférence est le dernier mot à la mode en IA. OpenAI a récemment publié une version d’aperçu/miniature de son dernier modèle, o1 (nom de code : Strawberry), et le grand changement ? Il prend le temps de réfléchir en se demandant d’abord quelles sont les étapes à suivre pour répondre à la question, puis passe en revue chacune de ces étapes.

Ce modèle est conçu pour des tâches plus complexes et lourdes de planification, comme résoudre des mots croiséset s’attaque à des problèmes qui nécessitent une réflexion plus poussée. Vous remarquerez qu’il est plus lent, prend plus de temps pour générer des réponses, mais les résultats sont beaucoup plus réfléchis et nuancés. Il est également beaucoup plus coûteux à exécuter (25 fois le coût de GPT-4)

Le changement de focus est clair : le prochain saut de performance en IA ne viendra pas seulement de l’entraînement de modèles plus importants, mais aussi de l’augmentation de l’utilisation de calcul lors de l’inférence.

Si vous voulez en savoir plus, plusieurs recherchesdocumentsdémontrer:

  • L’échelle d’inférence informatique par échantillonnage répété conduit à de grandes améliorations dans diverses tâches.
  • Il existe également une loi d’échelle exponentielle pour l’inférence.

Une fois que les modèles puissants sont formés, leurs tâches d’inférence, où les modèles font des choses, peuvent être déchargées vers des réseaux de calcul décentralisés. Cela a tellement de sens car :

  • L’inférence nécessite beaucoup moins de ressources que l’entraînement. Une fois entraînés, les modèles peuvent être compressés et optimisés à l’aide de techniques telles que la quantification, l’élagage ou la distillation. Ils peuvent même être divisés avec un parallélisme de tenseur ou de pipeline pour s’exécuter sur des appareils grand public. Vous n’avez pas besoin d’une carte graphique haut de gamme pour alimenter l’inférence.
  • Cela se produit déjà.Exo Labsa trouvé comment exécuter un modèle Llama3 à 450 milliards de paramètres sur du matériel grand public comme les MacBooks et les Mac Minis. La distribution des inférences sur de nombreux appareils peut gérer efficacement et de manière rentable même des charges de travail à grande échelle.
  • Une meilleure expérience utilisateur. L’exécution des calculs plus près de l’utilisateur réduit la latence, ce qui est essentiel pour des applications en temps réel telles que les jeux, la réalité augmentée ou les voitures autonomes. Chaque milliseconde compte.

Pensez à l’inférence décentralisée comme un CDN (réseau de diffusion de contenu) pour l’IA : au lieu de livrer rapidement des sites web en se connectant à des serveurs proches, l’inférence décentralisée exploite la puissance de calcul locale pour fournir des réponses en IA en un temps record. En adoptant l’inférence décentralisée, les applications d’IA deviennent plus efficaces, réactives et fiables.

La tendance est claire. La nouvelle puce M4 Pro d’Applerivaux de NVIDIARTX 3070 Ti - un GPU qui, jusqu’à récemment, était le domaine des joueurs hardcore. Le matériel que nous avons déjà est de plus en plus capable de gérer des charges de travail AI avancées.

La valeur ajoutée de Crypto

Pour que les réseaux d’inférence décentralisés réussissent, il doit y avoir des incitations économiques convaincantes pour la participation. Les nœuds du réseau doivent être rémunérés pour leurs contributions de calcul. Le système doit garantir une distribution équitable et efficace des récompenses. La diversité géographique est essentielle, réduisant la latence des tâches d’inférence et améliorant la tolérance aux pannes.

Et la meilleure façon de construire des réseaux décentralisés? Crypto.

Les jetons fournissent un mécanisme puissant pour aligner les intérêts des participants, en s’assurant que tout le monde travaille vers le même objectif : mettre à l’échelle le réseau et augmenter la valeur du jeton.

Les jetons stimulent également la croissance du réseau. Ils aident à résoudre le problème classique de l’œuf et de la poule qui freine la plupart des réseaux en récompensant les premiers adoptants et en favorisant la participation dès le premier jour.

Le succès de Bitcoin et d’Ethereum prouve ce point - ils ont déjà agrégé les plus grands pools de puissance de calcul sur la planète.

Les réseaux d’inférence décentralisés sont les prochains sur la liste. Avec une diversité géographique, ils réduisent la latence, améliorent la tolérance aux pannes et rapprochent l’IA de l’utilisateur. Et avec des incitations alimentées par la cryptographie, ils se développeront plus rapidement et mieux que les réseaux traditionnels ne pourraient jamais le faire.

Clause de non-responsabilité :

  1. Cet article est repris à partir de[[](https://www.chainofthought.xyz/p/our-crypto-ai-thesis-part-ii-decentralised-compute)[Chaîne de pensée](https://www.chainofthought.xyz/)\]. Tous les droits d’auteur appartiennent à l’auteur original [Teng Yan]. S’il y a des objections à cette reproduction, veuillez contacter le Porte Apprendreéquipe, et ils s’en occuperont rapidement.
  2. Clause de non-responsabilité : Les points de vue et opinions exprimés dans cet article sont uniquement ceux de l’auteur et ne constituent aucun conseil en investissement.
  3. Les traductions de l’article dans d’autres langues sont effectuées par l’équipe Gate Learn. Sauf mention contraire, la copie, la distribution ou le plagiat des articles traduits est interdit.
ابدأ التداول الآن
اشترك وتداول لتحصل على جوائز ذهبية بقيمة
100 دولار أمريكي
و
5500 دولارًا أمريكيًا
لتجربة الإدارة المالية الذهبية!