Je n’ai pas secoué cette grande manque.
Cela me hante encore car c’était le pari le plus évident pour quiconque était attentif, pourtant je n’ai pas investi un seul dollar.
Non, ce n’était pas le prochain tueur de Solana ou un memecoin avec un chien portant un drôle de chapeau.
C’était… NVIDIA.
NVDA prix de l’action depuis le début de l’année. Source : Google
En seulement un an, NVDA a triplé, passant d’une capitalisation boursière de 1 billion de dollars à 3 billions de dollars. Il a même surpassé Bitcoin sur la même période.
Bien sûr, une partie de cela relève de la hype de l’IA. Mais une grande partie est ancrée dans la réalité. NVIDIA a annoncé un chiffre d’affaires de 60 milliards de dollars pour l’exercice 2024, soit une augmentation stupéfiante de 126% par rapport à 2023. Cette croissance a été stimulée par les grandes entreprises technologiques qui se sont emparées des GPU dans une course mondiale à l’IA pour l’AGI.
Alors pourquoi ai-je manqué ça?
Pendant deux ans, j’étais entièrement concentré sur la crypto et je ne regardais pas ce qui se passait dans le domaine de l’IA. C’était une grosse erreur et ça me hante encore.
Mais je ne fais pas la même erreur deux fois.
Aujourd’hui, Crypto AI a une étrange ressemblance. Nous sommes au bord d’une explosion de l’innovation. Les parallèles avec la ruée vers l’or en Californie au milieu des années 1800 sont difficiles à ignorer - des industries et des villes ont surgi du jour au lendemain, les infrastructures ont avancé à une vitesse vertigineuse et des fortunes ont été faites par ceux qui ont osé sauter.
Comme NVIDIA à ses débuts, Crypto AI semblera évidente avec du recul.
Dans Partie I de ma thèse, J’ai expliqué pourquoi Crypto AI est l’opportunité la plus excitante d’aujourd’hui pour les investisseurs et les bâtisseurs.
Voici un bref récapitulatif :
Au cœur de Crypto AI se trouve l’IA avec une infrastructure crypto superposée. Cela signifie qu’il est plus susceptible de suivre la trajectoire de croissance exponentielle de l’IA que le marché plus large des crypto-monnaies. Donc, pour rester en avance, vous devez vous tenir au courant des dernières recherches en IA sur Arxiv et parler aux fondateurs qui croient qu’ils construisent la prochaine grande chose.
Dans la deuxième partie de ma thèse, je vais plonger dans quatre des sous-secteurs les plus prometteurs de Crypto AI :
Ce morceau représente l’aboutissement de semaines de recherches approfondies et de conversations avec des fondateurs et des équipes à travers le paysage de l’IA Crypto. Il n’est pas conçu pour être une plongée profonde exhaustive dans chaque secteur, c’est un terrier de lapin pour un autre jour.
Considérez-le plutôt comme une feuille de route de haut niveau conçue pour susciter la curiosité, affiner votre recherche et guider votre réflexion en matière d’investissement.
Je visualise la pile d’IA décentralisée comme un écosystème en couches : cela commence par l’informatique décentralisée et les réseaux de données ouverts d’un côté, qui alimentent la formation de modèles d’IA décentralisés.
Chaque inférence est ensuite vérifiée - les entrées et les sorties également - en utilisant une combinaison de cryptographie, d’incitations cryptonomiques et de réseaux d’évaluation. Ces sorties vérifiées alimentent des agents d’IA pouvant fonctionner de manière autonome on-chain, ainsi que des applications d’IA grand public et d’entreprise auxquelles les utilisateurs peuvent réellement faire confiance.
Les réseaux de coordination les relient tous ensemble, permettant une communication et une collaboration transparentes dans tout l’écosystème.
Dans cette vision, toute personne travaillant dans l’IA pourrait exploiter une ou plusieurs couches de cette pile, en fonction de ses besoins spécifiques. Que ce soit en utilisant le calcul décentralisé pour l’entraînement de modèles ou en utilisant des réseaux d’évaluation pour garantir des sorties de haute qualité, la pile offre une gamme d’options.
Grâce à la composition inhérente de la blockchain, je crois que nous évoluons naturellement vers un avenir modulaire. Chaque couche devient hyper-spécialisée, avec des protocoles optimisés pour des fonctions distinctes plutôt que pour une approche intégrée tout-en-un.
Source : topology.vc
Il y a eu une explosion cambrienne de startups se construisant à tous les niveaux de la pile d’IA décentralisée, la plupart étant fondées au cours des 1 à 3 dernières années. Il est clair : nous en sommes encore au début.
La carte la plus complète et la plus à jour du paysage des start-ups Crypto AI que j’ai vue est entretenue par Casey et son équipe chez topology.vc. C’est une ressource inestimable pour toute personne suivant l’espace.
Alors que je plonge dans les sous-secteurs de l’IA Crypto, je me demande constamment : quelle est l’ampleur de l’opportunité ici ? Je ne m’intéresse pas aux petits paris—je recherche des marchés qui peuvent atteindre des centaines de milliards.
Commençons par la taille du marché. Lors de l’évaluation d’un sous-secteur, je me demande : crée-t-il un marché totalement nouveau ou perturbe-t-il un marché existant ?
Prenez par exemple le calcul décentralisé. Il s’agit d’une catégorie perturbatrice dont le potentiel peut être estimé en regardant le marché établi de l’informatique en nuage, d’une valeur d’environ ~$680B aujourd’hui et devrait atteindre 2,5 billions de dollars en 2032.
Les nouveaux marchés sans précédent, comme les agents d’IA, sont plus difficiles à quantifier. Sans données historiques, les évaluer implique un mélange de suppositions éclairées et de vérifications instinctives sur les problèmes qu’ils résolvent. Et le piège est que parfois, ce qui ressemble à un nouveau marché est en réalité simplement une solution à la recherche d’un problème.
Le timing est tout. La technologie a tendance à s’améliorer et à devenir moins chère avec le temps, mais la cadence du progrès varie.
À quel point la technologie dans un sous-secteur donné est-elle mature ? Est-elle prête à être mise à l’échelle ou est-elle encore en phase de recherche, avec des applications pratiques à plusieurs années ? Le moment détermine si un secteur mérite une attention immédiate ou s’il doit être laissé dans la catégorie “attendre et voir”.
Prenons l’homomorphisme entièrement homomorphe (FHE) comme exemple : le potentiel est indéniable, mais aujourd’hui, c’est encore trop lent pour une utilisation généralisée. Il est probable que nous soyons encore plusieurs années avant de le voir atteindre une viabilité grand public. En se concentrant d’abord sur les secteurs plus proches de l’extension, je peux consacrer mon temps et mon énergie là où la dynamique - et l’opportunité - se construisent.
Si je devais cartographier ces catégories sur un graphique de taille par rapport au temps, cela ressemblerait à ceci. Gardez à l’esprit qu’il s’agit plus d’un croquis conceptuel que d’un guide strict. Il y a beaucoup de nuances - par exemple, dans l’inférence vérifiable, différentes approches comme zkML et opML sont à des niveaux de préparation différents pour une utilisation.
Cela dit, je suis convaincu que l’échelle de l’IA sera si massive que même ce qui semble “de niche” aujourd’hui pourrait évoluer vers un marché significatif.
Il est également important de noter que le progrès technologique ne suit pas toujours une ligne droite - il se produit souvent par bonds. Mes points de vue sur le moment et la taille du marché changeront lorsque des percées émergentes se produiront.
Avec ce cadre à l’esprit, décomposons chaque sous-secteur.
Plusieurs équipes d’IA Crypto se positionnent pour tirer parti de la pénurie de GPU par rapport à la demande en construisant des réseaux décentralisés qui exploitent la puissance de calcul latente mondiale.
La proposition de valeur fondamentale des places de marché de GPU est triple :
Pour s’attaquer à l’offre sur le marché, ces places de marché se procurent des calculs à partir de :
D’un autre côté, la demande de calcul décentralisé aujourd’hui vient de :
La chose essentielle à retenir : les développeurs privilégient toujours les coûts et la fiabilité.
Les startups de cet espace vantent souvent la taille de leurs réseaux d’approvisionnement en GPU comme un signe de succès. Mais c’est trompeur - c’est au mieux une mesure de vanité.
La contrainte réelle n’est pas l’approvisionnement mais la demande. Les principaux indicateurs à suivre ne sont pas le nombre de GPU disponibles, mais plutôt le taux d’utilisation et le nombre de GPU réellement loués.
Les jetons sont excellents pour démarrer le côté offre, en créant les incitations nécessaires pour se développer rapidement. Cependant, ils ne résolvent pas intrinsèquement le problème de la demande. Le véritable test consiste à amener le produit à un état suffisamment bon pour que la demande latente se matérialise.
Haseeb Qureshi (Dragonfly) met le meilleur :
Contrairement à ce que l’on pense communément, le plus grand obstacle pour les places de marché GPU distribuées web3 aujourd’hui est tout simplement de les faire fonctionner correctement.
Ce n’est pas un problème trivial.
Orchestrer des GPU à travers un réseau distribué est complexe, avec des couches de défis - allocation des ressources, mise à l’échelle dynamique de la charge de travail, équilibrage de la charge sur les nœuds et les GPU, gestion de la latence, transfert de données, tolérance aux pannes, et gestion de matériels divers dispersés à travers diverses géographies. Je pourrais continuer indéfiniment.
Parvenir à cela nécessite une ingénierie sérieuse et une architecture réseau robuste et correctement conçue.
Pour mettre les choses en perspective, considérez Kubernetes de Google. Il est largement considéré comme la référence en matière d’orchestration de conteneurs, automatisant des processus tels que l’équilibrage de charge et la mise à l’échelle dans des environnements distribués - des défis très similaires à ceux auxquels sont confrontés les réseaux de GPU distribués. Kubernetes lui-même a été construit sur plus d’une décennie d’expérience de Google, et même alors, il a fallu des années d’itération incessante pour le rendre correct.
Certains des marchés de calcul GPU déjà en activité aujourd’hui peuvent gérer des charges de travail à petite échelle, mais les problèmes commencent à apparaître dès qu’ils essaient de se développer. Je soupçonne que cela est dû au fait qu’ils ont été construits sur des fondations architecturales mal conçues.
Un autre défi/opportunité pour les réseaux de calcul décentralisés est de garantir la fiabilité : vérifier que chaque nœud fournit réellement la puissance de calcul qu’il prétend avoir. Actuellement, cela repose sur la réputation du réseau, et dans certains cas, les fournisseurs de calcul sont classés selon leur score de réputation. La blockchain semble être une solution naturelle pour les systèmes de vérification sans confiance. Des startups comme GensynetSpheronpoussent pour une approche sans confiance pour résoudre ce problème.
Aujourd’hui, de nombreuses équipes web3 naviguent encore à travers ces défis, ce qui signifie que l’opportunité est grande ouverte.
Quelle est la taille du marché des réseaux de calcul décentralisés ?
Aujourd’hui, cela représente probablement seulement une infime partie de l’industrie du cloud computing, qui va de 680 milliards de dollars à 2,5 billions de dollars. Pourtant, malgré les frictions supplémentaires pour les utilisateurs, il y aura toujours une demande tant que les coûts resteront inférieurs à ceux des fournisseurs traditionnels.
Je crois que les coûts resteront plus bas à court et moyen terme en raison d’un mélange de subventions en jetons et du déverrouillage de l’offre provenant d’utilisateurs peu sensibles au prix (par exemple, si je peux louer mon ordinateur portable de jeu pour gagner un peu d’argent supplémentaire, je suis content, que cela soit 20 $ ou 50 $ par mois).
Mais le véritable potentiel de croissance pour les réseaux informatiques décentralisés - et l’expansion réelle de leur TAM - viendra lorsque:
Calcul décentralisé et sans permission constitue la couche de base, l’infrastructure fondamentale, pour un écosystème d’IA décentralisé.
Malgré l’expansion continue de la chaîne d’approvisionnement en silicium (c’est-à-dire les GPU), je pense que nous ne sommes qu’à l’aube de l’ère de l’intelligence humaine. Il y aura une demande insatiable de calcul.
Surveillez le point d’inflexion qui pourrait déclencher une réévaluation majeure de tous les marchés de GPU en activité. Il arrivera probablement bientôt.
Imaginez ceci : un modèle d’IA massif et révolutionnaire, non développé dans des laboratoires d’élite secrets, mais mis en œuvre par des millions de personnes ordinaires. Des joueurs, dont les GPU génèrent généralement des explosions cinématographiques de Call of Duty, prêtent désormais leur matériel à quelque chose de plus grand - un modèle d’IA open source et collectivement possédé, sans gardiens centraux.
Dans ce futur, les modèles à l’échelle de la fondation ne sont pas seulement l’apanage des meilleurs laboratoires d’IA.
Mais ancrer cette vision dans la réalité d’aujourd’hui. Pour l’instant, la majeure partie de la formation intensive à l’IA reste ancrée dans les centres de données centralisés, et cela devrait probablement être la norme pendant un certain temps.
Des entreprises comme OpenAI mettent à l’échelle leurs énormes clusters. Elon Musk récemment annoncéque xAI est sur le point de terminer la construction d’un centre de données avec l’équivalent de 200 000 GPU H100.
Mais ce n’est pas seulement une question de nombre brut de GPU. L’utilisation des FLOPS du modèle (MFU) - une mesure introduite dansLe document PaLM de Googleen 2022, suit l’efficacité avec laquelle la capacité maximale d’un GPU est utilisée. Étonnamment, MFU tourne souvent autour de 35-40%.
Pourquoi si bas? Bien que les performances des GPU aient explosé au fil des ans, suivant la loi de Moore, les améliorations du réseau, de la mémoire et du stockage ont considérablement tardé, créant des goulots d’étranglement. Par conséquent, les GPU restent souvent inactifs, en attente de données.
La formation en IA reste très centralisée aujourd’hui à cause d’un mot — Efficacité.
La formation de grands modèles dépend de techniques comme :
• Parallélisme des données : division des ensembles de données entre plusieurs GPU pour effectuer des opérations en parallèle, accélérant ainsi le processus d’entraînement.
• Parallélisme du modèle : Distribution de parties du modèle sur les GPU pour contourner les contraintes de mémoire.
Ces méthodes nécessitent des GPU pour échanger constamment des données, ce qui rend la vitesse d’interconnexion - le taux auquel les données sont transférées entre les ordinateurs du réseau - absolument essentielle.
Lorsque la formation de modèles d’IA de pointe peut coûter plus de 1 milliard de dollars, chaque gain d’efficacité compte.
Avec leurs interconnexions à haute vitesse, les centres de données centralisés permettent un transfert rapide des données entre les GPU et permettent de réaliser des économies substantielles de coûts pendant le temps d’entraînement que les configurations décentralisées ne peuvent pas encore égaler…
Si vous parlez avec des personnes travaillant dans le domaine de l’IA, beaucoup vous diront que la formation décentralisée ne fonctionnera tout simplement pas.
Dans les configurations décentralisées, les clusters de GPU ne sont pas physiquement situés au même endroit, ce qui rend le transfert de données entre eux beaucoup plus lent et devient un goulot d’étranglement. La formation nécessite que les GPU se synchronisent et échangent des données à chaque étape. Plus ils sont éloignés, plus la latence est élevée. Une latence plus élevée signifie une vitesse d’entraînement plus lente et des coûts plus élevés.
Ce qui pourrait prendre quelques jours dans un centre de données centralisé pourrait s’étendre à deux semaines avec une approche décentralisée à un coût plus élevé. Ce n’est tout simplement pas viable.
Mais cela est sur le point de changer.
La bonne nouvelle est qu’il y a eu une énorme augmentation de l’intérêt pour la recherche sur la formation distribuée. Les chercheurs explorent simultanément plusieurs approches, comme en témoignent l’effervescence des études et des articles publiés. Ces avancées s’empileront et se multiplieront, accélérant ainsi les progrès dans le domaine.
Il s’agit également de tester en production et de voir jusqu’où nous pouvons repousser les limites.
Certaines techniques de formation décentralisée peuvent déjà gérer des modèles plus petits dans des environnements d’interconnexion lente. Maintenant, la recherche de pointe pousse à étendre ces méthodes à des modèles de plus en plus grands.
Un autre défi consiste à gérer une gamme diversifiée de matériels GPU, y compris des GPU grand public avec une mémoire limitée, qui sont typiques dans les réseaux décentralisés. Des techniques telles que le parallélisme de modèle (division des couches du modèle entre les appareils) peuvent aider à rendre cela réalisable.
Les méthodes d’entraînement décentralisées actuelles sont encore limitées à des tailles de modèle bien inférieures à la frontière (GPT-4 est rapporté à près d’un billion de paramètres, soit 100 fois plus grand que le modèle 10B de Prime Intellect). Pour une véritable mise à l’échelle, nous aurons besoin de percées dans l’architecture du modèle, d’une infrastructure de réseau meilleure et d’une répartition plus intelligente des tâches entre les appareils.
Et nous pouvons rêver grand. Imaginez un monde où la formation décentralisée agrège plus de puissance de calcul GPU que même les plus grands centres de données centralisés pourraient jamais rassembler.
Pluralis Recherche(une équipe pointue en formation décentralisée, à surveiller de près) affirme que ce n’est pas seulement possible, c’est inévitable. Les centres de données centralisés sont limités par des contraintes physiques comme l’espace et le disponibilité de puissance, tandis que les réseaux décentralisés peuvent puiser dans un pool de ressources mondiales pratiquement illimité.
Même Jensen Huang de NVIDIA a reconnu queformation décentralisée asynchronepourrait débloquer le véritable potentiel de la mise à l’échelle de l’IA. Les réseaux d’entraînement distribués sont également plus tolérants aux pannes.
Ainsi, dans un futur potentiel, les modèles d’IA les plus puissants du monde seront formés de manière décentralisée.
C’est une perspective excitante, mais je ne suis pas encore entièrement convaincu. Nous avons besoin de preuves plus solides que la formation décentralisée des plus grands modèles est techniquement et économiquement viable.
Voici où je vois une promesse immense : le point fort de la formation décentralisée pourrait se situer dans des modèles plus petits, spécialisés et open source conçus pour des cas d’utilisation ciblés, plutôt que de rivaliser avec les modèles de pointe ultra-grands pilotés par l’AGI. Certaines architectures, en particulier les modèles non-transformateurs, prouvent déjà être un choix naturel pour les configurations décentralisées.
Et il y a une autre pièce à ce puzzle: les jetons. Une fois que la formation décentralisée devient faisable à grande échelle, les jetons pourraient jouer un rôle pivot dans l’incitation et la récompense des contributeurs, amorçant efficacement ces réseaux.
La route vers cette vision est longue, mais les progrès sont très encourageants. Les avancées dans la formation décentralisée bénéficieront à tous, même aux grandes entreprises technologiques et aux laboratoires de recherche en IA de premier plan, car l’échelle des modèles futurs dépassera la capacité d’un seul centre de données.
L’avenir est distribué. Et lorsque une technologie détient un tel potentiel large, l’histoire montre qu’elle s’améliore toujours plus rapidement que quiconque ne s’y attend.
En ce moment, la majorité de la puissance de calcul en IA est dirigée vers la formation de modèles massifs. Les meilleurs laboratoires d’IA sont engagés dans une course aux armements pour développer les meilleurs modèles fondamentaux et finalement atteindre l’AGI.
Mais voici mon point de vue : cette intense focalisation sur le calcul pour l’entraînement se déplacera vers l’inférence dans les années à venir. Alors que l’IA est de plus en plus intégrée dans les applications que nous utilisons quotidiennement - de la santé au divertissement - les ressources de calcul nécessaires pour soutenir l’inférence seront stupéfiantes.
Et ce n’est pas seulement de la spéculation. La mise à l’échelle du calcul du temps d’inférence est le dernier mot à la mode en IA. OpenAI a récemment publié une version d’aperçu/miniature de son dernier modèle, o1 (nom de code : Strawberry), et le grand changement ? Il prend le temps de réfléchir en se demandant d’abord quelles sont les étapes à suivre pour répondre à la question, puis passe en revue chacune de ces étapes.
Ce modèle est conçu pour des tâches plus complexes et lourdes de planification, comme résoudre des mots croiséset s’attaque à des problèmes qui nécessitent une réflexion plus poussée. Vous remarquerez qu’il est plus lent, prend plus de temps pour générer des réponses, mais les résultats sont beaucoup plus réfléchis et nuancés. Il est également beaucoup plus coûteux à exécuter (25 fois le coût de GPT-4)
Le changement de focus est clair : le prochain saut de performance en IA ne viendra pas seulement de l’entraînement de modèles plus importants, mais aussi de l’augmentation de l’utilisation de calcul lors de l’inférence.
Si vous voulez en savoir plus, plusieurs recherchesdocumentsdémontrer:
Une fois que les modèles puissants sont formés, leurs tâches d’inférence, où les modèles font des choses, peuvent être déchargées vers des réseaux de calcul décentralisés. Cela a tellement de sens car :
Pensez à l’inférence décentralisée comme un CDN (réseau de diffusion de contenu) pour l’IA : au lieu de livrer rapidement des sites web en se connectant à des serveurs proches, l’inférence décentralisée exploite la puissance de calcul locale pour fournir des réponses en IA en un temps record. En adoptant l’inférence décentralisée, les applications d’IA deviennent plus efficaces, réactives et fiables.
La tendance est claire. La nouvelle puce M4 Pro d’Applerivaux de NVIDIARTX 3070 Ti - un GPU qui, jusqu’à récemment, était le domaine des joueurs hardcore. Le matériel que nous avons déjà est de plus en plus capable de gérer des charges de travail AI avancées.
Pour que les réseaux d’inférence décentralisés réussissent, il doit y avoir des incitations économiques convaincantes pour la participation. Les nœuds du réseau doivent être rémunérés pour leurs contributions de calcul. Le système doit garantir une distribution équitable et efficace des récompenses. La diversité géographique est essentielle, réduisant la latence des tâches d’inférence et améliorant la tolérance aux pannes.
Et la meilleure façon de construire des réseaux décentralisés? Crypto.
Les jetons fournissent un mécanisme puissant pour aligner les intérêts des participants, en s’assurant que tout le monde travaille vers le même objectif : mettre à l’échelle le réseau et augmenter la valeur du jeton.
Les jetons stimulent également la croissance du réseau. Ils aident à résoudre le problème classique de l’œuf et de la poule qui freine la plupart des réseaux en récompensant les premiers adoptants et en favorisant la participation dès le premier jour.
Le succès de Bitcoin et d’Ethereum prouve ce point - ils ont déjà agrégé les plus grands pools de puissance de calcul sur la planète.
Les réseaux d’inférence décentralisés sont les prochains sur la liste. Avec une diversité géographique, ils réduisent la latence, améliorent la tolérance aux pannes et rapprochent l’IA de l’utilisateur. Et avec des incitations alimentées par la cryptographie, ils se développeront plus rapidement et mieux que les réseaux traditionnels ne pourraient jamais le faire.
Je n’ai pas secoué cette grande manque.
Cela me hante encore car c’était le pari le plus évident pour quiconque était attentif, pourtant je n’ai pas investi un seul dollar.
Non, ce n’était pas le prochain tueur de Solana ou un memecoin avec un chien portant un drôle de chapeau.
C’était… NVIDIA.
NVDA prix de l’action depuis le début de l’année. Source : Google
En seulement un an, NVDA a triplé, passant d’une capitalisation boursière de 1 billion de dollars à 3 billions de dollars. Il a même surpassé Bitcoin sur la même période.
Bien sûr, une partie de cela relève de la hype de l’IA. Mais une grande partie est ancrée dans la réalité. NVIDIA a annoncé un chiffre d’affaires de 60 milliards de dollars pour l’exercice 2024, soit une augmentation stupéfiante de 126% par rapport à 2023. Cette croissance a été stimulée par les grandes entreprises technologiques qui se sont emparées des GPU dans une course mondiale à l’IA pour l’AGI.
Alors pourquoi ai-je manqué ça?
Pendant deux ans, j’étais entièrement concentré sur la crypto et je ne regardais pas ce qui se passait dans le domaine de l’IA. C’était une grosse erreur et ça me hante encore.
Mais je ne fais pas la même erreur deux fois.
Aujourd’hui, Crypto AI a une étrange ressemblance. Nous sommes au bord d’une explosion de l’innovation. Les parallèles avec la ruée vers l’or en Californie au milieu des années 1800 sont difficiles à ignorer - des industries et des villes ont surgi du jour au lendemain, les infrastructures ont avancé à une vitesse vertigineuse et des fortunes ont été faites par ceux qui ont osé sauter.
Comme NVIDIA à ses débuts, Crypto AI semblera évidente avec du recul.
Dans Partie I de ma thèse, J’ai expliqué pourquoi Crypto AI est l’opportunité la plus excitante d’aujourd’hui pour les investisseurs et les bâtisseurs.
Voici un bref récapitulatif :
Au cœur de Crypto AI se trouve l’IA avec une infrastructure crypto superposée. Cela signifie qu’il est plus susceptible de suivre la trajectoire de croissance exponentielle de l’IA que le marché plus large des crypto-monnaies. Donc, pour rester en avance, vous devez vous tenir au courant des dernières recherches en IA sur Arxiv et parler aux fondateurs qui croient qu’ils construisent la prochaine grande chose.
Dans la deuxième partie de ma thèse, je vais plonger dans quatre des sous-secteurs les plus prometteurs de Crypto AI :
Ce morceau représente l’aboutissement de semaines de recherches approfondies et de conversations avec des fondateurs et des équipes à travers le paysage de l’IA Crypto. Il n’est pas conçu pour être une plongée profonde exhaustive dans chaque secteur, c’est un terrier de lapin pour un autre jour.
Considérez-le plutôt comme une feuille de route de haut niveau conçue pour susciter la curiosité, affiner votre recherche et guider votre réflexion en matière d’investissement.
Je visualise la pile d’IA décentralisée comme un écosystème en couches : cela commence par l’informatique décentralisée et les réseaux de données ouverts d’un côté, qui alimentent la formation de modèles d’IA décentralisés.
Chaque inférence est ensuite vérifiée - les entrées et les sorties également - en utilisant une combinaison de cryptographie, d’incitations cryptonomiques et de réseaux d’évaluation. Ces sorties vérifiées alimentent des agents d’IA pouvant fonctionner de manière autonome on-chain, ainsi que des applications d’IA grand public et d’entreprise auxquelles les utilisateurs peuvent réellement faire confiance.
Les réseaux de coordination les relient tous ensemble, permettant une communication et une collaboration transparentes dans tout l’écosystème.
Dans cette vision, toute personne travaillant dans l’IA pourrait exploiter une ou plusieurs couches de cette pile, en fonction de ses besoins spécifiques. Que ce soit en utilisant le calcul décentralisé pour l’entraînement de modèles ou en utilisant des réseaux d’évaluation pour garantir des sorties de haute qualité, la pile offre une gamme d’options.
Grâce à la composition inhérente de la blockchain, je crois que nous évoluons naturellement vers un avenir modulaire. Chaque couche devient hyper-spécialisée, avec des protocoles optimisés pour des fonctions distinctes plutôt que pour une approche intégrée tout-en-un.
Source : topology.vc
Il y a eu une explosion cambrienne de startups se construisant à tous les niveaux de la pile d’IA décentralisée, la plupart étant fondées au cours des 1 à 3 dernières années. Il est clair : nous en sommes encore au début.
La carte la plus complète et la plus à jour du paysage des start-ups Crypto AI que j’ai vue est entretenue par Casey et son équipe chez topology.vc. C’est une ressource inestimable pour toute personne suivant l’espace.
Alors que je plonge dans les sous-secteurs de l’IA Crypto, je me demande constamment : quelle est l’ampleur de l’opportunité ici ? Je ne m’intéresse pas aux petits paris—je recherche des marchés qui peuvent atteindre des centaines de milliards.
Commençons par la taille du marché. Lors de l’évaluation d’un sous-secteur, je me demande : crée-t-il un marché totalement nouveau ou perturbe-t-il un marché existant ?
Prenez par exemple le calcul décentralisé. Il s’agit d’une catégorie perturbatrice dont le potentiel peut être estimé en regardant le marché établi de l’informatique en nuage, d’une valeur d’environ ~$680B aujourd’hui et devrait atteindre 2,5 billions de dollars en 2032.
Les nouveaux marchés sans précédent, comme les agents d’IA, sont plus difficiles à quantifier. Sans données historiques, les évaluer implique un mélange de suppositions éclairées et de vérifications instinctives sur les problèmes qu’ils résolvent. Et le piège est que parfois, ce qui ressemble à un nouveau marché est en réalité simplement une solution à la recherche d’un problème.
Le timing est tout. La technologie a tendance à s’améliorer et à devenir moins chère avec le temps, mais la cadence du progrès varie.
À quel point la technologie dans un sous-secteur donné est-elle mature ? Est-elle prête à être mise à l’échelle ou est-elle encore en phase de recherche, avec des applications pratiques à plusieurs années ? Le moment détermine si un secteur mérite une attention immédiate ou s’il doit être laissé dans la catégorie “attendre et voir”.
Prenons l’homomorphisme entièrement homomorphe (FHE) comme exemple : le potentiel est indéniable, mais aujourd’hui, c’est encore trop lent pour une utilisation généralisée. Il est probable que nous soyons encore plusieurs années avant de le voir atteindre une viabilité grand public. En se concentrant d’abord sur les secteurs plus proches de l’extension, je peux consacrer mon temps et mon énergie là où la dynamique - et l’opportunité - se construisent.
Si je devais cartographier ces catégories sur un graphique de taille par rapport au temps, cela ressemblerait à ceci. Gardez à l’esprit qu’il s’agit plus d’un croquis conceptuel que d’un guide strict. Il y a beaucoup de nuances - par exemple, dans l’inférence vérifiable, différentes approches comme zkML et opML sont à des niveaux de préparation différents pour une utilisation.
Cela dit, je suis convaincu que l’échelle de l’IA sera si massive que même ce qui semble “de niche” aujourd’hui pourrait évoluer vers un marché significatif.
Il est également important de noter que le progrès technologique ne suit pas toujours une ligne droite - il se produit souvent par bonds. Mes points de vue sur le moment et la taille du marché changeront lorsque des percées émergentes se produiront.
Avec ce cadre à l’esprit, décomposons chaque sous-secteur.
Plusieurs équipes d’IA Crypto se positionnent pour tirer parti de la pénurie de GPU par rapport à la demande en construisant des réseaux décentralisés qui exploitent la puissance de calcul latente mondiale.
La proposition de valeur fondamentale des places de marché de GPU est triple :
Pour s’attaquer à l’offre sur le marché, ces places de marché se procurent des calculs à partir de :
D’un autre côté, la demande de calcul décentralisé aujourd’hui vient de :
La chose essentielle à retenir : les développeurs privilégient toujours les coûts et la fiabilité.
Les startups de cet espace vantent souvent la taille de leurs réseaux d’approvisionnement en GPU comme un signe de succès. Mais c’est trompeur - c’est au mieux une mesure de vanité.
La contrainte réelle n’est pas l’approvisionnement mais la demande. Les principaux indicateurs à suivre ne sont pas le nombre de GPU disponibles, mais plutôt le taux d’utilisation et le nombre de GPU réellement loués.
Les jetons sont excellents pour démarrer le côté offre, en créant les incitations nécessaires pour se développer rapidement. Cependant, ils ne résolvent pas intrinsèquement le problème de la demande. Le véritable test consiste à amener le produit à un état suffisamment bon pour que la demande latente se matérialise.
Haseeb Qureshi (Dragonfly) met le meilleur :
Contrairement à ce que l’on pense communément, le plus grand obstacle pour les places de marché GPU distribuées web3 aujourd’hui est tout simplement de les faire fonctionner correctement.
Ce n’est pas un problème trivial.
Orchestrer des GPU à travers un réseau distribué est complexe, avec des couches de défis - allocation des ressources, mise à l’échelle dynamique de la charge de travail, équilibrage de la charge sur les nœuds et les GPU, gestion de la latence, transfert de données, tolérance aux pannes, et gestion de matériels divers dispersés à travers diverses géographies. Je pourrais continuer indéfiniment.
Parvenir à cela nécessite une ingénierie sérieuse et une architecture réseau robuste et correctement conçue.
Pour mettre les choses en perspective, considérez Kubernetes de Google. Il est largement considéré comme la référence en matière d’orchestration de conteneurs, automatisant des processus tels que l’équilibrage de charge et la mise à l’échelle dans des environnements distribués - des défis très similaires à ceux auxquels sont confrontés les réseaux de GPU distribués. Kubernetes lui-même a été construit sur plus d’une décennie d’expérience de Google, et même alors, il a fallu des années d’itération incessante pour le rendre correct.
Certains des marchés de calcul GPU déjà en activité aujourd’hui peuvent gérer des charges de travail à petite échelle, mais les problèmes commencent à apparaître dès qu’ils essaient de se développer. Je soupçonne que cela est dû au fait qu’ils ont été construits sur des fondations architecturales mal conçues.
Un autre défi/opportunité pour les réseaux de calcul décentralisés est de garantir la fiabilité : vérifier que chaque nœud fournit réellement la puissance de calcul qu’il prétend avoir. Actuellement, cela repose sur la réputation du réseau, et dans certains cas, les fournisseurs de calcul sont classés selon leur score de réputation. La blockchain semble être une solution naturelle pour les systèmes de vérification sans confiance. Des startups comme GensynetSpheronpoussent pour une approche sans confiance pour résoudre ce problème.
Aujourd’hui, de nombreuses équipes web3 naviguent encore à travers ces défis, ce qui signifie que l’opportunité est grande ouverte.
Quelle est la taille du marché des réseaux de calcul décentralisés ?
Aujourd’hui, cela représente probablement seulement une infime partie de l’industrie du cloud computing, qui va de 680 milliards de dollars à 2,5 billions de dollars. Pourtant, malgré les frictions supplémentaires pour les utilisateurs, il y aura toujours une demande tant que les coûts resteront inférieurs à ceux des fournisseurs traditionnels.
Je crois que les coûts resteront plus bas à court et moyen terme en raison d’un mélange de subventions en jetons et du déverrouillage de l’offre provenant d’utilisateurs peu sensibles au prix (par exemple, si je peux louer mon ordinateur portable de jeu pour gagner un peu d’argent supplémentaire, je suis content, que cela soit 20 $ ou 50 $ par mois).
Mais le véritable potentiel de croissance pour les réseaux informatiques décentralisés - et l’expansion réelle de leur TAM - viendra lorsque:
Calcul décentralisé et sans permission constitue la couche de base, l’infrastructure fondamentale, pour un écosystème d’IA décentralisé.
Malgré l’expansion continue de la chaîne d’approvisionnement en silicium (c’est-à-dire les GPU), je pense que nous ne sommes qu’à l’aube de l’ère de l’intelligence humaine. Il y aura une demande insatiable de calcul.
Surveillez le point d’inflexion qui pourrait déclencher une réévaluation majeure de tous les marchés de GPU en activité. Il arrivera probablement bientôt.
Imaginez ceci : un modèle d’IA massif et révolutionnaire, non développé dans des laboratoires d’élite secrets, mais mis en œuvre par des millions de personnes ordinaires. Des joueurs, dont les GPU génèrent généralement des explosions cinématographiques de Call of Duty, prêtent désormais leur matériel à quelque chose de plus grand - un modèle d’IA open source et collectivement possédé, sans gardiens centraux.
Dans ce futur, les modèles à l’échelle de la fondation ne sont pas seulement l’apanage des meilleurs laboratoires d’IA.
Mais ancrer cette vision dans la réalité d’aujourd’hui. Pour l’instant, la majeure partie de la formation intensive à l’IA reste ancrée dans les centres de données centralisés, et cela devrait probablement être la norme pendant un certain temps.
Des entreprises comme OpenAI mettent à l’échelle leurs énormes clusters. Elon Musk récemment annoncéque xAI est sur le point de terminer la construction d’un centre de données avec l’équivalent de 200 000 GPU H100.
Mais ce n’est pas seulement une question de nombre brut de GPU. L’utilisation des FLOPS du modèle (MFU) - une mesure introduite dansLe document PaLM de Googleen 2022, suit l’efficacité avec laquelle la capacité maximale d’un GPU est utilisée. Étonnamment, MFU tourne souvent autour de 35-40%.
Pourquoi si bas? Bien que les performances des GPU aient explosé au fil des ans, suivant la loi de Moore, les améliorations du réseau, de la mémoire et du stockage ont considérablement tardé, créant des goulots d’étranglement. Par conséquent, les GPU restent souvent inactifs, en attente de données.
La formation en IA reste très centralisée aujourd’hui à cause d’un mot — Efficacité.
La formation de grands modèles dépend de techniques comme :
• Parallélisme des données : division des ensembles de données entre plusieurs GPU pour effectuer des opérations en parallèle, accélérant ainsi le processus d’entraînement.
• Parallélisme du modèle : Distribution de parties du modèle sur les GPU pour contourner les contraintes de mémoire.
Ces méthodes nécessitent des GPU pour échanger constamment des données, ce qui rend la vitesse d’interconnexion - le taux auquel les données sont transférées entre les ordinateurs du réseau - absolument essentielle.
Lorsque la formation de modèles d’IA de pointe peut coûter plus de 1 milliard de dollars, chaque gain d’efficacité compte.
Avec leurs interconnexions à haute vitesse, les centres de données centralisés permettent un transfert rapide des données entre les GPU et permettent de réaliser des économies substantielles de coûts pendant le temps d’entraînement que les configurations décentralisées ne peuvent pas encore égaler…
Si vous parlez avec des personnes travaillant dans le domaine de l’IA, beaucoup vous diront que la formation décentralisée ne fonctionnera tout simplement pas.
Dans les configurations décentralisées, les clusters de GPU ne sont pas physiquement situés au même endroit, ce qui rend le transfert de données entre eux beaucoup plus lent et devient un goulot d’étranglement. La formation nécessite que les GPU se synchronisent et échangent des données à chaque étape. Plus ils sont éloignés, plus la latence est élevée. Une latence plus élevée signifie une vitesse d’entraînement plus lente et des coûts plus élevés.
Ce qui pourrait prendre quelques jours dans un centre de données centralisé pourrait s’étendre à deux semaines avec une approche décentralisée à un coût plus élevé. Ce n’est tout simplement pas viable.
Mais cela est sur le point de changer.
La bonne nouvelle est qu’il y a eu une énorme augmentation de l’intérêt pour la recherche sur la formation distribuée. Les chercheurs explorent simultanément plusieurs approches, comme en témoignent l’effervescence des études et des articles publiés. Ces avancées s’empileront et se multiplieront, accélérant ainsi les progrès dans le domaine.
Il s’agit également de tester en production et de voir jusqu’où nous pouvons repousser les limites.
Certaines techniques de formation décentralisée peuvent déjà gérer des modèles plus petits dans des environnements d’interconnexion lente. Maintenant, la recherche de pointe pousse à étendre ces méthodes à des modèles de plus en plus grands.
Un autre défi consiste à gérer une gamme diversifiée de matériels GPU, y compris des GPU grand public avec une mémoire limitée, qui sont typiques dans les réseaux décentralisés. Des techniques telles que le parallélisme de modèle (division des couches du modèle entre les appareils) peuvent aider à rendre cela réalisable.
Les méthodes d’entraînement décentralisées actuelles sont encore limitées à des tailles de modèle bien inférieures à la frontière (GPT-4 est rapporté à près d’un billion de paramètres, soit 100 fois plus grand que le modèle 10B de Prime Intellect). Pour une véritable mise à l’échelle, nous aurons besoin de percées dans l’architecture du modèle, d’une infrastructure de réseau meilleure et d’une répartition plus intelligente des tâches entre les appareils.
Et nous pouvons rêver grand. Imaginez un monde où la formation décentralisée agrège plus de puissance de calcul GPU que même les plus grands centres de données centralisés pourraient jamais rassembler.
Pluralis Recherche(une équipe pointue en formation décentralisée, à surveiller de près) affirme que ce n’est pas seulement possible, c’est inévitable. Les centres de données centralisés sont limités par des contraintes physiques comme l’espace et le disponibilité de puissance, tandis que les réseaux décentralisés peuvent puiser dans un pool de ressources mondiales pratiquement illimité.
Même Jensen Huang de NVIDIA a reconnu queformation décentralisée asynchronepourrait débloquer le véritable potentiel de la mise à l’échelle de l’IA. Les réseaux d’entraînement distribués sont également plus tolérants aux pannes.
Ainsi, dans un futur potentiel, les modèles d’IA les plus puissants du monde seront formés de manière décentralisée.
C’est une perspective excitante, mais je ne suis pas encore entièrement convaincu. Nous avons besoin de preuves plus solides que la formation décentralisée des plus grands modèles est techniquement et économiquement viable.
Voici où je vois une promesse immense : le point fort de la formation décentralisée pourrait se situer dans des modèles plus petits, spécialisés et open source conçus pour des cas d’utilisation ciblés, plutôt que de rivaliser avec les modèles de pointe ultra-grands pilotés par l’AGI. Certaines architectures, en particulier les modèles non-transformateurs, prouvent déjà être un choix naturel pour les configurations décentralisées.
Et il y a une autre pièce à ce puzzle: les jetons. Une fois que la formation décentralisée devient faisable à grande échelle, les jetons pourraient jouer un rôle pivot dans l’incitation et la récompense des contributeurs, amorçant efficacement ces réseaux.
La route vers cette vision est longue, mais les progrès sont très encourageants. Les avancées dans la formation décentralisée bénéficieront à tous, même aux grandes entreprises technologiques et aux laboratoires de recherche en IA de premier plan, car l’échelle des modèles futurs dépassera la capacité d’un seul centre de données.
L’avenir est distribué. Et lorsque une technologie détient un tel potentiel large, l’histoire montre qu’elle s’améliore toujours plus rapidement que quiconque ne s’y attend.
En ce moment, la majorité de la puissance de calcul en IA est dirigée vers la formation de modèles massifs. Les meilleurs laboratoires d’IA sont engagés dans une course aux armements pour développer les meilleurs modèles fondamentaux et finalement atteindre l’AGI.
Mais voici mon point de vue : cette intense focalisation sur le calcul pour l’entraînement se déplacera vers l’inférence dans les années à venir. Alors que l’IA est de plus en plus intégrée dans les applications que nous utilisons quotidiennement - de la santé au divertissement - les ressources de calcul nécessaires pour soutenir l’inférence seront stupéfiantes.
Et ce n’est pas seulement de la spéculation. La mise à l’échelle du calcul du temps d’inférence est le dernier mot à la mode en IA. OpenAI a récemment publié une version d’aperçu/miniature de son dernier modèle, o1 (nom de code : Strawberry), et le grand changement ? Il prend le temps de réfléchir en se demandant d’abord quelles sont les étapes à suivre pour répondre à la question, puis passe en revue chacune de ces étapes.
Ce modèle est conçu pour des tâches plus complexes et lourdes de planification, comme résoudre des mots croiséset s’attaque à des problèmes qui nécessitent une réflexion plus poussée. Vous remarquerez qu’il est plus lent, prend plus de temps pour générer des réponses, mais les résultats sont beaucoup plus réfléchis et nuancés. Il est également beaucoup plus coûteux à exécuter (25 fois le coût de GPT-4)
Le changement de focus est clair : le prochain saut de performance en IA ne viendra pas seulement de l’entraînement de modèles plus importants, mais aussi de l’augmentation de l’utilisation de calcul lors de l’inférence.
Si vous voulez en savoir plus, plusieurs recherchesdocumentsdémontrer:
Une fois que les modèles puissants sont formés, leurs tâches d’inférence, où les modèles font des choses, peuvent être déchargées vers des réseaux de calcul décentralisés. Cela a tellement de sens car :
Pensez à l’inférence décentralisée comme un CDN (réseau de diffusion de contenu) pour l’IA : au lieu de livrer rapidement des sites web en se connectant à des serveurs proches, l’inférence décentralisée exploite la puissance de calcul locale pour fournir des réponses en IA en un temps record. En adoptant l’inférence décentralisée, les applications d’IA deviennent plus efficaces, réactives et fiables.
La tendance est claire. La nouvelle puce M4 Pro d’Applerivaux de NVIDIARTX 3070 Ti - un GPU qui, jusqu’à récemment, était le domaine des joueurs hardcore. Le matériel que nous avons déjà est de plus en plus capable de gérer des charges de travail AI avancées.
Pour que les réseaux d’inférence décentralisés réussissent, il doit y avoir des incitations économiques convaincantes pour la participation. Les nœuds du réseau doivent être rémunérés pour leurs contributions de calcul. Le système doit garantir une distribution équitable et efficace des récompenses. La diversité géographique est essentielle, réduisant la latence des tâches d’inférence et améliorant la tolérance aux pannes.
Et la meilleure façon de construire des réseaux décentralisés? Crypto.
Les jetons fournissent un mécanisme puissant pour aligner les intérêts des participants, en s’assurant que tout le monde travaille vers le même objectif : mettre à l’échelle le réseau et augmenter la valeur du jeton.
Les jetons stimulent également la croissance du réseau. Ils aident à résoudre le problème classique de l’œuf et de la poule qui freine la plupart des réseaux en récompensant les premiers adoptants et en favorisant la participation dès le premier jour.
Le succès de Bitcoin et d’Ethereum prouve ce point - ils ont déjà agrégé les plus grands pools de puissance de calcul sur la planète.
Les réseaux d’inférence décentralisés sont les prochains sur la liste. Avec une diversité géographique, ils réduisent la latence, améliorent la tolérance aux pannes et rapprochent l’IA de l’utilisateur. Et avec des incitations alimentées par la cryptographie, ils se développeront plus rapidement et mieux que les réseaux traditionnels ne pourraient jamais le faire.