Démystification des cadres d'IA : Des agents intelligents à l'exploration de la décentralisation

Intermédiaire1/16/2025, 6:03:33 AM
Cet article explore les tendances de développement et la logique d'investissement dans le domaine des agents d'IA, en mettant particulièrement l'accent sur l'analyse détaillée des projets basés sur des frameworks. Il présente les concepts de base et les fonctionnalités des cadres d'IA, et démontre leurs performances et leur potentiel dans différents scénarios d'application grâce à des études de cas spécifiques telles que Eliza, G.A.M.E, Rig et ZerePy. De plus, du point de vue technique, du marché et de l'investissement, l'article compare les similitudes entre les agents d'IA et l'écosystème BTC, explorant l'importance de l'intégration des agents d'IA sur la blockchain et les innovations potentielles que cela pourrait apporter à l'avenir.

Introduction

Dans les articles précédents, nous avons fréquemment discuté de nos points de vue sur l'état actuel des mèmes d'IA et du développement futur des agents d'IA. Cependant, le développement narratif rapide et l'évolution de la piste des agents d'IA ont été quelque peu accablants. En l'espace de deux mois seulement depuis le lancement de "Truth Terminal" et le début de l'Agent Summer, la narration de l'intégration de l'IA et de la Crypto a évolué presque chaque semaine. Récemment, l'attention du marché a commencé à se tourner vers les projets "cadres", principalement guidés par des narrations technologiques. Ce sous-domaine de niche a déjà produit plusieurs projets licornes avec une capitalisation boursière de plus d'un milliard de dollars au cours des dernières semaines. Ces projets ont également conduit à un nouveau paradigme d'émission d'actifs, où les projets émettent des jetons en fonction de leurs dépôts de code GitHub, et les agents construits sur ces cadres peuvent également émettre des jetons. Au cœur de cette structure, nous avons des cadres, avec des agents comme couche supérieure. Cela ressemble à une plateforme d'émission d'actifs, mais c'est en réalité un modèle infrastructural unique émergeant à l'ère de l'IA. Comment devrions-nous voir cette nouvelle tendance ? Cet article commencera par une introduction aux cadres et offrira une interprétation de ce que les cadres d'IA signifient pour la Crypto, combinant ces idées avec nos propres réflexions.

I. Qu'est-ce qu'un cadre?

Par définition, un framework d’IA est un outil ou une plateforme de développement sous-jacent qui intègre un ensemble de modules, de bibliothèques et d’outils prédéfinis pour simplifier le processus de création de modèles d’IA complexes. Ces frameworks incluent généralement également des fonctions de traitement des données, d’apprentissage des modèles et de prédiction. En termes simples, vous pouvez considérer un framework comme un système d’exploitation pour l’ère de l’IA, similaire aux systèmes d’exploitation de bureau comme Windows ou Linux, ou aux systèmes d’exploitation mobiles comme iOS et Android. Chaque framework a ses propres avantages et inconvénients, ce qui permet aux développeurs de choisir en fonction de leurs besoins spécifiques.

Bien que le terme "cadre d'IA" soit encore un concept relativement nouveau dans le domaine de la cryptographie, son développement remonte en réalité à près de 14 ans, commençant avec Theano en 2010. Dans la communauté traditionnelle de l'IA, tant le milieu universitaire que l'industrie ont déjà développé des cadres très matures parmi lesquels choisir, tels que TensorFlow de Google, PyTorch de Meta, PaddlePaddle de Baidu et MagicAnimate de ByteDance, chacun ayant ses avantages dans des scénarios différents.

Les projets de cadre d'IA émergents actuellement dans Crypto sont basés sur la demande d'un grand nombre d'Agents découlant du boom de l'IA, et ceux-ci se sont ensuite ramifiés dans d'autres pistes dans Crypto, formant finalement différents cadres d'IA pour des sous-domaines spécifiques. Explorons quelques-uns des cadres principaux actuels de l'industrie pour mieux illustrer ce point.

1.1 Eliza

Tout d'abord, considérons Eliza, un cadre créé par ai16z. Il s'agit d'un cadre de simulation multi-agents conçu pour créer, déployer et gérer des agents IA autonomes. Développé en utilisant TypeScript comme langage de programmation, son avantage réside dans une meilleure compatibilité et une intégration API plus facile. Selon la documentation officielle, Eliza est principalement conçu pour les médias sociaux, offrant une prise en charge des intégrations multiplateformes. Le cadre offre une intégration complète de Discord, prenant en charge les canaux vocaux, les comptes automatisés pour X/Twitter, l'intégration de Telegram et l'accès direct à l'API. En ce qui concerne le traitement du contenu multimédia, il prend en charge la lecture et l'analyse de documents PDF, l'extraction et la synthèse de liens, la transcription audio, le traitement de contenu vidéo, l'analyse d'images et les résumés de conversation.

Les cas d'utilisation pris en charge par Eliza comprennent actuellement les quatre catégories suivantes :

  1. Applications d'assistant AI : agents de support client, administrateurs de communauté, assistants personnels.
  2. Rôles des médias sociaux : créateurs de contenu automatisés, bots interactifs, représentants de marque.
  3. Travailleurs du savoir: assistants de recherche, analystes de contenu, traiteurs de documents.
  4. Rôles interactifs: personnages de jeu de rôle, tuteurs éducatifs, bots de divertissement.

Les modèles actuellement pris en charge par Eliza sont :

  1. Modèles d'inférence locale open-source : tels que Llama3, Qwen1.5, BERT.
  2. Inférence cloud via l'API OpenAI.
  3. Configuration par défaut en tant que Nous Hermes Llama 3.1B.
  4. Intégration avec Claude pour les requêtes complexes.

1.2 G.A.M.E

Le G.A.M.E (Generative Autonomous Multimodal Entities Framework) est un cadre d'IA multimodal pour la génération et la gestion automatiques, lancé par Virtual. Il est principalement conçu pour la conception intelligente de PNJ dans les jeux. Un aspect unique de ce cadre est qu'il permet même aux utilisateurs peu ou pas code de participer à la conception de l'Agent en modifiant simplement les paramètres via son interface d'essai.

En termes d'architecture de projet, G.A.M.E est construit sur une conception modulaire, où plusieurs sous-systèmes travaillent ensemble en collaboration. L'architecture détaillée est la suivante :

  1. Interface de guidage de l'agent : L'interface permet aux développeurs d'interagir avec le framework d'IA. Grâce à cette interface, les développeurs peuvent démarrer une session et spécifier des identifiants de session, d'agent, d'utilisateur et d'autres paramètres.
  2. Système de perception : Responsable de recevoir les informations d'entrée, de les synthétiser et de les envoyer au moteur de planification stratégique. Il gère également les réponses du module de traitement du dialogue.
  3. Moteur de planification stratégique : Le cœur de l'ensemble du cadre, divisé en planificateur de haut niveau et en politique de bas niveau. Le planificateur de haut niveau est responsable de la formulation des objectifs et des plans à long terme, tandis que la politique de bas niveau traduit ces plans en actions spécifiques.
  4. Contexte mondial: contient des informations environnementales, l'état du monde et des données d'état de jeu, aidant les agents à comprendre leur contexte actuel.
  5. Module de traitement des dialogues : gère les messages et les réponses, générant des dialogues ou des réactions en tant que sortie.
  6. Opérateur de portefeuille on-chain : Probablement lié aux applications de la technologie blockchain, bien que les fonctions spécifiques ne soient pas claires.
  7. Module d'apprentissage: Apprend des commentaires et met à jour la base de connaissances de l'agent.
  8. Mémoire de travail: Stocke les actions récentes, les résultats et les plans actuels, entre autres informations à court terme.
  9. Processeur de mémoire à long terme : extrait et classe les informations importantes sur l'agent et sa mémoire de travail en fonction de facteurs tels que l'importance, la récence et la pertinence.
  10. Agent Repository: Stocke les objectifs, les réflexions, les expériences et les caractéristiques de l'agent.
  11. Planificateur d'action: Génère des plans d'action spécifiques basés sur des stratégies de bas niveau.
  12. Planificateur d'exécution: Exécute les plans d'action générés par le planificateur d'action.

Workflow: Les développeurs lancent un Agent via l'interface de déclenchement de l'Agent, où le sous-système de perception reçoit l'entrée et l'envoie au moteur de planification stratégique. Le moteur, avec l'aide du système de mémoire, du contexte mondial et du référentiel d'agents, formule et exécute un plan d'action. Le module d'apprentissage surveille les actions de l'agent et ajuste son comportement en conséquence.

Scénarios d'application: De l'architecture technique globale, ce cadre se concentre sur la prise de décision, la rétroaction, la perception et la personnalité des Agents dans les environnements virtuels. En plus des jeux, ce cadre est également applicable au Metaverse. La liste ci-dessous de Virtual montre que de nombreux projets ont déjà adopté ce cadre pour la construction.

1.3 Rig

Rig est un outil open source écrit en Rust, spécifiquement conçu pour simplifier le développement d'applications de grands modèles de langage (LLM). Il fournit une interface unifiée qui permet aux développeurs d'interagir facilement avec plusieurs fournisseurs de services LLM (comme OpenAI et Anthropic) et diverses bases de données vectorielles (comme MongoDB et Neo4j).

Fonctionnalités clés:

  • Interface unifiée : Indépendamment du fournisseur de LLM ou du stockage de vecteur utilisé, Rig offre une méthode d'accès cohérente, réduisant considérablement la complexité du travail d'intégration.
  • Architecture modulaire : Le cadre utilise une conception modulaire, qui comprend des composants clés tels que la "Couche d'abstraction du fournisseur", l'"Interface de stockage de vecteurs" et le "Système d'agent intelligent", garantissant la flexibilité et la scalabilité du système.
  • Type Safety: En exploitant les fonctionnalités de Rust, Rig réalise des opérations d'incorporation sûres sur le plan des types, garantissant la qualité du code et la sécurité d'exécution.
  • Hautes performances : Le système prend en charge la programmation asynchrone, optimisant les capacités de traitement en parallèle. Les fonctionnalités de journalisation et de surveillance intégrées facilitent la maintenance et le dépannage.

Workflow : Lorsqu'un utilisateur entre dans le système Rig, la requête passe d'abord par la "Couche d'Abstraction du Fournisseur", qui standardise les différences entre les différents fournisseurs et garantit une gestion cohérente des erreurs. Dans la couche centrale, les agents intelligents peuvent appeler différents outils ou interroger le stockage vectoriel pour récupérer les informations nécessaires. Enfin, des mécanismes avancés tels que le Retrieval-Augmented Generation (RAG) combinent la recherche de documents et la compréhension contextuelle pour générer des réponses précises et significatives avant de les renvoyer à l'utilisateur.

Utilisations : Rig est adapté à la construction de systèmes nécessitant des réponses rapides et précises aux questions, à la création d'outils de recherche de documents efficaces, au développement de chatbots ou d'assistants virtuels conscients du contexte, et même à la prise en charge de la création de contenu en générant automatiquement du texte ou d'autres formes de contenu en fonction des modèles de données existants.

1.4 ZerePy

ZerePy est un framework open-source basé sur Python conçu pour simplifier le déploiement et la gestion d'agents d'IA sur la plateforme X (anciennement Twitter). Il a évolué à partir du projet Zerebro et a hérité de ses fonctionnalités de base, mais a été conçu de manière plus modulaire et évolutive. L'objectif est de permettre aux développeurs de créer facilement des agents d'IA personnalisés et de mettre en œuvre diverses tâches d'automatisation et de création de contenu sur X.

ZerePy fournit une interface en ligne de commande (CLI), ce qui permet aux utilisateurs de gérer et de contrôler commodément les agents d'IA qu'ils déploient. Son architecture de base est modulaire, permettant aux développeurs d'intégrer de manière flexible différents modules fonctionnels, tels que :

  • Intégration LLM : ZerePy prend en charge les grands modèles linguistiques (LLM) d'OpenAI et d'Anthropic, permettant aux développeurs de sélectionner le modèle le mieux adapté à leur application. Cela permet aux agents de générer un contenu textuel de haute qualité.
  • Intégration de la plateforme X : Le cadre s'intègre directement à l'API de X, permettant aux agents d'effectuer des tâches telles que la publication, la réponse, les likes et les retweets.
  • Système de connexion modulaire: Ce système permet aux développeurs d'ajouter facilement le support d'autres plateformes sociales ou services, étendant ainsi la fonctionnalité du framework.
  • Système de mémoire (plans futurs): Bien qu'il ne soit pas entièrement implémenté dans la version actuelle, l'objectif de conception de ZerePy consiste à intégrer un système de mémoire qui permettrait aux agents de se souvenir des interactions précédentes et des informations contextuelles pour générer un contenu plus cohérent et personnalisé.

Bien que ZerePy et le projet Eliza d'a16z visent tous deux à construire et à gérer des agents d'IA, ils diffèrent par leur architecture et leur orientation. Eliza est plus orientée vers les simulations multi-agents et la recherche en IA plus large, tandis que ZerePy se concentre sur la simplification du déploiement d'agents d'IA sur des plates-formes sociales spécifiques (X), ce qui le rend plus axé sur les applications.

II. Une réplique de l'écosystème BTC

En termes de trajectoire de développement, les agents d'IA partagent de nombreuses similitudes avec l'écosystème BTC de la fin de 2023 au début de 2024. La trajectoire de développement de l'écosystème BTC peut être simplement résumée comme suit : la concurrence multi-protocole BRC20-Atomical/Rune et d'autres — BTC L2 — BTCFi centré autour de Babylone. Alors que les agents d'IA se sont développés plus rapidement sur la base de piles technologiques d'IA traditionnelles matures, leur trajectoire de développement globale reflète celle de l'écosystème BTC à plusieurs égards. Je la résumerais comme suit : GOAT/ACT — Agents de type social — Concurrence de cadres d'agents d'IA analytiques. D'un point de vue tendanciel, les projets d'infrastructure axés sur la décentralisation et la sécurité autour des agents porteront probablement également cette vague de cadre, devenant le prochain thème dominant.

Alors, est-ce que cette voie, comme l'écosystème BTC, mènera à l'homogénéisation et à la formation de bulles ? Je ne le pense pas. Tout d'abord, le récit des agents d'IA ne vise pas à recréer l'histoire des chaînes de contrats intelligents. Deuxièmement, que ces projets existants de cadres d'IA soient techniquement solides ou qu'ils soient encore bloqués dans la phase de PPT ou simplement en Ctrl+C et Ctrl+V, au moins ils offrent une nouvelle approche de développement de l'infrastructure. De nombreux articles ont comparé les cadres d'IA aux plateformes d'émission d'actifs et les agents aux actifs. Cependant, par rapport aux plateformes de lancement de Memecoin et aux protocoles d'inscription, je pense personnellement que les cadres d'IA ressemblent davantage aux futures chaînes publiques, tandis que les agents ressemblent aux futures DApps.

Dans l'espace Crypto d'aujourd'hui, nous avons des milliers de chaînes publiques et des dizaines de milliers de DApps. Dans le domaine des chaînes à usage général, nous avons BTC, Ethereum et diverses chaînes hétérogènes, tandis que les formes de chaînes d'application sont plus diverses, comme les chaînes de jeu, les chaînes de stockage et les chaînes Dex. Les chaînes publiques et les cadres d'IA sont assez similaires par nature, et les DApps peuvent bien correspondre aux agents.

À l’ère de la crypto dans l’IA, il est fort probable que l’espace évolue dans cette direction, les débats futurs passant de l’EVM aux chaînes hétérogènes aux débats sur le cadre. La question actuelle est davantage celle de la décentralisation, ou de la manière de la « chaîner ». Je pense que les futurs projets d’infrastructure d’IA se développeront autour de cette base. Un autre point important est le suivant : quelle est l’importance de faire cela sur la blockchain ?

III. La Signification de On-Chain

Peu importe avec quoi la blockchain se combine, elle est finalement confrontée à une question cruciale : est-ce significatif ? Dans l'article de l'année dernière, j'ai critiqué le GameFi pour ses priorités mal placées, où le développement de l'infrastructure était excessivement avancé, et dans des articles précédents sur l'IA, j'ai exprimé un scepticisme quant à la praticité actuelle de combiner l'IA avec la Crypto. Après tout, la force motrice de la narration pour les projets traditionnels s'est progressivement affaiblie. Les quelques projets traditionnels qui se sont bien comportés l'année dernière en termes de prix des jetons étaient généralement ceux qui pouvaient égaler ou dépasser la force du prix.

Que peut faire l'IA pour la cryptographie? Auparavant, je pensais à des cas d'utilisation tels que des agents d'IA effectuant des tâches au nom des utilisateurs, des métavers, et des agents en tant qu'employés - des idées relativement banales mais avec certaines exigences. Cependant, ces exigences n'exigent pas d'être entièrement sur la chaîne, et du point de vue de la logique commerciale, elles ne peuvent pas former une boucle fermée. Le navigateur d'agents mentionné dans le dernier article, qui met en œuvre des intentions, pourrait générer des demandes d'étiquetage des données et de puissance de calcul d'inférence, mais ces deux éléments ne sont toujours pas étroitement intégrés et, en termes de puissance de calcul, le calcul centralisé conserve toujours l'avantage.

En revenant sur le succès de DeFi, la raison pour laquelle DeFi a réussi à se tailler une part de la finance traditionnelle est qu'il offre une plus grande accessibilité, une meilleure efficacité, des coûts plus bas et une sécurité sans confiance. Si nous considérons ce cadre, je pense qu'il peut y avoir plusieurs raisons pour lesquelles l'« enchaînement » des agents pourrait avoir du sens :

  1. Réduction des coûts: La chaînisation des agents peut-elle réduire les coûts d'utilisation, permettant ainsi une plus grande accessibilité et plus de choix pour les utilisateurs? Cela pourrait finalement permettre aux utilisateurs ordinaires de participer à ce qui a traditionnellement été le domaine exclusif des géants de la technologie Web2 en matière de «location» d'IA.
  2. Sécurité : Selon la définition la plus simple, un agent est une IA qui peut interagir avec le monde virtuel ou réel. Si un agent peut intervenir dans le monde réel ou même dans mon portefeuille virtuel, alors des solutions de sécurité basées sur la blockchain pourraient devenir une nécessité.
  3. Jeu financier spécifique à la blockchain : les agents peuvent-ils créer un ensemble unique de mécanismes financiers sur la blockchain ? Par exemple, dans AMM (Automated Market Maker), les fournisseurs de liquidités (LP) permettent aux utilisateurs ordinaires de participer à la création automatisée de marché. De même, si les agents ont besoin de puissance de calcul ou d'étiquetage de données, les utilisateurs pourraient investir dans ces protocoles sous forme de USDT, en fonction de leur confiance dans le système. Ou, les agents dans différents scénarios d'application pourraient former de nouvelles structures financières.
  4. Interopérabilité DeFi : Bien que DeFi manque actuellement d'interopérabilité parfaite, les agents pourraient être en mesure de résoudre ce problème en permettant des processus de raisonnement transparents et traçables, comblant ainsi les lacunes.

IV. Créativité?

Les projets de framework à l'avenir offriront également des opportunités entrepreneuriales similaires à celles de la GPT Store. Bien que le lancement d'un agent via un framework soit encore complexe pour les utilisateurs ordinaires, je pense que simplifier le processus de construction de l'agent et fournir des combinaisons de fonctions plus complexes donnera à ces frameworks un avantage concurrentiel à l'avenir. Cela pourrait conduire à la création d'une économie créative Web3 bien plus intéressante que la GPT Store.

À l'heure actuelle, la boutique GPT est encore plus axée sur les utilisations pratiques traditionnelles, la plupart des applications populaires étant créées par des entreprises Web2 traditionnelles. De plus, les revenus générés sont largement monopolisés par les créateurs. Selon l'explication officielle d'OpenAI, la stratégie consiste simplement à fournir un soutien financier aux développeurs exceptionnels aux États-Unis, offrant des subventions jusqu'à un certain montant.

D'un point de vue de la demande, Web3 a encore de nombreuses lacunes à combler, et d'un point de vue du système économique, il peut rendre les politiques injustes des géants du Web2 plus équitables. De plus, nous pouvons naturellement introduire des économies communautaires pour améliorer davantage les agents. L'économie créative autour des agents offrira aux gens ordinaires une opportunité de participer. À l'avenir, les memes IA seront bien plus intelligents et intéressants que les agents émis par GOAT ou Clanker.

À propos de YBB

YBB est un fonds Web3 qui se consacre à identifier les projets définissant Web3 avec pour vision de créer un meilleur habitat en ligne pour tous les résidents d'Internet. Fondé par un groupe de croyants en la blockchain qui ont participé activement à cette industrie depuis 2013, YBB est toujours prêt à aider les projets de stade précoce à évoluer de 0 à 1. Nous valorisons l'innovation, la passion autonome et les produits orientés utilisateur tout en reconnaissant le potentiel des cryptos et des applications blockchain.

Site Web | Twi: @YBBCapital

Avertissement:

  1. Cet article est repris de [ YBB Capital]. Tous les droits d'auteur appartiennent à l'auteur original [Chercheur en capital YBB Zeke]. S'il y a des objections à cette reproduction, veuillez contacter le Porte Apprendrel'équipe, et ils s'en occuperont rapidement.
  2. Clause de non-responsabilité : Les points de vue et opinions exprimés dans cet article sont uniquement ceux de l'auteur et ne constituent pas un conseil en investissement.
  3. L'équipe de Learn gate a traduit l'article dans d'autres langues. Copier, distribuer ou plagier les articles traduits est interdit sauf mention contraire.

Démystification des cadres d'IA : Des agents intelligents à l'exploration de la décentralisation

Intermédiaire1/16/2025, 6:03:33 AM
Cet article explore les tendances de développement et la logique d'investissement dans le domaine des agents d'IA, en mettant particulièrement l'accent sur l'analyse détaillée des projets basés sur des frameworks. Il présente les concepts de base et les fonctionnalités des cadres d'IA, et démontre leurs performances et leur potentiel dans différents scénarios d'application grâce à des études de cas spécifiques telles que Eliza, G.A.M.E, Rig et ZerePy. De plus, du point de vue technique, du marché et de l'investissement, l'article compare les similitudes entre les agents d'IA et l'écosystème BTC, explorant l'importance de l'intégration des agents d'IA sur la blockchain et les innovations potentielles que cela pourrait apporter à l'avenir.

Introduction

Dans les articles précédents, nous avons fréquemment discuté de nos points de vue sur l'état actuel des mèmes d'IA et du développement futur des agents d'IA. Cependant, le développement narratif rapide et l'évolution de la piste des agents d'IA ont été quelque peu accablants. En l'espace de deux mois seulement depuis le lancement de "Truth Terminal" et le début de l'Agent Summer, la narration de l'intégration de l'IA et de la Crypto a évolué presque chaque semaine. Récemment, l'attention du marché a commencé à se tourner vers les projets "cadres", principalement guidés par des narrations technologiques. Ce sous-domaine de niche a déjà produit plusieurs projets licornes avec une capitalisation boursière de plus d'un milliard de dollars au cours des dernières semaines. Ces projets ont également conduit à un nouveau paradigme d'émission d'actifs, où les projets émettent des jetons en fonction de leurs dépôts de code GitHub, et les agents construits sur ces cadres peuvent également émettre des jetons. Au cœur de cette structure, nous avons des cadres, avec des agents comme couche supérieure. Cela ressemble à une plateforme d'émission d'actifs, mais c'est en réalité un modèle infrastructural unique émergeant à l'ère de l'IA. Comment devrions-nous voir cette nouvelle tendance ? Cet article commencera par une introduction aux cadres et offrira une interprétation de ce que les cadres d'IA signifient pour la Crypto, combinant ces idées avec nos propres réflexions.

I. Qu'est-ce qu'un cadre?

Par définition, un framework d’IA est un outil ou une plateforme de développement sous-jacent qui intègre un ensemble de modules, de bibliothèques et d’outils prédéfinis pour simplifier le processus de création de modèles d’IA complexes. Ces frameworks incluent généralement également des fonctions de traitement des données, d’apprentissage des modèles et de prédiction. En termes simples, vous pouvez considérer un framework comme un système d’exploitation pour l’ère de l’IA, similaire aux systèmes d’exploitation de bureau comme Windows ou Linux, ou aux systèmes d’exploitation mobiles comme iOS et Android. Chaque framework a ses propres avantages et inconvénients, ce qui permet aux développeurs de choisir en fonction de leurs besoins spécifiques.

Bien que le terme "cadre d'IA" soit encore un concept relativement nouveau dans le domaine de la cryptographie, son développement remonte en réalité à près de 14 ans, commençant avec Theano en 2010. Dans la communauté traditionnelle de l'IA, tant le milieu universitaire que l'industrie ont déjà développé des cadres très matures parmi lesquels choisir, tels que TensorFlow de Google, PyTorch de Meta, PaddlePaddle de Baidu et MagicAnimate de ByteDance, chacun ayant ses avantages dans des scénarios différents.

Les projets de cadre d'IA émergents actuellement dans Crypto sont basés sur la demande d'un grand nombre d'Agents découlant du boom de l'IA, et ceux-ci se sont ensuite ramifiés dans d'autres pistes dans Crypto, formant finalement différents cadres d'IA pour des sous-domaines spécifiques. Explorons quelques-uns des cadres principaux actuels de l'industrie pour mieux illustrer ce point.

1.1 Eliza

Tout d'abord, considérons Eliza, un cadre créé par ai16z. Il s'agit d'un cadre de simulation multi-agents conçu pour créer, déployer et gérer des agents IA autonomes. Développé en utilisant TypeScript comme langage de programmation, son avantage réside dans une meilleure compatibilité et une intégration API plus facile. Selon la documentation officielle, Eliza est principalement conçu pour les médias sociaux, offrant une prise en charge des intégrations multiplateformes. Le cadre offre une intégration complète de Discord, prenant en charge les canaux vocaux, les comptes automatisés pour X/Twitter, l'intégration de Telegram et l'accès direct à l'API. En ce qui concerne le traitement du contenu multimédia, il prend en charge la lecture et l'analyse de documents PDF, l'extraction et la synthèse de liens, la transcription audio, le traitement de contenu vidéo, l'analyse d'images et les résumés de conversation.

Les cas d'utilisation pris en charge par Eliza comprennent actuellement les quatre catégories suivantes :

  1. Applications d'assistant AI : agents de support client, administrateurs de communauté, assistants personnels.
  2. Rôles des médias sociaux : créateurs de contenu automatisés, bots interactifs, représentants de marque.
  3. Travailleurs du savoir: assistants de recherche, analystes de contenu, traiteurs de documents.
  4. Rôles interactifs: personnages de jeu de rôle, tuteurs éducatifs, bots de divertissement.

Les modèles actuellement pris en charge par Eliza sont :

  1. Modèles d'inférence locale open-source : tels que Llama3, Qwen1.5, BERT.
  2. Inférence cloud via l'API OpenAI.
  3. Configuration par défaut en tant que Nous Hermes Llama 3.1B.
  4. Intégration avec Claude pour les requêtes complexes.

1.2 G.A.M.E

Le G.A.M.E (Generative Autonomous Multimodal Entities Framework) est un cadre d'IA multimodal pour la génération et la gestion automatiques, lancé par Virtual. Il est principalement conçu pour la conception intelligente de PNJ dans les jeux. Un aspect unique de ce cadre est qu'il permet même aux utilisateurs peu ou pas code de participer à la conception de l'Agent en modifiant simplement les paramètres via son interface d'essai.

En termes d'architecture de projet, G.A.M.E est construit sur une conception modulaire, où plusieurs sous-systèmes travaillent ensemble en collaboration. L'architecture détaillée est la suivante :

  1. Interface de guidage de l'agent : L'interface permet aux développeurs d'interagir avec le framework d'IA. Grâce à cette interface, les développeurs peuvent démarrer une session et spécifier des identifiants de session, d'agent, d'utilisateur et d'autres paramètres.
  2. Système de perception : Responsable de recevoir les informations d'entrée, de les synthétiser et de les envoyer au moteur de planification stratégique. Il gère également les réponses du module de traitement du dialogue.
  3. Moteur de planification stratégique : Le cœur de l'ensemble du cadre, divisé en planificateur de haut niveau et en politique de bas niveau. Le planificateur de haut niveau est responsable de la formulation des objectifs et des plans à long terme, tandis que la politique de bas niveau traduit ces plans en actions spécifiques.
  4. Contexte mondial: contient des informations environnementales, l'état du monde et des données d'état de jeu, aidant les agents à comprendre leur contexte actuel.
  5. Module de traitement des dialogues : gère les messages et les réponses, générant des dialogues ou des réactions en tant que sortie.
  6. Opérateur de portefeuille on-chain : Probablement lié aux applications de la technologie blockchain, bien que les fonctions spécifiques ne soient pas claires.
  7. Module d'apprentissage: Apprend des commentaires et met à jour la base de connaissances de l'agent.
  8. Mémoire de travail: Stocke les actions récentes, les résultats et les plans actuels, entre autres informations à court terme.
  9. Processeur de mémoire à long terme : extrait et classe les informations importantes sur l'agent et sa mémoire de travail en fonction de facteurs tels que l'importance, la récence et la pertinence.
  10. Agent Repository: Stocke les objectifs, les réflexions, les expériences et les caractéristiques de l'agent.
  11. Planificateur d'action: Génère des plans d'action spécifiques basés sur des stratégies de bas niveau.
  12. Planificateur d'exécution: Exécute les plans d'action générés par le planificateur d'action.

Workflow: Les développeurs lancent un Agent via l'interface de déclenchement de l'Agent, où le sous-système de perception reçoit l'entrée et l'envoie au moteur de planification stratégique. Le moteur, avec l'aide du système de mémoire, du contexte mondial et du référentiel d'agents, formule et exécute un plan d'action. Le module d'apprentissage surveille les actions de l'agent et ajuste son comportement en conséquence.

Scénarios d'application: De l'architecture technique globale, ce cadre se concentre sur la prise de décision, la rétroaction, la perception et la personnalité des Agents dans les environnements virtuels. En plus des jeux, ce cadre est également applicable au Metaverse. La liste ci-dessous de Virtual montre que de nombreux projets ont déjà adopté ce cadre pour la construction.

1.3 Rig

Rig est un outil open source écrit en Rust, spécifiquement conçu pour simplifier le développement d'applications de grands modèles de langage (LLM). Il fournit une interface unifiée qui permet aux développeurs d'interagir facilement avec plusieurs fournisseurs de services LLM (comme OpenAI et Anthropic) et diverses bases de données vectorielles (comme MongoDB et Neo4j).

Fonctionnalités clés:

  • Interface unifiée : Indépendamment du fournisseur de LLM ou du stockage de vecteur utilisé, Rig offre une méthode d'accès cohérente, réduisant considérablement la complexité du travail d'intégration.
  • Architecture modulaire : Le cadre utilise une conception modulaire, qui comprend des composants clés tels que la "Couche d'abstraction du fournisseur", l'"Interface de stockage de vecteurs" et le "Système d'agent intelligent", garantissant la flexibilité et la scalabilité du système.
  • Type Safety: En exploitant les fonctionnalités de Rust, Rig réalise des opérations d'incorporation sûres sur le plan des types, garantissant la qualité du code et la sécurité d'exécution.
  • Hautes performances : Le système prend en charge la programmation asynchrone, optimisant les capacités de traitement en parallèle. Les fonctionnalités de journalisation et de surveillance intégrées facilitent la maintenance et le dépannage.

Workflow : Lorsqu'un utilisateur entre dans le système Rig, la requête passe d'abord par la "Couche d'Abstraction du Fournisseur", qui standardise les différences entre les différents fournisseurs et garantit une gestion cohérente des erreurs. Dans la couche centrale, les agents intelligents peuvent appeler différents outils ou interroger le stockage vectoriel pour récupérer les informations nécessaires. Enfin, des mécanismes avancés tels que le Retrieval-Augmented Generation (RAG) combinent la recherche de documents et la compréhension contextuelle pour générer des réponses précises et significatives avant de les renvoyer à l'utilisateur.

Utilisations : Rig est adapté à la construction de systèmes nécessitant des réponses rapides et précises aux questions, à la création d'outils de recherche de documents efficaces, au développement de chatbots ou d'assistants virtuels conscients du contexte, et même à la prise en charge de la création de contenu en générant automatiquement du texte ou d'autres formes de contenu en fonction des modèles de données existants.

1.4 ZerePy

ZerePy est un framework open-source basé sur Python conçu pour simplifier le déploiement et la gestion d'agents d'IA sur la plateforme X (anciennement Twitter). Il a évolué à partir du projet Zerebro et a hérité de ses fonctionnalités de base, mais a été conçu de manière plus modulaire et évolutive. L'objectif est de permettre aux développeurs de créer facilement des agents d'IA personnalisés et de mettre en œuvre diverses tâches d'automatisation et de création de contenu sur X.

ZerePy fournit une interface en ligne de commande (CLI), ce qui permet aux utilisateurs de gérer et de contrôler commodément les agents d'IA qu'ils déploient. Son architecture de base est modulaire, permettant aux développeurs d'intégrer de manière flexible différents modules fonctionnels, tels que :

  • Intégration LLM : ZerePy prend en charge les grands modèles linguistiques (LLM) d'OpenAI et d'Anthropic, permettant aux développeurs de sélectionner le modèle le mieux adapté à leur application. Cela permet aux agents de générer un contenu textuel de haute qualité.
  • Intégration de la plateforme X : Le cadre s'intègre directement à l'API de X, permettant aux agents d'effectuer des tâches telles que la publication, la réponse, les likes et les retweets.
  • Système de connexion modulaire: Ce système permet aux développeurs d'ajouter facilement le support d'autres plateformes sociales ou services, étendant ainsi la fonctionnalité du framework.
  • Système de mémoire (plans futurs): Bien qu'il ne soit pas entièrement implémenté dans la version actuelle, l'objectif de conception de ZerePy consiste à intégrer un système de mémoire qui permettrait aux agents de se souvenir des interactions précédentes et des informations contextuelles pour générer un contenu plus cohérent et personnalisé.

Bien que ZerePy et le projet Eliza d'a16z visent tous deux à construire et à gérer des agents d'IA, ils diffèrent par leur architecture et leur orientation. Eliza est plus orientée vers les simulations multi-agents et la recherche en IA plus large, tandis que ZerePy se concentre sur la simplification du déploiement d'agents d'IA sur des plates-formes sociales spécifiques (X), ce qui le rend plus axé sur les applications.

II. Une réplique de l'écosystème BTC

En termes de trajectoire de développement, les agents d'IA partagent de nombreuses similitudes avec l'écosystème BTC de la fin de 2023 au début de 2024. La trajectoire de développement de l'écosystème BTC peut être simplement résumée comme suit : la concurrence multi-protocole BRC20-Atomical/Rune et d'autres — BTC L2 — BTCFi centré autour de Babylone. Alors que les agents d'IA se sont développés plus rapidement sur la base de piles technologiques d'IA traditionnelles matures, leur trajectoire de développement globale reflète celle de l'écosystème BTC à plusieurs égards. Je la résumerais comme suit : GOAT/ACT — Agents de type social — Concurrence de cadres d'agents d'IA analytiques. D'un point de vue tendanciel, les projets d'infrastructure axés sur la décentralisation et la sécurité autour des agents porteront probablement également cette vague de cadre, devenant le prochain thème dominant.

Alors, est-ce que cette voie, comme l'écosystème BTC, mènera à l'homogénéisation et à la formation de bulles ? Je ne le pense pas. Tout d'abord, le récit des agents d'IA ne vise pas à recréer l'histoire des chaînes de contrats intelligents. Deuxièmement, que ces projets existants de cadres d'IA soient techniquement solides ou qu'ils soient encore bloqués dans la phase de PPT ou simplement en Ctrl+C et Ctrl+V, au moins ils offrent une nouvelle approche de développement de l'infrastructure. De nombreux articles ont comparé les cadres d'IA aux plateformes d'émission d'actifs et les agents aux actifs. Cependant, par rapport aux plateformes de lancement de Memecoin et aux protocoles d'inscription, je pense personnellement que les cadres d'IA ressemblent davantage aux futures chaînes publiques, tandis que les agents ressemblent aux futures DApps.

Dans l'espace Crypto d'aujourd'hui, nous avons des milliers de chaînes publiques et des dizaines de milliers de DApps. Dans le domaine des chaînes à usage général, nous avons BTC, Ethereum et diverses chaînes hétérogènes, tandis que les formes de chaînes d'application sont plus diverses, comme les chaînes de jeu, les chaînes de stockage et les chaînes Dex. Les chaînes publiques et les cadres d'IA sont assez similaires par nature, et les DApps peuvent bien correspondre aux agents.

À l’ère de la crypto dans l’IA, il est fort probable que l’espace évolue dans cette direction, les débats futurs passant de l’EVM aux chaînes hétérogènes aux débats sur le cadre. La question actuelle est davantage celle de la décentralisation, ou de la manière de la « chaîner ». Je pense que les futurs projets d’infrastructure d’IA se développeront autour de cette base. Un autre point important est le suivant : quelle est l’importance de faire cela sur la blockchain ?

III. La Signification de On-Chain

Peu importe avec quoi la blockchain se combine, elle est finalement confrontée à une question cruciale : est-ce significatif ? Dans l'article de l'année dernière, j'ai critiqué le GameFi pour ses priorités mal placées, où le développement de l'infrastructure était excessivement avancé, et dans des articles précédents sur l'IA, j'ai exprimé un scepticisme quant à la praticité actuelle de combiner l'IA avec la Crypto. Après tout, la force motrice de la narration pour les projets traditionnels s'est progressivement affaiblie. Les quelques projets traditionnels qui se sont bien comportés l'année dernière en termes de prix des jetons étaient généralement ceux qui pouvaient égaler ou dépasser la force du prix.

Que peut faire l'IA pour la cryptographie? Auparavant, je pensais à des cas d'utilisation tels que des agents d'IA effectuant des tâches au nom des utilisateurs, des métavers, et des agents en tant qu'employés - des idées relativement banales mais avec certaines exigences. Cependant, ces exigences n'exigent pas d'être entièrement sur la chaîne, et du point de vue de la logique commerciale, elles ne peuvent pas former une boucle fermée. Le navigateur d'agents mentionné dans le dernier article, qui met en œuvre des intentions, pourrait générer des demandes d'étiquetage des données et de puissance de calcul d'inférence, mais ces deux éléments ne sont toujours pas étroitement intégrés et, en termes de puissance de calcul, le calcul centralisé conserve toujours l'avantage.

En revenant sur le succès de DeFi, la raison pour laquelle DeFi a réussi à se tailler une part de la finance traditionnelle est qu'il offre une plus grande accessibilité, une meilleure efficacité, des coûts plus bas et une sécurité sans confiance. Si nous considérons ce cadre, je pense qu'il peut y avoir plusieurs raisons pour lesquelles l'« enchaînement » des agents pourrait avoir du sens :

  1. Réduction des coûts: La chaînisation des agents peut-elle réduire les coûts d'utilisation, permettant ainsi une plus grande accessibilité et plus de choix pour les utilisateurs? Cela pourrait finalement permettre aux utilisateurs ordinaires de participer à ce qui a traditionnellement été le domaine exclusif des géants de la technologie Web2 en matière de «location» d'IA.
  2. Sécurité : Selon la définition la plus simple, un agent est une IA qui peut interagir avec le monde virtuel ou réel. Si un agent peut intervenir dans le monde réel ou même dans mon portefeuille virtuel, alors des solutions de sécurité basées sur la blockchain pourraient devenir une nécessité.
  3. Jeu financier spécifique à la blockchain : les agents peuvent-ils créer un ensemble unique de mécanismes financiers sur la blockchain ? Par exemple, dans AMM (Automated Market Maker), les fournisseurs de liquidités (LP) permettent aux utilisateurs ordinaires de participer à la création automatisée de marché. De même, si les agents ont besoin de puissance de calcul ou d'étiquetage de données, les utilisateurs pourraient investir dans ces protocoles sous forme de USDT, en fonction de leur confiance dans le système. Ou, les agents dans différents scénarios d'application pourraient former de nouvelles structures financières.
  4. Interopérabilité DeFi : Bien que DeFi manque actuellement d'interopérabilité parfaite, les agents pourraient être en mesure de résoudre ce problème en permettant des processus de raisonnement transparents et traçables, comblant ainsi les lacunes.

IV. Créativité?

Les projets de framework à l'avenir offriront également des opportunités entrepreneuriales similaires à celles de la GPT Store. Bien que le lancement d'un agent via un framework soit encore complexe pour les utilisateurs ordinaires, je pense que simplifier le processus de construction de l'agent et fournir des combinaisons de fonctions plus complexes donnera à ces frameworks un avantage concurrentiel à l'avenir. Cela pourrait conduire à la création d'une économie créative Web3 bien plus intéressante que la GPT Store.

À l'heure actuelle, la boutique GPT est encore plus axée sur les utilisations pratiques traditionnelles, la plupart des applications populaires étant créées par des entreprises Web2 traditionnelles. De plus, les revenus générés sont largement monopolisés par les créateurs. Selon l'explication officielle d'OpenAI, la stratégie consiste simplement à fournir un soutien financier aux développeurs exceptionnels aux États-Unis, offrant des subventions jusqu'à un certain montant.

D'un point de vue de la demande, Web3 a encore de nombreuses lacunes à combler, et d'un point de vue du système économique, il peut rendre les politiques injustes des géants du Web2 plus équitables. De plus, nous pouvons naturellement introduire des économies communautaires pour améliorer davantage les agents. L'économie créative autour des agents offrira aux gens ordinaires une opportunité de participer. À l'avenir, les memes IA seront bien plus intelligents et intéressants que les agents émis par GOAT ou Clanker.

À propos de YBB

YBB est un fonds Web3 qui se consacre à identifier les projets définissant Web3 avec pour vision de créer un meilleur habitat en ligne pour tous les résidents d'Internet. Fondé par un groupe de croyants en la blockchain qui ont participé activement à cette industrie depuis 2013, YBB est toujours prêt à aider les projets de stade précoce à évoluer de 0 à 1. Nous valorisons l'innovation, la passion autonome et les produits orientés utilisateur tout en reconnaissant le potentiel des cryptos et des applications blockchain.

Site Web | Twi: @YBBCapital

Avertissement:

  1. Cet article est repris de [ YBB Capital]. Tous les droits d'auteur appartiennent à l'auteur original [Chercheur en capital YBB Zeke]. S'il y a des objections à cette reproduction, veuillez contacter le Porte Apprendrel'équipe, et ils s'en occuperont rapidement.
  2. Clause de non-responsabilité : Les points de vue et opinions exprimés dans cet article sont uniquement ceux de l'auteur et ne constituent pas un conseil en investissement.
  3. L'équipe de Learn gate a traduit l'article dans d'autres langues. Copier, distribuer ou plagier les articles traduits est interdit sauf mention contraire.
Comece agora
Registe-se e ganhe um cupão de
100 USD
!