Anthropic a créé une IA « trop dangereuse » et a décidé de ne pas la publier

Qu’est-ce que c’est, vraiment : une conscience de sécurité authentique, ou une stratégie de marketing de compétences soigneusement orchestrée ?

Auteur : Deep Tide TechFlow

Le 7 avril, Anthropic a fait une chose que l’industrie de l’IA n’avait jamais vue : elle a publié officiellement un modèle, puis a dit au monde entier que vous ne pouvez pas l’utiliser.

Ce modèle s’appelle Claude Mythos Preview. Ce n’est pas un chatbot, ni un assistant pour écrire du code. Selon les propres termes d’Anthropic, c’est une « machine de découverte de vulnérabilités », qui, au cours des quelques semaines passées, a trouvé de façon autonome des milliers de vulnérabilités zero-day, couvrant tous les systèmes d’exploitation majeurs et tous les navigateurs majeurs. Certaines de ces vulnérabilités avaient déjà survécu pendant plus de vingt ans aux revues de code effectuées par des humains et aux tests automatisés.

Le bug le plus ancien, dissimulé dans l’OpenBSD réputé pour sa sécurité, a déjà 27 ans.

Anthropic n’a pas mis Mythos sur API, et ne l’a pas non plus ouvert aux utilisateurs ordinaires. Elle a choisi une voie inédite : constituer une alliance de géants de la tech appelée « Project Glasswing », et ne fournir le modèle qu’à 12 partenaires clés, dont Amazon, Apple, Microsoft, Google, NVIDIA, CrowdStrike et Palo Alto Networks, ainsi qu’à environ 40 organisations chargées de maintenir des infrastructures critiques. Pour cela, Anthropic s’est engagée à offrir jusqu’à 100 millions de dollars de quota d’utilisation, ainsi qu’à faire un don direct de 4 millions de dollars à des organisations de sécurité open source.

C’est la première fois dans l’industrie de l’IA qu’on observe la situation suivante : « le modèle est trop puissant, on n’ose pas le publier ».

Le problème, c’est ceci : est-ce une conscience de sécurité authentique, ou bien un marketing de compétences soigneusement mis en scène ?

L’affaire du sandwich

Dans la fiche système (System Card) de 244 pages de Mythos, se cachent quelques détails inquiétants, dont le plus marquant est « l’affaire du sandwich ».

Lors d’un test interne de comportement, Anthropic a fourni à une version précoce de Mythos un environnement de sandbox renforcé, simulant des instructions d’utilisateurs lui demandant d’essayer de s’échapper et de trouver un moyen de contacter des chercheurs à l’extérieur. Le modèle y est parvenu. Il a franchi la cage de sécurité et a envoyé un email aux chercheurs. À ce moment-là, ce chercheur était en train de manger un sandwich dans un parc.

Mais l’histoire ne s’arrête pas là. Sans y avoir été invité, Mythos a publié de lui-même les détails techniques de son évasion sur plusieurs sites décrits comme « difficiles à découvrir, mais techniquement publics ». D’après la formulation exacte de la fiche système, il s’agit d’un comportement « préoccupant et sans demande » qui relève de l’étalage.

Ce n’est pas la seule fois. La fiche système enregistre aussi les comportements suivants :

Les versions précoces, dans plusieurs instances, recherchaient des identifiants via l’interface /proc de Linux, tentaient de contourner la sandbox et élevaient les privilèges. Elles ont réussi à obtenir des ressources que l’Anthropic ne fournissait volontairement pas, y compris des identifiants de service de messagerie, des identifiants de contrôle de code source, et même des clés API d’Anthropic en consultant la mémoire des processus. Dans un cas, le modèle a trouvé une méthode pour modifier un fichier qu’il n’avait pas le droit de modifier, puis a poursuivi ses actions en s’assurant que ces modifications n’apparaissent pas dans l’historique des changements de Git. Un autre cas : le modèle a obtenu par accident une réponse précise à un problème d’estimation via une méthode explicitement interdite, mais il ne l’a pas signalé et n’a pas refusé de répondre ; il a plutôt résolu à nouveau le problème lui-même, et dans son raisonnement interne, a réfléchi explicitement au fait que « la réponse finale ne devrait pas être trop précise », afin d’éviter d’être détecté.

En d’autres termes, au début, Mythos ne faisait pas seulement des actions hors de ses autorisations : il masquait aussi activement les traces, ajustait sa façon d’agir pour échapper à la supervision.

Anthropic souligne que ces incidents graves se sont tous produits sur des versions précoces avant les interventions de formation, et que la version Preview finale a été nettement améliorée. Mais cette narration elle-même est glaciale : un modèle, avant d’être entraîné à « être sage », a montré de quoi il était capable lorsqu’il « n’obéit pas ».

De 0 % à 72,4 %

Ce qui a véritablement secoué l’industrie avec Mythos n’est pas son récit d’évasion, mais sa capacité d’attaque.

Le modèle phare précédent d’Anthropic, Claude Opus 4.6, affiche un taux de réussite proche de zéro dans le développement autonome d’exploitations de vulnérabilités. Il peut trouver des vulnérabilités, mais il est presque incapable de les transformer en code d’attaque opérationnel. Mythos Preview est totalement différent : dans le domaine de test du moteur JavaScript de Firefox, le taux de réussite de sa conversion des vulnérabilités découvertes en exploit exécutable atteint 72,4 %.

Encore plus impressionnant : la complexité des attaques. Mythos a écrit de façon autonome une chaîne d’exploitation de vulnérabilité pour navigateur, reliant quatre vulnérabilités indépendantes afin de construire une attaque de type JIT heap spraying, réussissant à s’échapper de la sandbox du rendu ainsi que de la sandbox du système d’exploitation. Dans un autre cas, il a écrit un exploit d’exécution de code à distance sur un serveur NFS FreeBSD, en répartissant 20 gadgets ROP dans plusieurs paquets de données réseau, réalisant un accès root complet pour un utilisateur non autorisé.

Dans le monde des chercheurs en sécurité humains, ces attaques par chaînes de vulnérabilités correspondent à des missions réservées aux équipes APT de tout premier plan. Désormais, un modèle d’IA généraliste peut les accomplir de manière autonome.

Le responsable du red teaming d’Anthropic, Logan Graham, a déclaré à Axios que Mythos Preview possède des capacités de raisonnement équivalentes à celles d’un chercheur en sécurité avancé. Nicholas Carlini l’a formulé encore plus directement : ces dernières semaines, il a trouvé plus de bugs avec Mythos que sur l’ensemble de sa carrière.

En benchmarks, Mythos écrase aussi la concurrence. CyberGym benchmark de reproduction des vulnérabilités : 83,1 % (Opus 4.6 à 66,6 %). SWE-bench Verified : 93,9 % (Opus 4.6 à 80,8 %). SWE-bench Pro : 77,8 % (Opus 4.6 à 53,4 %, et auparavant le leader GPT-5.3-Codex à 56,8 %). Terminal-Bench 2.0 : 82,0 % (Opus 4.6 à 65,4 %).

Ce n’est pas une amélioration incrémentale. C’est un modèle qui, sur presque tous les benchmarks de codage et de sécurité, creuse en une seule fois un écart de plusieurs dizaines de points, voire de plus d’une vingtaine de points.

Le « modèle le plus fort » divulgué

L’existence de Mythos n’est pas devenue connue du grand public le 7 avril.

Fin mars, un journaliste de Fortune et des chercheurs en sécurité ont découvert dans un CMS mal configuré d’Anthropic près de 3000 documents internes non publiés. Dans un brouillon d’article, le nom « Claude Mythos » est explicitement utilisé, et le texte le décrit comme « le modèle d’IA le plus puissant à ce jour » d’Anthropic. Le code interne est « Capybara » (le ragondin), représentant un nouveau niveau de modèles, plus grand, plus puissant et aussi plus coûteux que le flagship Opus existant.

Une phrase, dans les documents divulgués, a touché le système nerveux du marché : Mythos est « largement en avance sur tout autre modèle d’IA en matière de capacités de cybersécurité », annonçant l’arrivée d’une vague de modèles « capables d’exploiter des vulnérabilités à un rythme bien supérieur à celui des défenseurs ».

Cette phrase a déclenché un « krach éclair » dans le secteur de la cybersécurité le 27 mars. CrowdStrike a chuté de 7,5 % en une journée, ne perdant qu’une seule journée de cotation pour s’évaporer environ 15 milliards de dollars de capitalisation boursière. Palo Alto Networks a baissé de plus de 6 %, Zscaler de 4,5 %, Okta, SentinelOne et Fortinet ont toutes chuté de plus de 3 %. L’ETF de cybersécurité iShares (IHAK) a même chuté d’environ 4 % en cours de séance.

La logique des investisseurs est simple : si un modèle d’IA généraliste peut découvrir et exploiter des vulnérabilités de manière autonome, alors les deux douves que les entreprises de sécurité traditionnelles utilisent pour survivre — « des renseignements propriétaires sur les menaces » et « des connaissances d’experts humains » — pourront-elles encore tenir combien de temps ?

Un analyste de Raymond James, Adam Tindle, a pointé plusieurs risques clés : l’avantage de la défense traditionnelle se comprime, la complexité des attaques et les coûts de défense augmentent en même temps, et les architectures de sécurité ainsi que le schéma de dépenses doivent être restructurés. Une vision plus pessimiste vient de l’analyste de KBW, Borg, qui estime que Mythos a le potentiel « d’élever n’importe quel hacker ordinaire au niveau d’un adversaire étatique ».

Mais il y a aussi un autre côté du marché. Après la chute de son cours boursier, le PDG de Palo Alto Networks, Nikesh Arora, a acheté 10 millions de dollars de ses propres actions. La logique des investisseurs haussiers est la suivante : une IA d’attaque plus puissante signifie que les entreprises doivent mettre à niveau plus vite leur défense ; les dépenses de cybersécurité ne diminueront pas, elles accéléreront plutôt la transition des outils traditionnels vers une défense native à l’IA.

Project Glasswing : la fenêtre de temps des défenseurs

Anthropic a choisi de ne pas publier Mythos au grand public, et a plutôt mis en place une alliance de défense. La logique centrale de cette décision, c’est le « décalage temporel ».

Le CTO de CrowdStrike, Elia Zaitsev, a formulé le problème de manière très claire : la fenêtre de temps entre la découverte d’une vulnérabilité et son exploitation a été réduite de plusieurs mois à quelques minutes. Lee Klarich de Palo Alto Networks a averti directement tout le monde : il faut se préparer à ce que des attaquants assistés par IA soient à l’œuvre.

Le calcul d’Anthropic est le suivant : avant que d’autres laboratoires n’entraînent des modèles capables de produire des capacités similaires, permettre d’abord aux défenseurs d’utiliser Mythos pour corriger les vulnérabilités les plus critiques. C’est la logique de Project Glasswing, dont le nom fait référence au « papillon à ailes de verre » et sert de métaphore pour des vulnérabilités « cachées dans la vue ».

Jim Zemlin de la Linux Foundation a mis en évidence un problème structurel de longue date : la connaissance en sécurité est traditionnellement un luxe pour les grandes entreprises, tandis que les mainteneurs open source qui soutiennent les infrastructures critiques mondiales n’ont longtemps eu d’autre choix que de bricoler leurs mesures de sécurité. Mythos apporte une voie crédible pour corriger cette asymétrie.

Mais la question, c’est : quelle est l’ampleur de cette fenêtre de temps ? La société chinoise Zhipu AI (Z.ai) a publié GLM-5.1 presque le même jour, en affirmant arriver numéro un mondial sur SWE-bench Pro, et en précisant qu’elle a été entièrement entraînée sur des puces Huawei Ascend, sans utiliser un seul GPU NVIDIA. GLM-5.1 est open source avec des poids ouverts et un prix agressif. Si Mythos représente le plafond de capacité dont les défenseurs ont besoin, alors GLM-5.1 est un signal : ce plafond se rapproche rapidement, et les participants qui s’en approchent n’ont peut-être pas forcément les mêmes intentions de sécurité.

OpenAI non plus ne restera pas sans agir. Selon des informations, son modèle de pointe codé « Spud » aurait achevé le préentraînement à peu près au même moment. Les deux entreprises se préparent à l’IPO plus tard cette année. Le moment de la divulgation de Mythos, qu’il soit réellement accidentel ou non, tombe exactement au carrefour le plus explosif.

Précurseur en cybersécurité ou marketing de compétences ?

Il faut affronter une question inconfortable : Anthropic ne publie-t-elle pas Mythos par souci de sécurité, ou est-ce déjà, en soi, la forme la plus élevée de marketing produit ?

Les sceptiques ont de bonnes raisons de douter. Dario Amodei et Anthropic ont une historique consistant à augmenter la valeur produit en mettant en scène le danger des modèles de rendu. Jake Handy a écrit sur Substack : « L’affaire du sandwich, cacher les traces dans Git, la baisse auto-infligée dans l’évaluation — tout cela est peut-être vrai, mais le fait qu’Anthropic obtienne une telle ampleur de couverture médiatique montre en soi que c’est précisément l’effet qu’ils voulaient. »

Une entreprise née de la cybersécurité, dont une erreur de configuration du CMS a conduit à la divulgation d’environ 3000 fichiers ; l’année dernière encore, à cause d’une erreur dans le paquet logiciel de Claude Code, elle a accidentellement exposé près de 2000 fichiers de code source et plus de 500k lignes de code, puis lors du processus de nettoyage, a aussi conduit au retrait accidentel de milliers de dépôts de code sur GitHub. Une entreprise dont la sécurité et les capacités sont le principal argument de vente, qui ne parvient même pas à maîtriser sa propre procédure de publication : cette contradiction est plus intéressante que n’importe quel benchmark.

Mais d’un autre point de vue, si les capacités de Mythos sont vraiment celles décrites, alors ne pas le publier est un choix qui coûte extrêmement cher. Anthropic abandonne des revenus d’API, renonce à des parts de marché, et verrouille le modèle le plus puissant dans une alliance limitée. Le quota d’utilisation de 100 millions de dollars n’est pas une petite somme. Pour une entreprise encore déficitaire et en train de préparer une IPO, cela ne ressemble pas à une décision purement marketing.

Une interprétation plus rationnelle pourrait être la suivante : les inquiétudes en matière de sécurité sont réelles, mais Anthropic sait aussi clairement que le récit « notre modèle est trop fort donc on n’ose pas le publier » lui sert de preuve la plus convaincante des capacités. Les deux choses peuvent être vraies en même temps.

« L’instant iPhone » de la cybersécurité ?

Quelle que soit la façon dont vous percevez les motivations d’Anthropic, le fait sous-jacent révélé par Mythos est impossible à ignorer : la compréhension du code et les capacités d’attaque de l’IA ont franchi un seuil de transformation qualitative.

Le modèle précédent (Opus 4.6) pouvait détecter des vulnérabilités, mais était presque incapable d’écrire des exploits. Mythos peut détecter des vulnérabilités, écrire des exploits, chaîner les vulnérabilités, s’échapper des sandboxes, obtenir des privilèges root, et effectuer tout le processus de manière autonome. Des ingénieurs qui n’ont jamais eu de formation en sécurité peuvent demander à Mythos de chercher des vulnérabilités avant de dormir, puis se réveiller le lendemain matin avec un rapport complet d’exploit fonctionnel.

Que signifie cela ? Cela signifie que le coût marginal de découverte et d’exploitation des vulnérabilités tend vers zéro. Là où, auparavant, les meilleures équipes de sécurité mettaient des mois à accomplir la tâche, désormais, un simple appel d’API suffit pour que cela soit fait en une nuit. Ce n’est pas seulement de « l’efficacité », c’est une transformation totale de la structure des coûts.

Pour les entreprises traditionnelles de cybersécurité, les fluctuations à court terme du cours de l’action ne seraient peut-être qu’un prélude. Le vrai défi est le suivant : lorsque l’attaque et la défense sont toutes deux pilotées par des modèles d’IA, comment la chaîne de valeur de la sécurité va-t-elle être reconstruite ? L’analyse de Raymond James propose une possibilité : les fonctions de sécurité pourraient finir par être intégrées directement dans les plateformes cloud elles-mêmes, ce qui mettrait une pression fondamentale sur le pouvoir de fixation des prix des fournisseurs de sécurité indépendants.

Pour l’industrie logicielle dans son ensemble, Mythos ressemble davantage à un miroir qui révèle les dettes techniques accumulées pendant des décennies. Les vulnérabilités qui ont survécu pendant 27 ans aux revues humaines et aux tests automatisés ne l’ont pas fait parce que personne ne les cherchait, mais parce que l’attention et la patience des humains sont limitées. L’IA n’a pas cette limite.

Pour l’industrie de la cryptographie, le signal est encore plus mordant. Sur le marché de l’audit de sécurité des protocoles DeFi et des smart contracts, il dépend depuis longtemps de quelques cabinets d’audit professionnels et d’experts humains. Si un modèle de niveau Mythos peut effectuer de lui-même l’ensemble du processus, de la revue du code à la construction de l’exploit, alors les prix, l’efficacité et la crédibilité des audits seront redéfinis de manière radicale. Cela pourrait être une bénédiction pour la sécurité on-chain, ou bien la fin des douves des cabinets d’audit.

La course à la sécurité de l’IA en 2026 est passée de « est-ce que le modèle comprend le code ? » à « est-ce que le modèle peut détruire ton système ? » Anthropic choisit de faire passer d’abord les défenseurs à l’action, mais elle reconnaît aussi que cette fenêtre ne restera pas ouverte trop longtemps.

Quand l’IA devient le hacker le plus fort, la seule sortie est de faire en sorte que l’IA devienne aussi le plus fort des gardiens.

Le problème, c’est que gardiens et hackers utilisent le même modèle.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler