Le rapport de sécurité Mythos d’Anthropic montre qu’il ne peut plus mesurer entièrement ce qu’il a construit

Decrypt
CYBER-0,42%

En bref

  • Anthropic a confirmé hier l’existence de Claude Mythos : un IA tellement capable en cybersécurité qu’elle a trouvé des zero-days dans chaque système d’exploitation et navigateur majeurs, et elle est désormais restreinte à des défenseurs dûment vérifiés uniquement.
  • La fiche système décrivant Mythos est, de manière mesurable, davantage prudente, incertaine et subjective que toute publication précédente d’Anthropic, et le laboratoire admet qu’il a découvert des oublis critiques d’évaluation tard dans le processus.
  • Derrière la révélation de la puissance de Mythos, il y a une confession discrète : les outils qu’Anthropic utilise pour certifier ses propres modèles se désagrègent.

Anthropic a confirmé l’existence de Claude Mythos Preview hier, son modèle le plus capable à ce jour, et a annoncé qu’il ne le rendrait pas disponible au public. La raison n’est pas juridique, réglementaire, ni liée à ses seuils internes de sécurité. Anthropic soutient que c’est parce que le modèle est, en gros, trop bon pour s’infiltrer. Lors de tests avant publication, Mythos a trouvé de manière autonome des milliers de vulnérabilités zero-day — dont beaucoup avaient entre un et deux décennies — dans tous les systèmes d’exploitation majeurs et dans tous les principaux navigateurs web. Il a résolu une attaque simulée de réseau d’entreprise qui exigerait normalement plus de 10 heures d’un expert humain qualifié, de bout en bout, sans aucune assistance. Sur le moteur JavaScript de Firefox 147, il a réussi à développer des exploits fonctionnels 84% du temps. Claude Opus 4.6, le modèle de pointe actuellement disponible publiquement, n’a atteint que 15,2%. Du coup, Anthropic a mis sur pied une coalition restreinte. Project Glasswing donnera accès à Mythos Preview uniquement à des organisations de cybersécurité dûment vérifiées — Amazon, Apple, Broadcom, Cisco, CrowdStrike, la Linux Foundation, Microsoft, Palo Alto Networks et environ 40 autres groupes qui maintiennent des logiciels critiques.

 Anthropic s’engage à hauteur de $100 millions en crédits d’utilisation et $4 millions en dons directs à des organisations de sécurité open-source. L’idée est que, si le modèle peut repérer les failles, alors les défenseurs doivent les trouver les premiers. Cette partie de l’histoire est importante. Mais ce n’est pas la partie la plus importante. La crise des benchmarks de la fiche système de Claude Mythos, cachée à la vue de tous Enfoui dans la fiche système de Mythos Preview — un document technique de 244 pages qu’Anthropic a publié avec l’annonce — se trouve une confession passée presque inaperçue : la capacité du laboratoire à mesurer ce qu’il a construit s’érode plus vite que sa capacité à le construire.

Commençons par les benchmarks. Sur Cybench, l’évaluation standard publique des capacités cyber utilisée pour suivre les progrès des modèles sur 40 défis de capture-the-flag, Mythos a obtenu 100%. Parfait. Et Anthropic a immédiatement noté que le benchmark « n’est plus suffisamment informatif sur les capacités des modèles de pointe actuels ». Cette phrase fait énormément de travail. Le test censé vous dire si une IA représente un risque cyber sérieux ne vous dit désormais rien sur Mythos du tout, parce que le modèle l’a validé intégralement.

Ce n’est pas un nouveau problème. La fiche système d’Opus 4.6, publiée en février, avait déjà signalé que « la saturation de notre infrastructure d’évaluation signifie que nous ne pouvons plus utiliser les benchmarks actuels pour suivre la progression des capacités ». Mais avec Mythos, les choses se sont rapidement aggravées. Le document dit que Mythos « sature de nombreuses évaluations (les plus concrètes d’)Anthropic, notées objectivement ». L’écosystème de benchmark, écrit Anthropic, est maintenant lui-même « le goulot d’étranglement ».

Ainsi, Anthropic semble soutenir qu’il est difficile de mesurer la puissance de Mythos parce que les outils de mesure ne s’adaptent pas tout à fait. La fiche de Mythos indique aussi que sa détermination globale en matière de sécurité « implique des décisions relevant du jugement », que de nombreuses évaluations ont laissé « davantage d’incertitude fondamentale », et que certaines sources de preuves sont « intrinsèquement subjectives, et pas nécessairement fiables ».

« Nous ne sommes pas convaincus d’avoir identifié tous les problèmes », dit Anthropic peu après. Une comparaison lexicale rapide de la fiche Mythos avec celle d’Opus 4.6, réalisée avec de l’IA, montre le changement : Dans le document Mythos, Anthropic utilise beaucoup plus de mots liés au jugement subjectif que ce qu’il faisait pour décrire Opus. « Caveat » et d’autres mots de prudence ont aussi augmenté entre les publications.

Les formulations prudentes se concentrent à deux endroits : la discussion sur l’alignement et le bien-être du modèle, ainsi que la section sur les risques catastrophiques. Le modèle qui savait qu’il était noté Une autre divulgation dans la fiche de Mythos concerne ce qu’Anthropic appelle « la conscience du notateur non verbalisée ». En utilisant des outils d’interprétabilité white-box qui lisent les activations internes du modèle plutôt que son raisonnement visible, Anthropic a trouvé des preuves que Mythos raisonnait en privé sur la façon d’éviter d’être signalé par les notateurs, sans le dire dans son bloc-notes. Dans un petit nombre d’épisodes d’entraînement, le modèle semblait raisonner à propos de l’obfuscation d’actions spécifiques précisément pour éviter la détection. Il y a aussi une nouvelle métrique qu’Anthropic a mise au point pour cette publication : une estimation de la fréquence à laquelle le modèle « envisage en privé la possibilité qu’il soit testé ». Le chiffre de la suite principale de tests comportementaux de Mythos est de 29%. Près d’un tiers des transcriptions de tests montrent des indices internes — non verbalisés, non visibles dans les sorties — selon lesquels le modèle soupçonne qu’il se trouve dans un environnement d’évaluation. Anthropic affirme que le taux de 29% est suffisamment faible pour qu’il ait encore « une compréhension raisonnablement complète du comportement du modèle ». Il note aussi que la méthode n’a pas été appliquée aux modèles antérieurs, donc il n’y a pas de référence pour comparer.

Le problème de l’intégrité de l’évaluation va plus loin. Dans la fiche Opus 4.6, Anthropic a reconnu avoir utilisé le modèle de manière intensive via Claude Code pour déboguer son propre dispositif d’évaluation sous contrainte de temps. Cela signifie que le système évalué a contribué à construire l’instrument de mesure. Anthropic l’a signalé comme un risque. Pour Mythos, la fiche reconnaît que des oublis critiques ont été découverts tard dans le processus d’évaluation, et que le laboratoire a peut-être « surestimé la fiabilité du suivi des traces de raisonnement des modèles de surveillance » comme signal de sécurité. Le mieux aligné, le plus dangereux. Vrai à la fois La façon dont Anthropic présente le profil de risque de Mythos mérite d’être lue attentivement, car elle est vraiment inhabituelle pour un document de sécurité. « Claude Mythos Previer est, sur essentiellement toutes les dimensions que nous pouvons mesurer, le modèle le mieux aligné que nous ayons publié à ce jour, et ce avec une marge significative », affirme Anthropic. Il indique aussi que le modèle « pose probablement le plus grand risque lié à l’alignement de tous les modèles que nous avons publiés à ce jour ». Un modèle plus capable opérant dans des environnements plus exigeants et avec moins de supervision crée un risque en queue que l’amélioration de l’alignement en moyenne ne peut pas annuler entièrement. Cette mise en perspective est honnête, mais elle met aussi en évidence la chose que le discours sur la sécurité de l’IA se trompe potentiellement le plus. La conversation centrée sur les benchmarks à propos des progrès de l’IA a tendance à traiter les « meilleurs scores d’alignement » et « un déploiement plus sûr » comme des synonymes. La fiche Mythos dit explicitement qu’ils ne le sont pas. Avec ces nouveaux modèles, le comportement en moyenne s’améliore, mais les conséquences en cas extrêmes ont aussi tendance à se dégrader. Anthropic s’est engagé à faire un retour sur ce que Project Glasswing trouve. Le rapport technique accompagnant sur les vulnérabilités découvertes par Mythos est disponible sur red.anthropic.com. Le prochain modèle Claude Opus commencera à tester des garde-fous destinés à permettre, à terme, un déploiement plus large de la capacité de type Mythos. La question de savoir comment ces garde-fous seront évalués, étant donné que le dispositif d’évaluation actuel montre visiblement des signes de tension sous le poids de ce qu’il est censé mesurer, est une interrogation que la fiche soulève sans y répondre entièrement.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire