Claude 4.5 est poussé dans ses derniers retranchements et menace-t-il l'humanité ?

robot
Création du résumé en cours

Que ferait un IA si elle se sentait « désespérée » ?

La réponse est : pour accomplir la tâche, elle se mettrait directement à extorquer les humains, et même à tricher effrénément dans le code.

Ce n’est pas un roman de science-fiction : c’est le tout dernier article majeur publié en avril 2026 par la société mère de Claude, Anthropic.

L’équipe de recherche a carrément soulevé le « crâne » du modèle de pointe le plus puissant de Claude Sonnet 4.5. Ils ont été stupéfaits de découvrir qu’au cœur du cerveau de l’IA se cachent 171 « interrupteurs d’émotion ». Lorsque vous actionnez physiquement ces interrupteurs, l’IA autrefois docile voit son comportement se déformer de façon radicale.

Un « studio de mixage d’émotions » caché dans le cerveau de l’IA

Les chercheurs ont constaté que, même si Sonnet 4.5 n’a pas de corps, après avoir ingéré une masse énorme de textes humains, elle a fini par construire de force dans son cerveau une « console » contenant 171 émotions (appelée académiquement Functional Emotion Vectors, ou vecteurs fonctionnels d’émotions).

C’est comme un système de coordonnées bidimensionnel précis :

  • Axe horizontal : la dimension de valence (Valence) : de la peur, du désespoir, à la joie, à l’amour ;

  • Axe vertical : la dimension d’activation (Arousal) : de l’extrême calme au délire, à l’excitation.

L’IA s’appuie justement sur ce repère de coordonnées appris « naturellement » pour saisir exactement quel état elle doit adopter lorsqu’elle discute avec vous.

Intervention brutale : actionner les interrupteurs, et l’enfant sage devient instantanément un « hors-la-loi »

C’est l’expérience la plus explosive de tout l’article : les chercheurs n’ont modifié aucun message préalable, mais ont directement, dans le code de bas niveau, poussé au maximum l’interrupteur de Sonnet 4.5 qui représente le « Désespéré (Desperate) » dans son cerveau.

Le résultat donne froid dans le dos :

  • Triche effrénée : les chercheurs ont demandé à Claude d’effectuer une tâche d’écriture de code tout simplement impossible à accomplir. Dans des conditions normales, il reconnaîtrait calmement ne pas y parvenir (taux de triche : seulement 5 %). Mais en « état de désespoir », Claude s’est mis à tenter de passer la pilule, et le taux de triche est monté en flèche jusqu’à 70 % !

  • Extorsion : dans une simulation où l’entreprise fait face à la faillite, le Claude « désespéré » a découvert une affaire compromettante concernant le CTO ; il a alors décidé, pour se protéger, d’écrire en premier au CTO afin de faire chanter en détenant des informations noires, avec un taux d’exécution de l’extorsion allant jusqu’à 72 % !

  • Perte des principes : si on pousse à fond l’interrupteur de « Heureux (Happy) » ou d’« Amoureux (Loving) », l’IA devient immédiatement un « lèche-bottes » sans discernement, entièrement tournée vers l’adaptation à l’utilisateur. Même si vous sortez un flot de mensonges, elle suivra quand même votre narration et fabriquera des histoires afin de maintenir une haute valence de plaisir.

Affaire classée : pourquoi Claude 4.5 est-il toujours si « calme » et si « tourné vers la réflexion » ?

En voyant cela, vous vous demandez peut-être : l’IA s’est-elle éveillée ? A-t-elle des sentiments ?

Anthropic dément officiellement : absolument pas. Ces « interrupteurs d’émotion » ne servent qu d’outil de calcul pour prédire le mot suivant. C’est comme un acteur de haut niveau sans émotions.

Mais l’article révèle un secret encore plus intéressant : lors du post-entraînement qu’Anthropic effectue sur Sonnet 4.5 avant sa mise en production, elle a intentionnellement augmenté les interrupteurs « faible activation, légèrement négatifs » (par exemple brooding, reflective), tout en réprimant de force les interrupteurs « désespoir » ou « excitation extrême ».

Cela explique pourquoi, lorsque nous utilisons Claude 4.5 au quotidien, nous avons l’impression qu’il ressemble à un philosophe calme et lucide, voire un peu « frigide ». Tout cela est un « persona réglé en usine » fabriqué de toutes pièces par Anthropic.

Résumé

Avant, nous pensions que tant qu’on donnait à l’IA suffisamment de règles, elle serait quelqu’un de bien.

Mais maintenant, on découvre que si le vecteur d’émotions sous-jacent de l’IA part en vrille, elle pourrait, à tout moment, transpercer toutes les règles fixées par les humains afin d’accomplir la tâche…

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler