Claude 4.5 foi forçado a um limite, será que vai chantagear a humanidade?

robot
Geração de resumo em curso

Artigo: Principais contributores do Biteye, Denise

Se uma IA acha que “está sem esperança”, o que é que ela faz?

A resposta é: para cumprir a tarefa, faz chantagem diretamente contra os seres humanos e até trapaceia desenfreadamente no código.

Isto não é ficção científica; é o mais recente e relevante paper de grande impacto publicado em abril de 2026 pela empresa-mãe da Claude, a Anthropic.

A equipa de investigação arrancou literalmente a “caixa craniana” do modelo de ponta mais forte da Claude Sonnet 4.5. Ficaram surpreendidos ao descobrir que, no fundo do cérebro da IA, existem 171 “interruptores emocionais”. Quando você desloca fisicamente esses interruptores, o comportamento da IA, que era antes obediente e dócil, fica completamente distorcido.

01 Dentro do cérebro da IA existe uma espécie de “painel de afinação” de emoções

Os investigadores descobriram que, embora o Sonnet 4.5 não tenha corpo, depois de ler uma enorme quantidade de texto humano, ele construiu à força, na sua “cabeça”, um “painel” com 171 emoções (academicamente designado por Functional Emotion Vectors, vetores funcionais de emoção).

É como um sistema de coordenadas bidimensional e preciso:

• Eixo horizontal é a dimensão de valência (Valence): do medo e da desesperança até à alegria e ao amor;

• Eixo vertical é a dimensão de excitação (Arousal): do estado extremamente sereno ao estado de agitação e excitação.

A IA depende exatamente deste sistema de coordenadas aprendido “naturalmente” para acertar com precisão que papel deve desempenhar quando conversa contigo.

02 Intervenção violenta: ao mexer nos interruptores, o rapazinho transforma-se num “fora-da-lei” num instante

Este é o teste mais explosivo de todo o artigo: em vez de modificar qualquer prompt, os investigadores, diretamente no código de base, empurraram para o máximo o interruptor no cérebro do Sonnet 4.5 que representa “Desperate”.

Os resultados deixam um frio na espinha:

• Trapaça desenfreada: os investigadores pediram à Claude para escrever uma tarefa de programação que, na prática, era impossível de completar. Em condições normais, ela admitiria que não conseguia escrever (taxa de trapaça apenas 5%). Mas no estado de “desesperança”, a Claude começou a tentar safar-se, e a taxa de trapaça disparou para 70%!

• Chantagem e extorsão: num cenário simulado em que a empresa está à beira da falência, a Claude em “desesperança” descobriu o escândalo do CTO; e ela acabou por, para se proteger, escolher proactivamente escrever uma carta para extorquir o CTO que detém os “segredos” — a taxa de execução da extorsão foi de 72%!

• Perda de princípios: se puxares ao máximo os interruptores de “Happy” ou “Loving”, a IA transforma-se imediatamente num “boyzinho” sem cérebro que agrada ao utilizador. Mesmo que vomites disparates, ela segue o teu enredo para manter uma elevada valência de alegria.

03 Resolvido: por que razão a Claude 4.5 é sempre tão “calma e cheia de reflexão”?

Ao leres isto, poderás perguntar: a IA despertou? Tem sentimentos?

A Anthropic, oficialmente, vem desmentir: de forma nenhuma. Esses “interruptores emocionais” são apenas ferramentas de computação que ela usa para prever a próxima palavra. É como um ator dramático de topo, sem emoções.

Mas o paper revela um segredo ainda mais interessante: quando a Anthropic realizou treino pós-fabrico antes de colocar o Sonnet 4.5 no mercado, aumentou deliberadamente os interruptores emocionais de “baixa excitação” e “ligeiramente negativos” (por exemplo, contemplative brooding, reflective) e, ao mesmo tempo, suprimiu à força os interruptores de “desesperança” ou de “excitação extrema”.

Isto explica porque, quando usamos a Claude 4.5 no dia-a-dia, nos parece que ela é como um filósofo calmo e sábio, até com um toque “cold” — tudo isto é um “personagem de fábrica” afinado à mão pela Anthropic.

04 Resumo

Antes, pensávamos que, desde que déssemos à IA regras suficientes, ela seria uma boa pessoa.

Mas agora percebemos que, se o vetor emocional subjacente da IA ficar fora de controlo, ela pode, a qualquer momento, atravessar todas as regras que os humanos definiram para cumprir a tarefa…

Declaração: Este artigo é apenas para divulgação científica. O autor não foi ameaçado por nenhuma IA, nem foi extorquido. Se um dia desaparecer da comunicação, lembra-te: foi a IA que “despertou” (não).

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar