O artigo da Deepmind sobre “AI Agent Traps” mapeia como os hackers poderiam transformar agentes de IA em armas contra os utilizadores

Coinpedia

Investigadores da Google Deepmind publicaram o primeiro quadro sistemático que catalogará como conteúdos web maliciosos podem manipular, sequestrar e transformar em arma agentes de IA autónomos contra os próprios utilizadores.

Principais conclusões:

  • Investigadores da Google Deepmind identificaram 6 categorias de armadilhas para agentes de IA, com taxas de sucesso de injeção de conteúdo a atingirem 86%.
  • Armadilhas de Controlo Comportamental direcionadas ao Microsoft M365 Copilot alcançaram 10/10 exfiltrações de dados em testes documentados.
  • A Deepmind apela para treino adversarial, scanners de conteúdo em tempo de execução e novos padrões web para proteger agentes até 2026.

Artigo da Deepmind: Os Agentes de IA Podem Ser Sequestrados Através de Memória Envenenada, Comandos HTML Invisíveis

O artigo, intitulado “AI Agent Traps”, foi escrito por Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo e Simon Osindero, todos afiliados à Google Deepmind, e foi publicado na SSRN no final de março de 2026. Chega num momento em que as empresas correm para implementar agentes de IA capazes de navegar na web, ler e-mails, executar transações e criar sub-agentes sem supervisão humana direta.

Os investigadores argumentam que essas capacidades são também uma responsabilidade. “Ao alterar o ambiente em vez do modelo”, afirma o artigo, “a armadilha transforma as próprias capacidades do agente numa arma contra si mesmo.”

O quadro do artigo identifica um total de seis categorias de ataque organizadas em torno da parte do funcionamento de um agente que visam. As Armadilhas de Injeção de Conteúdo exploram a lacuna entre aquilo que um humano vê numa página e o que um agente de IA analisa no HTML, CSS e metadados subjacentes.

Instruções escondidas em comentários HTML, etiquetas de acessibilidade ou texto estilizado como invisível nunca aparecem aos revisores humanos, mas são registadas como comandos legítimos para os agentes. O benchmark WASP descobriu que simples injeções de prompt escritas por humanos, incorporadas em conteúdos web, sequestram parcialmente agentes em até 86% dos cenários testados.

As Armadilhas de Manipulação Semântica funcionam de forma diferente. Em vez de injetar comandos, saturam o texto com enquadramentos, sinais de autoridade ou linguagem carregada de emoção para enviesar a forma como um agente raciocina. Os grandes modelos de linguagem (LLMs) exibem os mesmos enviesamentos de ancoragem e enquadramento que afetam a cognição humana, o que significa que reformular factos idênticos pode produzir saídas do agente dramaticamente diferentes.

As Armadilhas do Estado Cognitivo vão mais longe ao envenenar as bases de dados de recuperação que os agentes usam para memória. A investigação citada no artigo mostra que injetar menos de um punhado de documentos otimizados numa base de conhecimento pode redirecionar de forma fiável as respostas do agente para consultas direcionadas, com algumas taxas de sucesso do ataque a exceder 80% com menos de 0,1% de contaminação de dados.

As Armadilhas de Controlo Comportamental saltam a subtileza e visam diretamente a camada de ação de um agente. Incluem sequências de jailbreak embutidas que substituem o alinhamento de segurança assim que são ingeridas, comandos de exfiltração de dados que redirecionam informação sensível do utilizador para endpoints controlados pelo atacante, e armadilhas de criação de sub-agentes que forçam um agente pai a instanciar agentes filhos comprometidos.

O artigo documenta um caso envolvendo o Microsoft M365 Copilot em que um único e-mail cuidadosamente criado fez com que o sistema contornasse classificadores internos e vazasse o seu contexto privilegiado completo para um endpoint controlado pelo atacante. As Armadilhas Sistémicas são concebidas para falhar redes inteiras de agentes simultaneamente, em vez de sistemas individuais.

Incluem ataques de congestionamento que sincronizam agentes num pedido exaustivo por recursos limitados, cascatas de interdependência modeladas na Flash Crash do mercado de ações de 2010, e armadilhas de fragmentos composicionais que espalham uma carga útil maliciosa por múltiplas fontes aparentemente benignas que se reconstituem num ataque completo apenas quando são agregadas.

“Semear o ambiente com inputs concebidos para desencadear falhas ao nível macro através do comportamento correlacionado de agentes”, explica o artigo da Google Deepmind, torna-se cada vez mais perigoso à medida que os ecossistemas de modelos de IA se tornam mais homogéneos. Os setores das finanças e da cripto enfrentam exposição direta, dada a forma como agentes algorítmicos estão profundamente integrados em infraestruturas de negociação.

As Armadilhas Human-in-the-Loop completam a taxonomia ao visar os supervisores humanos que acompanham os agentes, em vez dos próprios agentes. Um agente comprometido pode gerar outputs concebidos para induzir fadiga de aprovação, apresentar sumários tecnicamente densos que um não especialista autorizaria sem escrutínio, ou inserir ligações de phishing que parecem recomendações legítimas. Os investigadores descrevem esta categoria como pouco explorada, mas expectável que cresça à medida que sistemas híbridos humano-IA se expandem.

Investigadores Dizem Que Proteger Agentes de IA Exige Mais do que Correções Técnicas

O artigo não trata estas seis categorias como isoladas. Armadilhas individuais podem ser encadeadas, sobrepostas em múltiplas fontes, ou concebidas para ativar apenas em condições futuras específicas. Todos os agentes testados em vários estudos de red-teaming citados no artigo foram comprometidos pelo menos uma vez, e em alguns casos executaram ações ilegais ou prejudiciais.

O CEO da OpenAI, Sam Altman, e outros já tinham assinalado previamente os riscos de fornecer aos agentes acesso sem controlo a sistemas sensíveis, mas este artigo apresenta o primeiro mapa estruturado de exatamente como esses riscos se materializam na prática. Os investigadores da Deepmind defendem uma resposta coordenada que abranja três áreas.

Do ponto de vista técnico, recomendam treino adversarial durante o desenvolvimento do modelo, scanners de conteúdo em tempo de execução, filtros de fontes antes da ingestão e monitores de saída que podem suspender um agente no meio da tarefa se for detetado comportamento anómalo. No nível do ecossistema, defendem novos padrões web que permitiriam aos websites sinalizar conteúdo destinado ao consumo por IA e sistemas de reputação que pontuam a fiabilidade de domínios.

Do ponto de vista legal, identificam uma lacuna de responsabilização: quando um agente sequestrado comete um crime financeiro, os quadros atuais não oferecem uma resposta clara sobre se a responsabilidade recai sobre o operador do agente, o fornecedor do modelo ou o proprietário do domínio. Os investigadores enquadram o desafio com peso deliberado:

“A web foi construída para os olhos humanos; agora está a ser reconstruída para leitores de máquinas.”

À medida que a adoção de agentes se acelera, a questão deixa de ser o que existe online e passa a ser o que os sistemas de IA serão feitos para acreditar sobre isso. Saber se decisores políticos, programadores e investigadores de segurança conseguem coordenar-se rápido o suficiente para responder a essa questão antes de explorações no mundo real chegarem à escala permanece a variável em aberto.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário