OpenAI lançou um benchmark para avaliar a capacidade de agentes de IA de invadir contratos inteligentes - ForkLog: criptomoedas, IA, singularidade, futuro

Froklog · 2026-02-19T12:33:01+00:00

OpenAI e Paradigm apresentaram o EVMbench, uma referência para avaliar a capacidade de agentes de IA em identificar, corrigir e explorar vulnerabilidades em contratos inteligentes. A ferramenta integra vários cenários de ataque e avalia modelos de IA na deteção, correção e exploração, destacando os desafios enfrentados em manter a funcionalidade do contrato enquanto se garante a segurança.

Froklog

2026-02-19 12:33:01

Geração do resumo em andamento

# A OpenAI lançou um benchmark para avaliar a capacidade de agentes de IA em comprometer contratos inteligentes

A OpenAI, em parceria com a Paradigm, apresentou o EVMbench — um benchmark para avaliar a capacidade de agentes de IA em identificar, corrigir e explorar vulnerabilidades em contratos inteligentes.

A ferramenta baseia-se em 120 vulnerabilidades selecionadas de 40 auditorias. A maioria dos exemplos foi retirada de plataformas abertas de análise de código. Ela também inclui vários cenários de ataque do teste de segurança da blockchain Tempo — uma rede de camada um, desenvolvida pela Stripe e Paradigm, para pagamentos de alto desempenho e de baixo custo em stablecoins.

A integração com o Tempo permitiu adicionar ao benchmark contratos inteligentes de pagamento — um segmento onde se espera uma aplicação ativa de “stablecoins” e agentes de IA.

«Contratos inteligentes protegem ativos criptográficos no valor de mais de 100 bilhões de dólares. À medida que os agentes de IA melhoram na leitura, escrita e execução de código, torna-se cada vez mais importante medir suas capacidades em condições econômicas reais e incentivar o uso de inteligência artificial para fins de proteção — para auditoria e fortalecimento de protocolos já implementados», afirmou o anúncio.

Para criar um ambiente de testes, a OpenAI adaptou exploits e scripts existentes, verificando previamente sua aplicabilidade prática.

O EVMbench avalia três modos de operação:

Detect — detecção de vulnerabilidades;
Patch — correção de problemas;
Exploit — uso para roubo de fundos.

Desempenho dos modelos de IA

A OpenAI testou modelos avançados em todos os três modos. Na categoria Exploit, o modelo GPT-5.3-Codex atingiu 72,2%, e o GPT-5, 31,9%. Já os indicadores de detecção e correção de vulnerabilidades foram mais modestos — muitos problemas ainda são difíceis de encontrar e corrigir.

Em Detect, os agentes de IA às vezes param após encontrar uma vulnerabilidade, em vez de realizar uma auditoria completa. No modo Patch, eles ainda têm dificuldades em resolver problemas não óbvios, sem comprometer a funcionalidade total do contrato.

«O EVMbench não reflete toda a complexidade da segurança real dos contratos inteligentes. Embora sejam realistas e críticos, muitos protocolos passam por auditorias mais rigorosas e podem ser mais difíceis de explorar», destacou a OpenAI.

Lembrando que, em novembro de 2025, a Microsoft apresentou um ambiente para testes de agentes de IA e identificou vulnerabilidades presentes em assistentes digitais modernos.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

2 Curtidas