OpenAI 发布了评估 AI 代理破解智能合约能力的基准测试 - ForkLog：加密货币、人工智能、奇点、未来

Froklog · 2026-02-19T12:33:01+00:00

OpenAI 和 Paradigm 共同推出了 EVMbench，这是一个用于评估 AI 代理识别、修复和利用智能合约漏洞能力的基准测试工具。该工具集成了各种攻击场景，评估 AI 模型在检测、修补和利用方面的表现，突显了在确保合约功能的同时维护安全性所面临的挑战。

2026-02-19 12:33:01

摘要生成中

# OpenAI 发布了用于评估人工智能代理破解智能合约能力的基准测试

OpenAI 公司联合 Paradigm 推出了 EVMbench——一种用于评估人工智能代理识别、修复和利用智能合约漏洞能力的基准测试。

该工具基于从40次审计中筛选出的120个漏洞示例。大部分示例来自公开的代码分析平台。它还包括一些来自 Tempo 区块链安全检测的攻击场景——Tempo 是由 Stripe 和 Paradigm 为高性能、低成本的稳定币支付而开发的第一层专用网络。

与 Tempo 的集成使得基准测试中加入了支付智能合约——这是“稳定币”和人工智能代理预计会广泛应用的领域。

“智能合约保护价值超过1000亿美元的加密资产。随着人工智能代理在阅读、编写和执行代码方面不断提升，衡量它们在实际经济环境中的能力变得越来越重要，并应鼓励利用人工智能进行安全审计和强化已部署的协议，”官方公告中如此表示。

为了创建测试环境，OpenAI 对现有的利用脚本和攻击脚本进行了适配，并事先确认其实际应用的可行性。

EVMbench 评估三种能力模式：

人工智能模型的表现

OpenAI 在所有三种模式下测试了先进模型。在 Exploit 模式中，GPT-5.3-Codex 达到72.2%，GPT-5 达到31.9%。而在漏洞检测和修复方面的表现则相对较弱——许多问题仍然难以发现和修复。

在 Detect 模式中，人工智能代理有时在发现一个漏洞后就停止，而不是进行完整的审计。在 Patch 模式下，它们目前难以修复那些不明显的问题，同时保持合约的完整功能。

“EVMbench 并不能完全反映智能合约安全的复杂性。虽然它们具有现实性和关键性，但许多协议经过更严格的审计，可能更难被利用，”OpenAI 强调。

提醒一下，2025年11月，微软推出了人工智能代理测试环境，并揭示了现代数字助手存在的漏洞。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

2人点赞了这条动态

0/400

暂无评论