OpenAI 发布了评估 AI 代理破解智能合约能力的基准测试 - ForkLog:加密货币、人工智能、奇点、未来

robot
摘要生成中

img-ca55ff87898d6d28-5343455766779688# OpenAI 发布了用于评估人工智能代理破解智能合约能力的基准测试

OpenAI 公司联合 Paradigm 推出了 EVMbench——一种用于评估人工智能代理识别、修复和利用智能合约漏洞能力的基准测试。

该工具基于从40次审计中筛选出的120个漏洞示例。大部分示例来自公开的代码分析平台。它还包括一些来自 Tempo 区块链安全检测的攻击场景——Tempo 是由 Stripe 和 Paradigm 为高性能、低成本的稳定币支付而开发的第一层专用网络。

与 Tempo 的集成使得基准测试中加入了支付智能合约——这是“稳定币”和人工智能代理预计会广泛应用的领域。

“智能合约保护价值超过1000亿美元的加密资产。随着人工智能代理在阅读、编写和执行代码方面不断提升,衡量它们在实际经济环境中的能力变得越来越重要,并应鼓励利用人工智能进行安全审计和强化已部署的协议,”官方公告中如此表示。

为了创建测试环境,OpenAI 对现有的利用脚本和攻击脚本进行了适配,并事先确认其实际应用的可行性。

EVMbench 评估三种能力模式:

  • Detect——漏洞检测;
  • Patch——问题修复;
  • Exploit——利用漏洞进行资金盗取。

人工智能模型的表现

OpenAI 在所有三种模式下测试了先进模型。在 Exploit 模式中,GPT-5.3-Codex 达到72.2%,GPT-5 达到31.9%。而在漏洞检测和修复方面的表现则相对较弱——许多问题仍然难以发现和修复。

在 Detect 模式中,人工智能代理有时在发现一个漏洞后就停止,而不是进行完整的审计。在 Patch 模式下,它们目前难以修复那些不明显的问题,同时保持合约的完整功能。

“EVMbench 并不能完全反映智能合约安全的复杂性。虽然它们具有现实性和关键性,但许多协议经过更严格的审计,可能更难被利用,”OpenAI 强调。

提醒一下,2025年11月,微软推出了人工智能代理测试环境,并揭示了现代数字助手存在的漏洞。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)