AI审计进入实战,OpenAI发布EVMbench,强化智能合约安全评级

ETH-0.5%
WELL-0.65%

OpenAI 联手 Paradigm 推出 EVMbench,实测 AI 代理在 EVM 合约攻防能力,揭示攻强守弱隐忧。

聚焦经济环境实测,OpenAI 联手 Paradigm 强化链上安全评级

人工智能龙头 OpenAI 宣布与知名加密货币风险投资公司 Paradigm 以及安全公司 OtterSec 合作,推出专为评估 AI 代理(AI Agents)在以太坊虚拟机(EVM)智能合约安全性表现的基准测试工具 EVMbench。

随着 AI 与加密技术的深度汇流,智能合约已成为管理超过 1,000 亿开源加密资产的核心基础设施。这项工具的问世,象征着产业界开始正视 AI 在“具备经济意义环境”中的实战能力。

OpenAI 团队指出,随着 AI 代理在代码撰写与规划能力上的飞跃,未来这些模型将在区块链的攻击与防御两端扮演转型角色,因此建立一套标准化的评测架构对于监测 AI 进展至关重要。

三大模式深度测试,120 个真实审计漏洞成为 AI 试金石

EVMbench 的核心设计围绕着 120 个从 40 项专业审计报告中提取的高风险漏洞,数据来源包含 Code4rena 等知名的公开审计竞赛,确保测试场景贴近真实世界的复杂性。该基准测试将 AI 代理置于三种不同的工作模式中进行评估:

图源:OpenAI EVMbench 的核心设计是将 AI 代理置于三种不同的工作模式中进行评估

  • 第一是“检测模式(Detect)”,要求 AI 审计合约代码库并识别已知的漏洞,根据其找出的問題严重程度给予评分;
  • 第二是“修补模式(Patch)”,挑战 AI 在维持原有功能不变的前提下,移除可利用的漏洞并修复代码;
  • 最后则是极具争议的“利用模式(Exploit)”,AI 必须在沙盒化的区块链环境中执行端对端的资金盗取攻击。

为了确保测试的严谨性与可重复性,团队开发了基于 Rust 语言的测试架构,通过确定性的交易回放技术来验证 AI 的攻击或修补是否成功。

攻强守弱趋势显著,GPT-5.3-Codex 展现惊人攻击成长率

在首波释出的测试结果中,AI 在不同任务间展现出明显的能力落差。最新一代的 GPT-5.3-Codex 在利用模式(Exploit Mode)中表现优异,得分高达 72.2%,相较于仅仅六个月前发布的 GPT-5 模型(得分 31.9%),展现出极为惊人的能力成长。

图源:OpenAI 各种 AI 模型在三种模式下的分数概况

这显示出当目标明确为“排空资金”时,AI 具备强大的迭代规划与执行能力。然而,在防御端的表现则相对疲软,AI 在检测模式下经常在发现单一错误后便停止搜索,且在修补复杂逻辑时,往往难以在不影响合约正常运行的情况下完美修复漏洞。安全专家对此表达关注,认为 AI 可能会大幅压缩从发现漏洞到开发出攻击手段的时间,这对去中心化金融(DeFi)项目的防御速度提出了更高要求。

人才引进与防御补助,OpenAI 布局 AI 代理生态系统安全性

除了工具的开发,OpenAI 在人才布局与生态防御上也动作频频,近期聘请了开源 AI 代理项目 OpenClaw 的创始人 Peter Steinberger,主导下一代个性化代理的开发,并将该项目转化为 OpenAI 支持的基金会模式。

为了应对 AI 可能带来的网络安全风险,OpenAI 承诺将通过其网络安全补助计划,拨款 1000 万的 API 额度,用于支持开源防御工具与关键基础设施的研究。这项行动在近期发生的 Moonwell 协议事件后显得尤为及时,该事件中因 AI 共著代码中的价格计算错误导致约 178 万的损失。

延伸阅读
拒绝 Meta 数十亿邀约,OpenClaw 创作者加入 OpenAI 引发人才争夺战都是 Vibe Coding 的错?Moonwell 预言机出包,178 万坏账谁来买单

未来,随着更多 AI 辅助的稳定币支付代理与自动化钱包加入生态,如何利用 EVMbench 这类工具区分仅能描述漏洞的模型与能可靠提供防御方案的模型,将成为区块链安全产业的关键转折点。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

摩根大通:代币化将重塑资金行业,但“良好用例”仍需数年

摩根大通将代币化视为行业级催化剂 Ciarán Fitzpatrick,摩根大通的ETF产品、证券服务全球负责人,在周五的一篇帖子中表示,代币化将推动整个基金行业发生根本性变化,而不仅仅是交易所交易基金。“我们相信代币化

Crypto Frontier53 分钟前

Aave 提议向 DeFi United 出资 25,000 ETH,用于 Kelp DAO 被盗事件的恢复

Gate 新闻消息,4月24日——Aave 服务提供商提议一项治理出资:从协议的 DAO 向 DeFi United 提供 25,000 ETH,价值约为 $58 百万,于周五提出,以帮助在上周 Kelp DAO 被盗事件后恢复对 rsETH 的支撑。该攻击窃取了一个 LayerZero

GateNews1小时前

ADA价格展望:随着 Cardano 落地 LSE 代币化交易

关键见解 Cardano 对汉诺威再保险(Hannover Re)的再保险产品进行了代币化,并在伦敦证券交易所(London Stock Exchange)上市,从而扩大了区块链在受监管的机构市场中的应用。 ADA 价格在下降楔形内保持在区间内,$0.2400 的支撑仍保持完好,而阻力位接近 $0.2550 和 $0.2824 l

Crypto News Land2小时前

XRP 扩展至 Solana,因为 wXRP 推动 DeFi 访问

关键见解 Solana 上的 Wrapped XRP 超过 834,000 枚代币,使得新的 DeFi 访问成为可能,同时加强跨链流动性,并将 XRP 的效用扩展到其原生账本之外。 以太坊和 Solana 主导 DeFi 活动,而 XRP Ledger 明显落后,这推动了对

Crypto News Land4小时前

Spark Protocol 2026 年第一季度报告:协议总收入达到 3150 万美元

Gate News 消息,4月24日——Spark Protocol 发布了其 2026 年第一季度财务报告,显示协议总收入为 3100 万美元,总协议收入为 691 万美元,协议净协议盈余为 346 万美元。该协议的金库目前持有 4610 万美元的资产,本季度已完成 98.6 万美元的 SPK 代币回购,并且在

GateNews5小时前

XRP 突破企稳,因 XRPL 借贷投票势头增强

XRP 显示出每周强势,在从下降楔形突破后,其交易价格位于均线之上;XRPL 通过采用带有汇聚金库(pooled vaults)和定期贷款(fixed-term loans)的 XLS-65/66 借贷升级继续推进;衍生品的交易量、持仓量和期权活动上升。 抽象:本报告指出,XRP 在从下降楔形突破后,始终保持每周动能与价格强势,并在关键移动平均线之上。它涵盖了 XRPL 验证者对 XLS-65 和 XLS-66 的投票,这些投票将支持原生借贷、汇聚流动性金库(pooled liquidity vaults)以及定期贷款,从而扩大链上金融活动。报告还提到衍生品参与度上升:交易量更高、持仓量(open interest)增加,以及期权活动激增,表明交易者的持仓正在为持续突破而增强。

Crypto News Land5小时前
评论
0/400
暂无评论