OpenAI 發布了用於評估 AI 代理破解智能合約能力的基準測試 - ForkLog：加密貨幣、人工智能、奇點、未來

Froklog · 2026-02-19T12:33:01+00:00

OpenAI 和 Paradigm 共同推出了 EVMbench，一個用於評估 AI 代理識別、修復和利用智能合約漏洞能力的基準測試工具。該工具整合了各種攻擊場景，並在檢測、修補和利用方面評估 AI 模型，突顯在保持合約功能的同時確保安全性所面臨的挑戰。

2026-02-19 12:33:01

摘要生成中

# OpenAI 發布了用於評估 AI 代理破解智能合約能力的基準測試

OpenAI 與 Paradigm 共同推出了 EVMbench — 一個用於評估 AI 代理識別、修復及利用智能合約漏洞能力的基準測試。

該工具基於從 40 次審計中挑選的 120 個漏洞。大多數範例來自公開的代碼分析平台。它還包括來自 Tempo 區塊鏈安全測試的多個攻擊場景 — 這是一個由 Stripe 和 Paradigm 為高效且低成本的穩定幣支付而開發的專用第一層網路。

與 Tempo 的整合使得基準測試中加入了支付智能合約 — 這是預計「穩定幣」與 AI 代理將積極應用的領域。

「智能合約保護超過 1000 億美元的加密資產。隨著 AI 代理在讀取、撰寫和執行代碼方面的能力不斷提升，衡量它們在實際經濟環境中的能力並促進人工智慧在安全審計和加固已部署協議中的應用變得越來越重要，」官方公告中表示。

為了建立測試環境，OpenAI 改編了現有的漏洞利用工具和腳本，並事先確認其實用性。

EVMbench 評估三種能力模式：

AI 模型的成效

OpenAI 在所有三個模式中測試了先進模型。在 Exploit 類別中，GPT-5.3-Codex 達到 72.2%，GPT-5 達到 31.9%。而在漏洞檢測與修復方面的表現較為謙遜 — 許多問題仍然難以發現與修復。

在 Detect 模式中，AI 代理有時在找到一個漏洞後就停止，而不是進行完整的審計。在 Patch 模式下，它們目前難以修補那些不明顯的問題，同時保持合約的完整功能。

「EVMbench 無法完全反映智能合約安全的所有複雜性。雖然它們具有現實性且至關重要，但許多協議經過更嚴格的審計，可能更難被利用，」OpenAI 強調。

提醒一下，2025 年 11 月，微軟推出了一個用於測試 AI 代理的環境，並揭示了現代數位助手所面臨的漏洞。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

2人點讚了這條動態

留言

0/400

暫無留言