# OpenAI merilis benchmark untuk menilai kemampuan agen AI dalam meretas kontrak pintar
Perusahaan OpenAI bersama Paradigm memperkenalkan EVMbench — sebuah benchmark untuk menilai kemampuan agen AI dalam mengidentifikasi, memperbaiki, dan mengeksploitasi celah dalam kontrak pintar.
Alat ini didasarkan pada 120 kerentanan yang dipilih dari 40 audit. Sebagian besar contoh diambil dari platform analisis kode terbuka. Selain itu, alat ini mencakup beberapa skenario serangan dari pengujian keamanan blockchain Tempo — jaringan tingkat pertama yang dikembangkan oleh Stripe dan Paradigm untuk pembayaran cepat dan murah dalam stablecoin.
Integrasi dengan Tempo memungkinkan penambahan kontrak pintar pembayaran ke dalam benchmark — segmen di mana penggunaan “stablecoin” dan agen AI diharapkan aktif.
“Kontrak pintar melindungi aset kripto senilai lebih dari $100 miliar. Seiring agen AI semakin mahir dalam membaca, menulis, dan menjalankan kode, menjadi semakin penting untuk mengukur kemampuan mereka dalam kondisi ekonomi nyata dan mendorong penggunaan kecerdasan buatan untuk tujuan perlindungan — seperti audit dan penguatan protokol yang sudah diterapkan,” kata pengumuman tersebut.
Untuk menciptakan lingkungan pengujian, OpenAI mengadaptasi exploit dan skrip yang ada, setelah memastikan kegunaannya secara praktis.
EVMbench menilai tiga mode kemampuan:
Detect — mendeteksi kerentanan;
Patch — memperbaiki masalah;
Exploit — menggunakan untuk mencuri dana.
Hasil model AI
OpenAI menguji model-model terdepan dalam ketiga mode tersebut. Dalam kategori Exploit, model GPT-5.3-Codex mencapai 72,2%, GPT-5 — 31,9%. Sementara itu, indikator deteksi dan perbaikan kerentanan masih relatif rendah — banyak masalah yang tetap sulit ditemukan dan diperbaiki.
Dalam mode Detect, agen AI terkadang berhenti setelah menemukan satu kerentanan alih-alih melakukan audit lengkap. Dalam mode Patch, mereka masih kesulitan menutup masalah yang tidak langsung terlihat tanpa mengorbankan fungsi penuh kontrak.
“EVMbench tidak mencerminkan seluruh kompleksitas keamanan nyata dari kontrak pintar. Meskipun realistis dan kritis, banyak protokol menjalani audit yang lebih ketat dan mungkin lebih sulit untuk dieksploitasi,” tegas OpenAI.
Perlu diingat, pada November 2025, Microsoft memperkenalkan lingkungan pengujian agen AI dan mengungkapkan kerentanan yang melekat pada asisten digital modern.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
OpenAI merilis benchmark untuk menilai kemampuan agen AI dalam meretas smart contract - ForkLog: cryptocurrency, AI, singularitas, masa depan
Perusahaan OpenAI bersama Paradigm memperkenalkan EVMbench — sebuah benchmark untuk menilai kemampuan agen AI dalam mengidentifikasi, memperbaiki, dan mengeksploitasi celah dalam kontrak pintar.
Alat ini didasarkan pada 120 kerentanan yang dipilih dari 40 audit. Sebagian besar contoh diambil dari platform analisis kode terbuka. Selain itu, alat ini mencakup beberapa skenario serangan dari pengujian keamanan blockchain Tempo — jaringan tingkat pertama yang dikembangkan oleh Stripe dan Paradigm untuk pembayaran cepat dan murah dalam stablecoin.
Integrasi dengan Tempo memungkinkan penambahan kontrak pintar pembayaran ke dalam benchmark — segmen di mana penggunaan “stablecoin” dan agen AI diharapkan aktif.
Untuk menciptakan lingkungan pengujian, OpenAI mengadaptasi exploit dan skrip yang ada, setelah memastikan kegunaannya secara praktis.
EVMbench menilai tiga mode kemampuan:
Hasil model AI
OpenAI menguji model-model terdepan dalam ketiga mode tersebut. Dalam kategori Exploit, model GPT-5.3-Codex mencapai 72,2%, GPT-5 — 31,9%. Sementara itu, indikator deteksi dan perbaikan kerentanan masih relatif rendah — banyak masalah yang tetap sulit ditemukan dan diperbaiki.
Dalam mode Detect, agen AI terkadang berhenti setelah menemukan satu kerentanan alih-alih melakukan audit lengkap. Dalam mode Patch, mereka masih kesulitan menutup masalah yang tidak langsung terlihat tanpa mengorbankan fungsi penuh kontrak.
Perlu diingat, pada November 2025, Microsoft memperkenalkan lingkungan pengujian agen AI dan mengungkapkan kerentanan yang melekat pada asisten digital modern.