OpenAI merilis benchmark untuk menilai kemampuan agen AI dalam meretas smart contract - ForkLog: cryptocurrency, AI, singularitas, masa depan

Froklog · 2026-02-19T12:33:01+00:00

OpenAI dan Paradigm memperkenalkan EVMbench, sebuah tolok ukur untuk mengevaluasi kemampuan agen AI dalam mengidentifikasi, memperbaiki, dan mengeksploitasi kerentanan dalam kontrak pintar. Alat ini mengintegrasikan berbagai skenario serangan dan mengevaluasi model AI dalam deteksi, perbaikan, dan eksploitasi, menyoroti tantangan yang dihadapi dalam menjaga fungsi kontrak sambil memastikan keamanan.

Froklog

2026-02-19 12:33:01

Pembuatan abstrak sedang berlangsung

# OpenAI merilis benchmark untuk menilai kemampuan agen AI dalam meretas kontrak pintar

Perusahaan OpenAI bersama Paradigm memperkenalkan EVMbench — sebuah benchmark untuk menilai kemampuan agen AI dalam mengidentifikasi, memperbaiki, dan mengeksploitasi celah dalam kontrak pintar.

Alat ini didasarkan pada 120 kerentanan yang dipilih dari 40 audit. Sebagian besar contoh diambil dari platform analisis kode terbuka. Selain itu, alat ini mencakup beberapa skenario serangan dari pengujian keamanan blockchain Tempo — jaringan tingkat pertama yang dikembangkan oleh Stripe dan Paradigm untuk pembayaran cepat dan murah dalam stablecoin.

Integrasi dengan Tempo memungkinkan penambahan kontrak pintar pembayaran ke dalam benchmark — segmen di mana penggunaan “stablecoin” dan agen AI diharapkan aktif.

“Kontrak pintar melindungi aset kripto senilai lebih dari $100 miliar. Seiring agen AI semakin mahir dalam membaca, menulis, dan menjalankan kode, menjadi semakin penting untuk mengukur kemampuan mereka dalam kondisi ekonomi nyata dan mendorong penggunaan kecerdasan buatan untuk tujuan perlindungan — seperti audit dan penguatan protokol yang sudah diterapkan,” kata pengumuman tersebut.

Untuk menciptakan lingkungan pengujian, OpenAI mengadaptasi exploit dan skrip yang ada, setelah memastikan kegunaannya secara praktis.

EVMbench menilai tiga mode kemampuan:

Detect — mendeteksi kerentanan;
Patch — memperbaiki masalah;
Exploit — menggunakan untuk mencuri dana.

Hasil model AI

OpenAI menguji model-model terdepan dalam ketiga mode tersebut. Dalam kategori Exploit, model GPT-5.3-Codex mencapai 72,2%, GPT-5 — 31,9%. Sementara itu, indikator deteksi dan perbaikan kerentanan masih relatif rendah — banyak masalah yang tetap sulit ditemukan dan diperbaiki.

Dalam mode Detect, agen AI terkadang berhenti setelah menemukan satu kerentanan alih-alih melakukan audit lengkap. Dalam mode Patch, mereka masih kesulitan menutup masalah yang tidak langsung terlihat tanpa mengorbankan fungsi penuh kontrak.

“EVMbench tidak mencerminkan seluruh kompleksitas keamanan nyata dari kontrak pintar. Meskipun realistis dan kritis, banyak protokol menjalani audit yang lebih ketat dan mungkin lebih sulit untuk dieksploitasi,” tegas OpenAI.

Perlu diingat, pada November 2025, Microsoft memperkenalkan lingkungan pengujian agen AI dan mengungkapkan kerentanan yang melekat pada asisten digital modern.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

2 Suka