OpenAI merilis benchmark untuk menilai kemampuan agen AI dalam meretas smart contract - ForkLog: cryptocurrency, AI, singularitas, masa depan

robot
Pembuatan abstrak sedang berlangsung

img-ca55ff87898d6d28-5343455766779688# OpenAI merilis benchmark untuk menilai kemampuan agen AI dalam meretas kontrak pintar

Perusahaan OpenAI bersama Paradigm memperkenalkan EVMbench — sebuah benchmark untuk menilai kemampuan agen AI dalam mengidentifikasi, memperbaiki, dan mengeksploitasi celah dalam kontrak pintar.

Alat ini didasarkan pada 120 kerentanan yang dipilih dari 40 audit. Sebagian besar contoh diambil dari platform analisis kode terbuka. Selain itu, alat ini mencakup beberapa skenario serangan dari pengujian keamanan blockchain Tempo — jaringan tingkat pertama yang dikembangkan oleh Stripe dan Paradigm untuk pembayaran cepat dan murah dalam stablecoin.

Integrasi dengan Tempo memungkinkan penambahan kontrak pintar pembayaran ke dalam benchmark — segmen di mana penggunaan “stablecoin” dan agen AI diharapkan aktif.

“Kontrak pintar melindungi aset kripto senilai lebih dari $100 miliar. Seiring agen AI semakin mahir dalam membaca, menulis, dan menjalankan kode, menjadi semakin penting untuk mengukur kemampuan mereka dalam kondisi ekonomi nyata dan mendorong penggunaan kecerdasan buatan untuk tujuan perlindungan — seperti audit dan penguatan protokol yang sudah diterapkan,” kata pengumuman tersebut.

Untuk menciptakan lingkungan pengujian, OpenAI mengadaptasi exploit dan skrip yang ada, setelah memastikan kegunaannya secara praktis.

EVMbench menilai tiga mode kemampuan:

  • Detect — mendeteksi kerentanan;
  • Patch — memperbaiki masalah;
  • Exploit — menggunakan untuk mencuri dana.

Hasil model AI

OpenAI menguji model-model terdepan dalam ketiga mode tersebut. Dalam kategori Exploit, model GPT-5.3-Codex mencapai 72,2%, GPT-5 — 31,9%. Sementara itu, indikator deteksi dan perbaikan kerentanan masih relatif rendah — banyak masalah yang tetap sulit ditemukan dan diperbaiki.

Dalam mode Detect, agen AI terkadang berhenti setelah menemukan satu kerentanan alih-alih melakukan audit lengkap. Dalam mode Patch, mereka masih kesulitan menutup masalah yang tidak langsung terlihat tanpa mengorbankan fungsi penuh kontrak.

“EVMbench tidak mencerminkan seluruh kompleksitas keamanan nyata dari kontrak pintar. Meskipun realistis dan kritis, banyak protokol menjalani audit yang lebih ketat dan mungkin lebih sulit untuk dieksploitasi,” tegas OpenAI.

Perlu diingat, pada November 2025, Microsoft memperkenalkan lingkungan pengujian agen AI dan mengungkapkan kerentanan yang melekat pada asisten digital modern.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan

Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)