OpenAI випустила бенчмарк для оцінки здатності ІІ-агентів зламувати смарт-контракти - ForkLog: криптовалюти, ІІ, сингулярність, майбутнє

robot
Генерація анотацій у процесі

img-ca55ff87898d6d28-5343455766779688# OpenAI випустила бенчмарк для оцінки здатності ІІ-агентів зламувати смарт-контракти

Компанія OpenAI спільно з Paradigm представила EVMbench — бенчмарк для оцінки здатності ІІ-агентів виявляти, виправляти та експлуатувати вразливості у смарт-контрактах.

Інструмент базується на 120 відібраних уразливостях із 40 аудитів. Більшість прикладів взято з відкритих платформ для аналізу коду. Також він включає кілька сценаріїв атак із перевірки безпеки блокчейну Tempo — спеціалізованої мережі першого рівня, розробленої Stripe і Paradigm для високопродуктивних і недорогих платежів у стейблкоінах.

Інтеграція з Tempo дозволила додати до бенчмарку платіжні смарт-контракти — сегмент, де очікується активне застосування «стабільних монет» і ІІ-агентів.

«Смарт-контракти захищають криптоактиви на суму понад $100 млрд. У міру вдосконалення ІІ-агентів у читанні, написанні та виконанні коду стає все важливішим вимірювати їхні можливості в реальних економічних умовах і заохочувати використання штучного інтелекту для захисту — для аудиту та зміцнення вже розгорнутих протоколів», — йдеться у анонсі.

Для створення тестового середовища OpenAI адаптувала існуючі експлойти та скрипти, попередньо переконавшись у їхній практичній застосовності.

EVMbench оцінює три режими можливостей:

  • Detect — виявлення уразливостей;
  • Patch — усунення проблем;
  • Exploit — використання для крадіжки коштів.

Результативність ІІ-моделей

OpenAI протестувала передові моделі у всіх трьох режимах. У категорії Exploit модель GPT-5.3-Codex досягла 72,2%, GPT-5 — 31,9%. При цьому показники виявлення та виправлення уразливостей були скромнішими — багато проблем досі важко знаходити та усувати.

У режимі Detect ІІ-агенти іноді зупиняються після виявлення однієї уразливості замість проведення повного аудиту. У режимі Patch їм поки важко закривати неочевидні проблеми так, щоб зберегти повну функціональність контракту.

«EVMbench не відображає всієї складності реальної безпеки смарт-контрактів. Хоча вони реалістичні й критичні, багато протоколів проходять більш строгий аудит і можуть бути складнішими для експлуатації», — підкреслили в OpenAI.

Нагадаємо, у листопаді 2025 року Microsoft представила середовище для тестування ІІ-агентів і виявила уразливості, властиві сучасним цифровим помічникам.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити