AI-Prüfung geht in die Praxis, OpenAI veröffentlicht EVMbench, zur Verstärkung der Sicherheitseinstufung von Smart Contracts

ETH-2,3%
WELL-5,24%

OpenAI kooperiert mit Paradigm bei der Einführung von EVMbench, um die Fähigkeiten von KI-Agenten bei Angriffen und Verteidigung in EVM-Verträgen zu testen und die Sicherheitslage zu offenbaren.

Fokus auf realistische Tests in der Wirtschaftsumgebung, OpenAI und Paradigm stärken die On-Chain-Sicherheitsbewertungen

Der führende Anbieter Künstlicher Intelligenz, OpenAI, kündigte eine Zusammenarbeit mit dem bekannten Kryptowährungs-Risikokapitalgeber Paradigm sowie dem Sicherheitsunternehmen OtterSec an, um das Benchmark-Tool EVMbench zu entwickeln, das die Sicherheitsleistung von KI-Agenten (AI Agents) bei Ethereum Virtual Machine (EVM)-Smart Contracts bewertet.

Mit der zunehmenden Verschmelzung von KI und Krypto-Technologien sind Smart Contracts zu einer zentralen Infrastruktur für die Verwaltung von über 100 Milliarden an Open-Source-Kryptogütern geworden. Die Einführung dieses Tools markiert den Beginn einer ernsthaften Auseinandersetzung der Branche mit den praktischen Fähigkeiten von KI in wirtschaftlich relevanten Umgebungen.

Das OpenAI-Team betont, dass mit den Fortschritten der KI-Agenten in den Bereichen Programmieren und Planung, diese Modelle künftig eine transformative Rolle bei Angriffen und Verteidigungen auf Blockchain spielen werden. Daher ist die Entwicklung eines standardisierten Bewertungsrahmens für die Überwachung des KI-Fortschritts von entscheidender Bedeutung.

Drei tiefgehende Testmodi, 120 reale Schwachstellen als Prüfstein für KI

Das Kernkonzept von EVMbench basiert auf 120 hochriskanten Schwachstellen, die aus 40 professionellen Audit-Berichten extrahiert wurden. Die Daten stammen aus bekannten öffentlichen Audit-Wettbewerben wie Code4rena, um realitätsnahe Testszenarien zu gewährleisten. Das Benchmark-Tool bewertet die KI-Agenten in drei unterschiedlichen Arbeitsmodi:

Abbildung: Das Kerndesign von OpenAI EVMbench ist es, KI-Agenten in drei verschiedenen Modi zu testen

  • Der erste ist der „Erkennungsmodus (Detect)“, bei dem die KI den Code von Verträgen auditiert und bekannte Schwachstellen identifiziert, wobei die Schwere der gefundenen Probleme bewertet wird;
  • Der zweite ist der „Patch-Modus (Patch)“, bei dem die KI herausgefordert wird, Schwachstellen zu entfernen und den Code zu reparieren, ohne die ursprüngliche Funktionalität zu beeinträchtigen;
  • Der letzte ist der kontroverse „Exploit-Modus (Exploit)“, bei dem die KI in einer sandboxed Blockchain-Umgebung End-to-End-Angriffe auf Gelder durchführt.

Um die Strenge und Reproduzierbarkeit der Tests zu gewährleisten, hat das Team eine auf Rust basierende Testarchitektur entwickelt, die durch deterministische Transaktionswiedergabe überprüft, ob Angriffe oder Patches erfolgreich sind.

Deutlicher Trend: Angriffsfähigkeit wächst, GPT-5.3-Codex zeigt beeindruckende Fortschritte

Die ersten Testergebnisse zeigen eine deutliche Leistungsdifferenz zwischen den verschiedenen Aufgaben. Die neueste Generation, GPT-5.3-Codex, zeigt im Exploit-Modus eine hervorragende Leistung mit einer Punktzahl von 72,2 %, verglichen mit nur 31,9 % bei dem vor sechs Monaten veröffentlichten GPT-5-Modell. Dies verdeutlicht eine erstaunliche Steigerung der Angriffsfähigkeit.

Abbildung: Übersicht der Punktzahlen verschiedener KI-Modelle in den drei Modi

Dies zeigt, dass KI bei klaren Zielen wie „Geld leeren“ über starke iterative Planungs- und Ausführungskapazitäten verfügt. Auf der Verteidigungsseite sind die Ergebnisse jedoch eher schwach: Die KI neigt dazu, bei der Erkennung nur eine einzelne Schwachstelle zu finden und die Suche dann abzubrechen. Bei komplexen Logik-Repair-Aufgaben ist es oft schwierig, Schwachstellen zu beheben, ohne die normale Funktion des Vertrags zu beeinträchtigen. Sicherheitsexperten äußern Bedenken, dass KI die Zeit von Schwachstellenentdeckung bis zur Entwicklung von Angriffsmethoden erheblich verkürzen könnte, was höhere Anforderungen an die Verteidigung von DeFi-Projekten stellt.

Talente und Verteidigungsförderung: OpenAI baut die Sicherheit des KI-Agenten-Ökosystems aus

Neben der Tool-Entwicklung investiert OpenAI auch in Talentakquise und Ökosystemverteidigung. Kürzlich wurde der Gründer des OpenClaw-Projekts, Peter Steinberger, eingestellt, um die Entwicklung personalisierter KI-Agenten der nächsten Generation zu leiten, und das Projekt wird in ein von OpenAI unterstütztes Foundation-Modell umgewandelt.

Um den möglichen Cybersecurity-Risiken durch KI entgegenzuwirken, kündigte OpenAI an, im Rahmen seines Cybersecurity-Förderprogramms 10 Millionen US-Dollar an API-Guthaben bereitzustellen, um Open-Source-Verteidigungstools und kritische Infrastruktur zu unterstützen. Diese Initiative ist besonders relevant nach dem kürzlichen Vorfall bei Moonwell, bei dem ein Fehler im gemeinsam genutzten Code zu einem Verlust von etwa 1,78 Millionen US-Dollar führte.

Weiterführende Literatur
Ablehnung eines Milliardenangebots von Meta, OpenClaw-Gründer schließt sich OpenAI an – Talentwettbewerb entbrennt
Vibe Coding-Fehler? Moonwell-Orakel versagt, 1,78 Mio. Verlust – wer trägt die Kosten?

Zukünftig wird es immer wichtiger, mit Tools wie EVMbench zwischen Modellen zu unterscheiden, die nur Schwachstellen beschreiben können, und solchen, die zuverlässige Verteidigungsstrategien bieten, insbesondere wenn mehr KI-gestützte Stablecoin-Zahlungsagenten und automatisierte Wallets in das Ökosystem integriert werden.

Original anzeigen
Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Verwandte Artikel

WLFI führt AgentPay ein, USD1 positioniert sich als native Abrechnungsschicht für KI-Agenten

Das von WLFI eingeführte AgentPay SDK wurde speziell für AI-Agent-Systeme entwickelt und ermöglicht diesen, Mittel eigenständig zu verwalten und Transaktionen auf EVM-kompatiblen Blockchains ohne manuellen Eingriff auszuführen. Dieses Open-Source-Zahlungsframework zielt darauf ab, die Compliance und Sicherheit der Finanzinfrastruktur zu verbessern und USD1 als Abrechnungsasset für AI-native Transaktionen neu zu positionieren. Dies zeigt den Trend der Kryptoindustrie hin zu einer AI-gesteuerten Agent-Economy.

MarketWhisper16M her

Amundi bringt tokenisierten SAFO-Fonds auf den Markt! Europäischer Vermögensverwalter-Riese drängt in den RWA-Markt mit 52 Milliarden Dollar

Amundi bringt tokenisierten SAFO-Fonds auf den Markt und kombiniert Ethereum, Stellar und Chainlink mit Fokus auf Unternehmensfinanzierung und Collateral-Management. Der Fonds startet mit 100 Millionen Dollar und bietet mehrere Währungen an, wobei Echtzeit-Abwicklung und Transparenz im Mittelpunkt stehen. Mit der rasanten Expansion des RWA-Marktes markiert Amundis Schritt die zunehmende Mainstream-Adoption tokenisierter Finanzmittel, da Unternehmen Blockchain in ihre Finanzabläufe integrieren.

CryptoCity20M her

Ondo Finance bringt über 60 neue tokenisierte Aktien online, Gesamtzahl der Vermögenswerte überschreitet 250

Gate News Meldung, am 20. März kündigte Ondo Finance an, dass über 60 neue tokenisierte Aktien live gestellt wurden, die 8 Bereiche abdecken, darunter AI, Öl, Daten, Weltraum, Biotechnologie, Verteidigung, Quantencomputer und China-Exposure. Derzeit ist Ondo Global Markets auf Ethereum, Solana und BNB

GateNews24M her

Pi Launchpad ist offiziell im Testnetz gestartet, das Pi-Ökosystem-Token dient nicht mehr zu Fundraising-Zwecken

Pi Network kündigte seinen Pi Launchpad Testnet an, das sich auf die Benutzerakquisition von Token und die Produktnützlichkeit konzentriert. Die drei Kerndesigns sind: Tokennutzung für Benutzerakquisition, Einnahmen fließen in Liquiditätspools, und es muss ein funktionierendes Produkt geben. Die Plattform unterstützt Projektteams bei der Förderung von Innovationen, während Early-Adopter auch an Tests teilnehmen und Token verdienen können, um positives Feedback zu schaffen. Dieses Design hilft beim Aufbau eines gesunden dezentralisierten Börsen-Ökosystems und vermeidet Probleme mit Spekulationstokens.

MarketWhisper25M her

Cursor veröffentlicht Composer 2-Programmiermodell, Preisreduzierung um 86 %, Leistung übertrifft Opus 4.4

Das KI-Programmiertool Cursor hat sein drittes Programmiermodell Composer 2 veröffentlicht, mit deutlich verbesserter Leistung und reduzierten Kosten. Der Standardpreis ist um 86% gesunken, und das Modell übertrifft in mehreren Benchmarks die vorherige Generation. Composer 2 wurde speziell für Cursor entwickelt und ist nicht als eigenständige API verfügbar. Anysphere wird auf 293 Milliarden Dollar bewertet.

GateNews29M her

PEPE-Mitgründer startet neues Projekt basierend auf Handelsgebühren-Einnahmemodus

Der Co-Gründer von PEPE kündigte am 20. März die Einführung eines neuen Projekts an, das Tokeninhabern auf der Grundlage von Handelsgebühreneinnahmen eine Einnahmequelle bietet. Trotz der Einführung von Shibarium durch Shiba Inu und der Integration von DeFi-Funktionen konnte der Tokenewert nicht stabilisiert werden, was zeigt, dass der langfristige Wert von Meme-Token auch mit praktischen Tools instabil bleibt. Die spezifischen Namen und Mechanismen des neuen Projekts wurden bislang nicht bekannt gegeben.

GateNews39M her
Kommentieren
0/400
Keine Kommentare