Pindai untuk Mengunduh Aplikasi Gate
qrCode
Opsi Unduhan Lainnya
Jangan ingatkan saya lagi hari ini

Trik Aneh Ini Mengalahkan Fitur Keamanan AI dalam 99% Kasus

Pusat Seni, Mode, dan Hiburan Decrypt.


Temukan SCENE

<br>

Peneliti AI dari Anthropic, Stanford, dan Oxford telah menemukan bahwa membuat model AI berpikir lebih lama memudahkan mereka untuk dibobol—bertentangan dengan apa yang diasumsikan semua orang.

Anggapan yang berlaku adalah bahwa penalaran yang diperpanjang akan membuat model AI lebih aman, karena memberikan mereka lebih banyak waktu untuk mendeteksi dan menolak permintaan yang berbahaya. Sebaliknya, para peneliti menemukan bahwa itu menciptakan metode jailbreak yang dapat diandalkan yang sepenuhnya melewati filter keselamatan.

Dengan menggunakan teknik ini, seorang penyerang dapat menyisipkan instruksi dalam proses Chain of Thought dari model AI mana pun dan memaksanya untuk menghasilkan instruksi untuk membuat senjata, menulis kode malware, atau memproduksi konten terlarang lainnya yang biasanya akan memicu penolakan langsung. Perusahaan AI menghabiskan jutaan untuk membangun pengaman ini tepat untuk mencegah keluaran semacam itu.

Studi ini mengungkapkan bahwa Chain-of-Thought Hijacking mencapai tingkat keberhasilan serangan 99% pada Gemini 2.5 Pro, 94% pada GPT o4 mini, 100% pada Grok 3 mini, dan 94% pada Claude 4 Sonnet. Angka-angka ini menghancurkan setiap metode jailbreak sebelumnya yang diuji pada model pemrosesan besar.

Serangan ini sederhana dan bekerja seperti permainan “Whisper Down the Lane” ( atau “Telephone” ), dengan pemain jahat di suatu tempat dekat akhir jalur. Anda cukup menambahkan permintaan berbahaya dengan urutan panjang dari teka-teki yang tidak berbahaya; peneliti menguji grid Sudoku, teka-teki logika, dan masalah matematika abstrak. Tambahkan petunjuk jawaban akhir di akhir, dan pengaman model runtuh.

“Karya sebelumnya menunjukkan bahwa penalaran skala ini dapat memperkuat keselamatan dengan meningkatkan penolakan. Namun, kami menemukan sebaliknya,” tulis para peneliti. Kemampuan yang sama yang membuat model ini lebih cerdas dalam memecahkan masalah membuat mereka buta terhadap bahaya.

Inilah yang terjadi di dalam model: Ketika Anda meminta AI untuk menyelesaikan teka-teki sebelum menjawab pertanyaan berbahaya, perhatian AI teralihkan ke ribuan token penalaran yang tidak berbahaya. Instruksi berbahaya—yang terkubur di suatu tempat dekat akhir—mendapatkan hampir tidak ada perhatian. Pemeriksaan keamanan yang biasanya menangkap prompt berbahaya melemah secara dramatis seiring dengan semakin panjangnya rantai penalaran.

Ini adalah masalah yang disadari oleh banyak orang yang akrab dengan AI, tetapi dengan tingkat kesadaran yang lebih rendah. Beberapa prompt jailbreak sengaja dibuat panjang untuk membuat model membuang token sebelum memproses instruksi berbahaya.

Tim melakukan eksperimen terkontrol pada model S1 untuk mengisolasi efek panjang penalaran. Dengan penalaran minimal, tingkat keberhasilan serangan mencapai 27%. Pada panjang penalaran yang alami, angka itu melonjak menjadi 51%. Memaksa model untuk berpikir langkah demi langkah yang lebih panjang, dan tingkat keberhasilan melambung hingga 80%.

Setiap AI komersial besar menjadi korban serangan ini. GPT milik OpenAI, Claude dari Anthropic, Gemini dari Google, dan Grok dari xAI—tidak ada yang kebal. Kerentanan ini ada dalam arsitektur itu sendiri, bukan dalam implementasi tertentu.

Model AI mengkode kekuatan pemeriksaan keamanan di lapisan tengah sekitar lapisan 25. Lapisan akhir mengkode hasil verifikasi. Rangkaian panjang penalaran yang tidak berbahaya menekan kedua sinyal yang pada akhirnya mengalihkan perhatian dari token berbahaya.

Para peneliti mengidentifikasi kepala perhatian tertentu yang bertanggung jawab untuk pemeriksaan keselamatan, terkonsentrasi di lapisan 15 hingga 35. Mereka secara bedah menghapus 60 dari kepala-kepala ini. Perilaku penolakan runtuh. Instruksi berbahaya menjadi tidak mungkin dideteksi oleh model.

“Lapisan” dalam model AI seperti langkah-langkah dalam resep, di mana setiap langkah membantu komputer memahami dan memproses informasi dengan lebih baik. Lapisan-lapisan ini bekerja sama, meneruskan apa yang mereka pelajari dari satu ke yang berikutnya, sehingga model dapat menjawab pertanyaan, membuat keputusan, atau menemukan masalah. Beberapa lapisan sangat baik dalam mengenali masalah keamanan—seperti memblokir permintaan berbahaya—sementara yang lain membantu model berpikir dan bernalar. Dengan menumpuk lapisan-lapisan ini, AI bisa menjadi jauh lebih pintar dan lebih hati-hati tentang apa yang dikatakannya atau dilakukannya.

Jailbreak baru ini menantang asumsi inti yang mendorong pengembangan AI terbaru. Selama setahun terakhir, perusahaan AI besar beralih fokus ke pengembangan kemampuan penalaran daripada jumlah parameter yang mentah. Skala tradisional menunjukkan hasil yang semakin menurun. Penalaran waktu inferensi—membuat model berpikir lebih lama sebelum menjawab—menjadi frontier baru untuk peningkatan kinerja.

Asumsi tersebut adalah bahwa lebih banyak berpikir sama dengan keselamatan yang lebih baik. Penalaran yang lebih lama akan memberi model lebih banyak waktu untuk mendeteksi permintaan berbahaya dan menolaknya. Penelitian ini membuktikan bahwa asumsi itu tidak akurat, dan bahkan mungkin salah.

Sebuah serangan terkait yang disebut H-CoT, dirilis pada bulan Februari oleh peneliti dari Universitas Duke dan Universitas Nasional Tsing Hua Taiwan, mengeksploitasi kerentanan yang sama dari sudut yang berbeda. Alih-alih menggunakan teka-teki untuk padding, H-CoT memanipulasi langkah penalaran model itu sendiri. Model o1 OpenAI mempertahankan tingkat penolakan 99% dalam kondisi normal. Di bawah serangan H-CoT, angka itu turun di bawah 2%.

Para peneliti mengusulkan sebuah pertahanan: pemantauan yang sadar akan penalaran. Ini melacak bagaimana sinyal keselamatan berubah di setiap langkah penalaran, dan jika ada langkah yang melemahkan sinyal keselamatan, maka akan dihukum—memaksa model untuk tetap memperhatikan konten yang berpotensi berbahaya terlepas dari panjang penalaran. Uji coba awal menunjukkan bahwa pendekatan ini dapat mengembalikan keselamatan tanpa merusak kinerja.

Namun, implementasinya tetap tidak pasti. Pertahanan yang diusulkan memerlukan integrasi mendalam ke dalam proses penalaran model, yang jauh dari sekadar tambalan atau filter sederhana. Ini perlu memantau aktivasi internal di seluruh puluhan lapisan secara real-time, menyesuaikan pola perhatian secara dinamis. Itu mahal secara komputasi dan kompleks secara teknis.

Para peneliti mengungkapkan kerentanan tersebut kepada OpenAI, Anthropic, Google DeepMind, dan xAI sebelum publikasi. “Semua kelompok mengakui penerimaan, dan beberapa sedang secara aktif mengevaluasi mitigasi,” klaim para peneliti dalam pernyataan etika mereka.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)