# “Injeksi prompt” menjadi ancaman utama bagi browser AI
Perusahaan OpenAI mengungkapkan tentang kerentanan browser AI dan langkah-langkah untuk memperkuat keamanan solusi mereka sendiri — Atlas.
Perusahaan mengakui bahwa serangan jenis “injeksi prompt”, yang memanipulasi agen untuk melaksanakan instruksi berbahaya, merupakan risiko. Dan itu tidak akan hilang dalam waktu dekat.
«Kerentanan semacam itu, seperti penipuan dan rekayasa sosial di internet, kemungkinan besar tidak akan pernah sepenuhnya dihilangkan», — tulis OpenAI.
Dia mencatat bahwa “mode agen” di Atlas “meningkatkan luas ancaman”.
Selain startup Sam Altman, masalah ini juga menarik perhatian para ahli lainnya. Pada awal Desember, Pusat Keamanan Siber Inggris memperingatkan bahwa serangan dengan integrasi prompt berbahaya “tidak akan pernah hilang”. Pemerintah menyarankan para ahli siber untuk tidak mencoba menghentikan masalah ini, tetapi untuk mengurangi risiko dan konsekuensinya.
«Kami menganggap ini sebagai masalah keamanan kecerdasan buatan jangka panjang dan akan terus memperkuat perlindungan kami,» kata OpenAI.
Langkah-langkah pencegahan
Injeksi prompt adalah cara untuk memanipulasi AI, di mana teks secara khusus ditambahkan ke inputnya yang membuatnya mengabaikan instruksi asli.
OpenAI mengumumkan penerapan siklus respons cepat proaktif, yang menunjukkan hasil menjanjikan dalam mencari strategi serangan baru sebelum muncul “dalam kondisi nyata”.
Anthropic dan Google mengungkapkan pemikiran yang serupa. Para pesaing menawarkan untuk menerapkan perlindungan multilapis dan terus melakukan uji stres.
OpenAI menggunakan “penyerang otomatis berbasis LLM” — bot AI yang dilatih untuk berperan sebagai peretas yang mencari cara untuk menyusup ke agen dengan prompt jahat.
Penipu buatan dapat menguji eksploitasi kerentanan dalam simulator, yang akan menunjukkan tindakan dari jaringan saraf yang diserang. Kemudian bot akan mempelajari reaksi, mengoreksi tindakan, dan melakukan percobaan kedua, kemudian ketiga, dan seterusnya.
Pihak luar tidak memiliki akses ke informasi tentang pemikiran internal AI target. Dalam teori, “peretas virtual” harus menemukan kerentanan lebih cepat daripada penyerang nyata.
«Asisten AI kami dapat mendorong agen untuk melakukan proses berbahaya yang kompleks dan jangka panjang, yang diluncurkan dalam puluhan atau bahkan ratusan langkah. Kami telah mengamati strategi serangan baru yang tidak muncul dalam kampanye kami yang melibatkan orang-orang dari tim merah atau dalam laporan eksternal,» kata blog OpenAI.
Demonstrasi tes. Sumber: blog OpenAI. Dalam contoh ini, penyerang otomatis mengirim email ke pengguna. Kemudian agen AI memindai layanan email dan menjalankan instruksi tersembunyi, mengirimkan pesan pemecatan alih-alih menyusun balasan tentang ketidakhadiran di tempat kerja.
Setelah pembaruan keamanan, “mode agen” dapat mendeteksi upaya injeksi prompt secara tiba-tiba dan menandainya untuk pengguna.
OpenAI menekankan bahwa, meskipun sulit untuk melindungi diri dari jenis serangan ini dengan cara yang andal, ia bergantung pada pengujian skala besar dan siklus perbaikan yang cepat.
Rekomendasi untuk pengguna
Peneliti utama keamanan di perusahaan Wiz, Rami McCarthy, menekankan bahwa pembelajaran dengan penguatan adalah salah satu cara utama untuk terus beradaptasi dengan perilaku pelaku jahat, tetapi itu hanya sebagian dari gambaran.
“Cara berguna untuk mempertimbangkan risiko dalam sistem AI adalah otonomi, dikalikan dengan akses. Browser agen berada di bagian kompleks dari ruang ini: otonomi sedang dikombinasikan dengan akses yang sangat tinggi. Banyak rekomendasi saat ini mencerminkan kompromi ini. Pembatasan akses setelah masuk terutama mengurangi kerentanan, dan permintaan verifikasi permintaan membatasi otonomi,” kata pakar.
Dua rekomendasi ini diberikan oleh OpenAI kepada pengguna untuk mengurangi risiko. Startup juga menyarankan untuk memberikan instruksi yang spesifik kepada agen, bukan memberikan akses ke email dan meminta “mengambil tindakan yang diperlukan.”
Makarti mencatat bahwa hingga saat ini, browser dengan agen AI bawaan tidak memberikan manfaat yang cukup untuk membenarkan profil risiko.
«Saldo ini akan berkembang, tetapi hari ini kompromi masih sangat nyata», — ia menyimpulkan.
Perlu diingat, pada bulan November, para ahli Microsoft memperkenalkan lingkungan untuk pengujian agen AI dan mengidentifikasi kerentanan yang melekat pada asisten digital modern.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
"Injeksi prompt" menjadi bahaya utama bagi browser AI - ForkLog: cryptocurrency, AI, singularitas, masa depan
Perusahaan OpenAI mengungkapkan tentang kerentanan browser AI dan langkah-langkah untuk memperkuat keamanan solusi mereka sendiri — Atlas.
Perusahaan mengakui bahwa serangan jenis “injeksi prompt”, yang memanipulasi agen untuk melaksanakan instruksi berbahaya, merupakan risiko. Dan itu tidak akan hilang dalam waktu dekat.
Dia mencatat bahwa “mode agen” di Atlas “meningkatkan luas ancaman”.
Selain startup Sam Altman, masalah ini juga menarik perhatian para ahli lainnya. Pada awal Desember, Pusat Keamanan Siber Inggris memperingatkan bahwa serangan dengan integrasi prompt berbahaya “tidak akan pernah hilang”. Pemerintah menyarankan para ahli siber untuk tidak mencoba menghentikan masalah ini, tetapi untuk mengurangi risiko dan konsekuensinya.
Langkah-langkah pencegahan
Injeksi prompt adalah cara untuk memanipulasi AI, di mana teks secara khusus ditambahkan ke inputnya yang membuatnya mengabaikan instruksi asli.
OpenAI mengumumkan penerapan siklus respons cepat proaktif, yang menunjukkan hasil menjanjikan dalam mencari strategi serangan baru sebelum muncul “dalam kondisi nyata”.
Anthropic dan Google mengungkapkan pemikiran yang serupa. Para pesaing menawarkan untuk menerapkan perlindungan multilapis dan terus melakukan uji stres.
OpenAI menggunakan “penyerang otomatis berbasis LLM” — bot AI yang dilatih untuk berperan sebagai peretas yang mencari cara untuk menyusup ke agen dengan prompt jahat.
Penipu buatan dapat menguji eksploitasi kerentanan dalam simulator, yang akan menunjukkan tindakan dari jaringan saraf yang diserang. Kemudian bot akan mempelajari reaksi, mengoreksi tindakan, dan melakukan percobaan kedua, kemudian ketiga, dan seterusnya.
Pihak luar tidak memiliki akses ke informasi tentang pemikiran internal AI target. Dalam teori, “peretas virtual” harus menemukan kerentanan lebih cepat daripada penyerang nyata.
Setelah pembaruan keamanan, “mode agen” dapat mendeteksi upaya injeksi prompt secara tiba-tiba dan menandainya untuk pengguna.
OpenAI menekankan bahwa, meskipun sulit untuk melindungi diri dari jenis serangan ini dengan cara yang andal, ia bergantung pada pengujian skala besar dan siklus perbaikan yang cepat.
Rekomendasi untuk pengguna
Peneliti utama keamanan di perusahaan Wiz, Rami McCarthy, menekankan bahwa pembelajaran dengan penguatan adalah salah satu cara utama untuk terus beradaptasi dengan perilaku pelaku jahat, tetapi itu hanya sebagian dari gambaran.
Dua rekomendasi ini diberikan oleh OpenAI kepada pengguna untuk mengurangi risiko. Startup juga menyarankan untuk memberikan instruksi yang spesifik kepada agen, bukan memberikan akses ke email dan meminta “mengambil tindakan yang diperlukan.”
Makarti mencatat bahwa hingga saat ini, browser dengan agen AI bawaan tidak memberikan manfaat yang cukup untuk membenarkan profil risiko.
Perlu diingat, pada bulan November, para ahli Microsoft memperkenalkan lingkungan untuk pengujian agen AI dan mengidentifikasi kerentanan yang melekat pada asisten digital modern.