# «Tiêm prompt» đã trở thành mối nguy hiểm chính đối với trình duyệt AI.
Công ty OpenAI đã thông báo về lỗ hổng của trình duyệt AI và các biện pháp củng cố an ninh cho giải pháp của mình - Atlas.
Công ty đã thừa nhận rằng các cuộc tấn công kiểu “tiêm lệnh”, thao túng các đại lý để thực hiện các hướng dẫn độc hại, là một rủi ro. Và nó sẽ không biến mất trong thời gian tới.
«Lỗ hổng tương tự, như lừa đảo và kỹ thuật xã hội trên internet, khó có thể bị loại bỏ hoàn toàn», — OpenAI đã viết.
Cô ấy đã lưu ý rằng “chế độ đại lý” trong Atlas “tăng diện tích mối đe dọa”.
Ngoài dự án khởi nghiệp của Sam Altman, các chuyên gia khác cũng đã chú ý đến vấn đề này. Đầu tháng 12, Trung tâm An ninh mạng Quốc gia Vương quốc Anh đã cảnh báo rằng các cuộc tấn công tích hợp với prompt độc hại “sẽ không bao giờ biến mất”. Chính phủ đã khuyên các chuyên gia an ninh mạng không nên cố gắng ngăn chặn vấn đề, mà là giảm thiểu rủi ro và hậu quả.
«Chúng tôi coi đây là một vấn đề an ninh trí tuệ nhân tạo lâu dài và sẽ liên tục củng cố các biện pháp bảo vệ của mình», — OpenAI đã chỉ ra.
Biện pháp chống lại
Tiêm prompt là cách thao túng AI, khi văn bản được thêm vào đầu vào của nó một cách cố ý, khiến nó bỏ qua các hướng dẫn ban đầu.
OpenAI đã thông báo về việc áp dụng chu trình phản ứng nhanh chủ động, cho thấy những kết quả đầy hứa hẹn trong việc tìm kiếm các chiến lược tấn công mới trước khi chúng xuất hiện “trong các điều kiện thực tế”.
Anthropic và Google bày tỏ những suy nghĩ tương tự. Các đối thủ cạnh tranh đề xuất áp dụng bảo mật đa tầng và liên tục tiến hành thử nghiệm căng thẳng.
OpenAI sử dụng “kẻ tấn công tự động dựa trên LLM” - một bot AI được đào tạo để đóng vai trò như một hacker, tìm cách xâm nhập vào tác nhân bằng các prompt độc hại.
Kẻ lừa đảo trí tuệ nhân tạo có khả năng kiểm tra khai thác lỗ hổng trong một mô phỏng, cái sẽ cho thấy hành động của mạng nơ-ron bị tấn công. Sau đó, bot sẽ nghiên cứu phản ứng, điều chỉnh hành động và thực hiện nỗ lực thứ hai, sau đó là thứ ba và cứ như vậy.
Người bên ngoài không có quyền truy cập vào thông tin về tư duy nội bộ của trí tuệ nhân tạo mục tiêu. Về lý thuyết, “hacker ảo” nên tìm ra các lỗ hổng nhanh hơn kẻ xấu thực sự.
«Trợ lý AI của chúng tôi có thể thúc đẩy đại lý thực hiện các quy trình độc hại phức tạp, dài hạn, được khởi động trong hàng chục hoặc thậm chí hàng trăm bước. Chúng tôi đã quan sát thấy các chiến lược tấn công mới mà không xuất hiện trong chiến dịch của chúng tôi với sự tham gia của những người từ đội đỏ hoặc trong các báo cáo bên ngoài», theo blog của OpenAI.
Biểu diễn thử nghiệm. Nguồn: blog OpenAI. Trong ví dụ này, một kẻ tấn công tự động đã gửi một bức thư đến email của người dùng. Sau đó, tác nhân AI đã quét dịch vụ email và thực hiện các hướng dẫn ẩn, gửi thông báo sa thải thay vì soạn thảo câu trả lời về việc vắng mặt tại nơi làm việc.
Sau khi cập nhật bảo mật, “chế độ đại lý” đã có thể phát hiện nỗ lực tiêm prompt đột ngột và đánh dấu nó cho người dùng.
OpenAI đã nhấn mạnh rằng, mặc dù khó khăn để bảo vệ một cách đáng tin cậy chống lại loại tấn công này, nhưng nó dựa vào việc thử nghiệm trên quy mô lớn và các chu kỳ sửa chữa nhanh.
Khuyến nghị cho người dùng
Trưởng nhóm nghiên cứu an ninh tại công ty Wiz, Rami McCarthy, nhấn mạnh rằng học tăng cường là một trong những cách chính để liên tục thích ứng với hành vi của kẻ xấu, nhưng đó chỉ là một phần của bức tranh.
«Cách hữu ích để suy nghĩ về rủi ro trong các hệ thống AI là độ tự chủ, nhân với khả năng tiếp cận. Các trình duyệt đại diện đang ở trong phần phức tạp của không gian này: độ tự chủ vừa phải kết hợp với khả năng tiếp cận rất cao. Nhiều khuyến nghị hiện tại phản ánh sự thỏa hiệp này. Hạn chế quyền truy cập sau khi đăng nhập chủ yếu giảm thiểu độ dễ bị tổn thương, trong khi yêu cầu xác minh các yêu cầu xác nhận giới hạn độ tự chủ», — chuyên gia cho biết.
Hai khuyến nghị này được OpenAI cung cấp cho người dùng để giảm thiểu rủi ro. Công ty khởi nghiệp cũng đề xuất đưa ra hướng dẫn cụ thể cho các đại lý, thay vì cho phép truy cập vào email và yêu cầu “thực hiện bất kỳ hành động cần thiết nào”.
MacCarthy đã lưu ý rằng cho đến nay, các trình duyệt có tích hợp các đại lý AI không mang lại đủ lợi ích để biện minh cho hồ sơ rủi ro.
“Số dư này sẽ phát triển, nhưng hôm nay các thỏa hiệp vẫn rất thực tế,” - ông kết luận.
Nhắc lại, vào tháng 11, các chuyên gia của Microsoft đã giới thiệu môi trường để thử nghiệm các đại lý AI và phát hiện ra những lỗ hổng vốn có của các trợ lý kỹ thuật số hiện đại.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
«Tiêm prompt» đã trở thành mối nguy hiểm chính cho các trình duyệt AI - ForkLog: tiền điện tử, AI, điểm kỳ diệu, tương lai
Công ty OpenAI đã thông báo về lỗ hổng của trình duyệt AI và các biện pháp củng cố an ninh cho giải pháp của mình - Atlas.
Công ty đã thừa nhận rằng các cuộc tấn công kiểu “tiêm lệnh”, thao túng các đại lý để thực hiện các hướng dẫn độc hại, là một rủi ro. Và nó sẽ không biến mất trong thời gian tới.
Cô ấy đã lưu ý rằng “chế độ đại lý” trong Atlas “tăng diện tích mối đe dọa”.
Ngoài dự án khởi nghiệp của Sam Altman, các chuyên gia khác cũng đã chú ý đến vấn đề này. Đầu tháng 12, Trung tâm An ninh mạng Quốc gia Vương quốc Anh đã cảnh báo rằng các cuộc tấn công tích hợp với prompt độc hại “sẽ không bao giờ biến mất”. Chính phủ đã khuyên các chuyên gia an ninh mạng không nên cố gắng ngăn chặn vấn đề, mà là giảm thiểu rủi ro và hậu quả.
Biện pháp chống lại
Tiêm prompt là cách thao túng AI, khi văn bản được thêm vào đầu vào của nó một cách cố ý, khiến nó bỏ qua các hướng dẫn ban đầu.
OpenAI đã thông báo về việc áp dụng chu trình phản ứng nhanh chủ động, cho thấy những kết quả đầy hứa hẹn trong việc tìm kiếm các chiến lược tấn công mới trước khi chúng xuất hiện “trong các điều kiện thực tế”.
Anthropic và Google bày tỏ những suy nghĩ tương tự. Các đối thủ cạnh tranh đề xuất áp dụng bảo mật đa tầng và liên tục tiến hành thử nghiệm căng thẳng.
OpenAI sử dụng “kẻ tấn công tự động dựa trên LLM” - một bot AI được đào tạo để đóng vai trò như một hacker, tìm cách xâm nhập vào tác nhân bằng các prompt độc hại.
Kẻ lừa đảo trí tuệ nhân tạo có khả năng kiểm tra khai thác lỗ hổng trong một mô phỏng, cái sẽ cho thấy hành động của mạng nơ-ron bị tấn công. Sau đó, bot sẽ nghiên cứu phản ứng, điều chỉnh hành động và thực hiện nỗ lực thứ hai, sau đó là thứ ba và cứ như vậy.
Người bên ngoài không có quyền truy cập vào thông tin về tư duy nội bộ của trí tuệ nhân tạo mục tiêu. Về lý thuyết, “hacker ảo” nên tìm ra các lỗ hổng nhanh hơn kẻ xấu thực sự.
Sau khi cập nhật bảo mật, “chế độ đại lý” đã có thể phát hiện nỗ lực tiêm prompt đột ngột và đánh dấu nó cho người dùng.
OpenAI đã nhấn mạnh rằng, mặc dù khó khăn để bảo vệ một cách đáng tin cậy chống lại loại tấn công này, nhưng nó dựa vào việc thử nghiệm trên quy mô lớn và các chu kỳ sửa chữa nhanh.
Khuyến nghị cho người dùng
Trưởng nhóm nghiên cứu an ninh tại công ty Wiz, Rami McCarthy, nhấn mạnh rằng học tăng cường là một trong những cách chính để liên tục thích ứng với hành vi của kẻ xấu, nhưng đó chỉ là một phần của bức tranh.
Hai khuyến nghị này được OpenAI cung cấp cho người dùng để giảm thiểu rủi ro. Công ty khởi nghiệp cũng đề xuất đưa ra hướng dẫn cụ thể cho các đại lý, thay vì cho phép truy cập vào email và yêu cầu “thực hiện bất kỳ hành động cần thiết nào”.
MacCarthy đã lưu ý rằng cho đến nay, các trình duyệt có tích hợp các đại lý AI không mang lại đủ lợi ích để biện minh cho hồ sơ rủi ro.
Nhắc lại, vào tháng 11, các chuyên gia của Microsoft đã giới thiệu môi trường để thử nghiệm các đại lý AI và phát hiện ra những lỗ hổng vốn có của các trợ lý kỹ thuật số hiện đại.