Tin tức Gate News, OpenAI chính thức ra mắt chương trình thưởng lỗ hổng bảo mật mới, tập trung chuyển hướng từ các lỗ hổng kỹ thuật truyền thống sang rủi ro lạm dụng trí tuệ nhân tạo, đánh dấu giai đoạn mới trong quản trị an toàn AI. Chương trình này giới thiệu sự tham gia của các nhà nghiên cứu bên ngoài nhằm phát hiện sớm các nguy cơ tiềm ẩn của mô hình trong các tình huống thực tế.
Chương trình do OpenAI phối hợp cùng Bugcrowd triển khai, mở cửa cho các hacker đạo đức, nhà nghiên cứu và nhà phân tích an ninh. Khác với cơ chế thưởng lỗ hổng trước đây, kế hoạch mới không chỉ tập trung vào các lỗi hệ thống mà còn khuyến khích gửi các trường hợp rủi ro liên quan đến việc chèn lệnh, lạm dụng proxy và các hành vi khác. Những vấn đề này có thể khiến mô hình cho ra kết quả lệch khỏi dự kiến hoặc gây ra hậu quả không kiểm soát được trong môi trường phức tạp.
Về mặt quy định, OpenAI cho phép các nhà nghiên cứu gửi báo cáo an toàn không liên quan đến lỗi kỹ thuật rõ ràng, ví dụ như nội dung không phù hợp do mô hình tạo ra hoặc các tình huống gây hiểu lầm tiềm tàng. Tuy nhiên, nền tảng nhấn mạnh rằng nội dung gửi phải có bằng chứng rõ ràng và giá trị rủi ro thực tế; các thử nghiệm jailbreak thuần túy sẽ không được chấp nhận. Đồng thời, các phát hiện liên quan đến an toàn sinh học hoặc các vấn đề nhạy cảm khác sẽ được xử lý qua kênh riêng tư để giảm thiểu rủi ro lan truyền thông tin.
Chính sách này đã gây ra các ý kiến trái chiều trong ngành công nghệ. Một số chuyên gia cho rằng đây là bước tiến quan trọng thúc đẩy tính minh bạch và hợp tác an toàn AI, giúp xây dựng hệ thống nhận diện rủi ro mở rộng hơn; tuy nhiên, cũng có ý kiến cho rằng cơ chế này khó có thể xử lý các vấn đề đạo đức và trách nhiệm sâu xa hơn, như giới hạn sử dụng dữ liệu và cơ chế chịu trách nhiệm của nền tảng.
Theo xu hướng ngành, an toàn trí tuệ nhân tạo đang mở rộng từ khía cạnh kỹ thuật đơn thuần sang tác động xã hội. OpenAI thông qua cơ chế thử nghiệm mở khuyến khích các lực lượng bên ngoài tham gia đánh giá rủi ro, góp phần hoàn thiện hệ thống phòng vệ và tăng cường niềm tin của người dùng. Tuy nhiên, chương trình này không phải là giải pháp toàn diện, các cuộc thảo luận về khung pháp lý, quản trị dài hạn và phân chia trách nhiệm vẫn sẽ tiếp tục. Khi khả năng AI ngày càng mạnh mẽ hơn, các cơ chế phòng thủ chủ động như vậy có thể trở thành tiêu chuẩn ngành.