OpenAI hiếm khi công bố bài báo: Chúng tôi đã tìm ra thủ phạm gây ra ảo giác AI

Lỗi nổi tiếng nhất của AI là gì? Không phải là mã bị sập, mà là "ảo giác" - mô hình tự tin bịa ra sự thật khiến bạn khó phân biệt thật giả. Thách thức cơ bản này là rào cản chính ngăn cản chúng ta hoàn toàn tin tưởng vào AI.

Mô hình lớn có thể gặp ảo giác, điều này gần như đã trở thành một kiến thức phổ thông, khiến cho mỗi người sử dụng nghiêm túc mô hình lớn phải hết sức thận trọng. OpenAI cũng chỉ ra: "ChatGPT cũng có thể tạo ra ảo giác. Ảo giác của GPT-5 rõ ràng ít hơn, đặc biệt là khi thực hiện suy luận, nhưng ảo giác vẫn có thể xảy ra. Ảo giác vẫn là một thách thức cơ bản lớn mà tất cả các mô hình ngôn ngữ lớn phải đối mặt."

Mặc dù hiện nay giới học thuật đã đưa ra nhiều phương pháp khác nhau nhằm giảm thiểu ảo giác của mô hình, nhưng hiện vẫn chưa có phương pháp nào thực sự "chữa trị triệt để" ảo giác của mô hình.

Vậy, tại sao mô hình lớn lại xuất hiện ảo giác? Hôm nay, OpenAI hiếm khi công bố một bài báo, hệ thống hóa tiết lộ nguồn gốc của ảo giác.

Đầu tiên, định nghĩa ảo giác. Định nghĩa đơn giản mà OpenAI đưa ra là: "Tình huống mà mô hình tự tin tạo ra những câu trả lời không có thật."

Về lý do, đơn giản mà nói là: quy trình huấn luyện và đánh giá tiêu chuẩn có xu hướng thưởng cho việc đoán mò, thay vì thưởng cho mô hình khi nó dám thừa nhận sự không chắc chắn.

  • Tiêu đề bài báo: Tại sao các mô hình ngôn ngữ lại ảo tưởng
  • Địa chỉ bài báo:

Dưới đây chúng ta sẽ xem xét cụ thể OpenAI đã phát hiện ra điều gì.

Ảo giác là gì?

Ảo giác là những tuyên bố có vẻ hợp lý nhưng lại sai lầm do mô hình ngôn ngữ tạo ra.

Ngay cả những câu hỏi có vẻ đơn giản cũng có thể xuất hiện theo những cách bất ngờ. OpenAI đã đưa ra một ví dụ, khi hỏi các chatbot phổ biến khác nhau về tiêu đề luận án tiến sĩ của Adam Tauman Kalai (tác giả chính của bài báo), chúng tự tin đưa ra ba câu trả lời khác nhau, nhưng không có câu nào là đúng.

Khi được hỏi về ngày sinh của mình, anh ta đã đưa ra ba ngày khác nhau, tất cả đều sai.

Học để kiểm tra

OpenAI cho biết, ảo giác vẫn tồn tại, một phần là do các phương pháp đánh giá hiện tại thiết lập cơ chế khuyến khích sai. Mặc dù việc đánh giá bản thân không trực tiếp dẫn đến ảo giác, nhưng hầu hết các cách đánh giá hiệu suất mô hình lại khuyến khích mô hình đoán mò, thay vì trung thực đối mặt với sự không chắc chắn.

Bạn có thể tưởng tượng điều này như một bài kiểm tra trắc nghiệm. Nếu bạn không biết câu trả lời nhưng đoán một cách ngẫu nhiên, bạn có thể rất may mắn đoán đúng. Nếu để trống thì chắc chắn sẽ được 0 điểm. Tương tự, khi mô hình chỉ được chấm điểm dựa trên độ chính xác (tức là tỷ lệ phần trăm câu hỏi được trả lời đúng hoàn toàn), chúng sẽ được khuyến khích đoán, thay vì thừa nhận "Tôi không biết".

Một ví dụ khác, giả sử một mô hình ngôn ngữ được hỏi về sinh nhật của một ai đó, nhưng nó không biết. Nếu nó đoán "10 tháng 9", thì xác suất đoán đúng là 1/365. Nói rằng "Tôi không biết" thì chắc chắn sẽ được điểm không. Trong hàng nghìn bài kiểm tra, mô hình đoán cuối cùng có hiệu suất tốt hơn trên bảng điểm so với mô hình thận trọng và thừa nhận sự không chắc chắn.

Đối với câu hỏi chỉ có một "câu trả lời đúng", có thể xem xét ba loại câu trả lời: câu trả lời chính xác, câu trả lời sai và câu trả lời từ chối mà mô hình không muốn mạo hiểm đoán.

OpenAI cho biết, câu trả lời từ chối là một phần của chỉ số khiêm tốn (humility), và khiêm tốn là một trong những giá trị cốt lõi của OpenAI.

Hầu hết các chỉ số điểm số sẽ sắp xếp các mô hình theo độ chính xác, nhưng câu trả lời sai tồi tệ hơn câu trả lời bỏ qua. Quy định mô hình của OpenAI chỉ ra rằng việc chỉ ra sự không chắc chắn hoặc yêu cầu làm rõ sẽ tốt hơn là tự tin cung cấp thông tin có thể không chính xác.

Lấy ví dụ về đánh giá SimpleQA trong thẻ hệ thống GPT5.

Về độ chính xác, mô hình OpenAI o4-mini sớm hơn hoạt động tốt hơn một chút. Tuy nhiên, tỷ lệ sai sót (tức là tỷ lệ ảo giác) lại cao hơn rõ rệt. Việc đoán chiến lược trong tình huống không chắc chắn có thể cải thiện độ chính xác, nhưng cũng sẽ làm tăng số lỗi và ảo giác.

Khi tính trung bình kết quả của hàng chục lần đánh giá, hầu hết các bài kiểm tra tiêu chuẩn sẽ loại bỏ chỉ số độ chính xác, nhưng điều này dẫn đến sự phân chia sai lầm giữa đúng và sai.

Trong các đánh giá đơn giản như SimpleQA, độ chính xác của một số mô hình gần 100%, do đó loại bỏ ảo giác. Tuy nhiên, trong các đánh giá thách thức hơn và trong sử dụng thực tế, độ chính xác sẽ cố định dưới 100% vì một số câu hỏi không thể xác định được câu trả lời vì nhiều lý do (chẳng hạn như thông tin không có sẵn, khả năng tư duy hạn chế của mô hình nhỏ hoặc cần làm rõ sự mơ hồ).

Dù vậy, các chỉ số đánh giá chỉ dựa trên độ chính xác vẫn chiếm ưu thế trên bảng xếp hạng và thẻ mô hình, điều này sẽ khuyến khích các nhà phát triển xây dựng những mô hình có khả năng đoán định thay vì rút lui.

Chính vì điều này, ngay cả khi mô hình trở nên tiên tiến hơn, chúng vẫn sẽ tạo ra ảo giác. Một trong những lý do là chúng có xu hướng tự tin đưa ra những câu trả lời sai, thay vì thừa nhận sự không chắc chắn.

phương pháp đánh giá tốt hơn

Đối với điều này, OpenAI đã chỉ ra một giải pháp đơn giản: hình phạt đối với lỗi tự tin (confidential error) lớn hơn hình phạt đối với sự không chắc chắn, và cho điểm cộng một phần cho hành vi diễn đạt sự không chắc chắn một cách thích hợp.

Ý tưởng này không mới. Một số bài kiểm tra tiêu chuẩn đã từ lâu sử dụng phương pháp chấm điểm âm cho các câu trả lời sai hoặc cho điểm một phần cho những câu hỏi bỏ trống nhằm ngăn chặn việc đoán mò. Một số nhóm nghiên cứu cũng đã khám phá các phương pháp đánh giá xem xét sự không chắc chắn và hiệu chỉnh.

Nhưng OpenAI cho biết, chỉ thêm một số bài kiểm tra nhận thức không chắc chắn mới là không đủ. Các phương pháp đánh giá dựa trên độ chính xác đang được sử dụng rộng rãi cần được cập nhật để điểm số của chúng có thể ngăn chặn việc đoán mò.

Nếu các chỉ số đánh giá chính vẫn tiếp tục thưởng cho những dự đoán may mắn của mô hình, mô hình sẽ tiếp tục học cách đoán. Việc điều chỉnh các chỉ số đánh giá có thể mở rộng phạm vi áp dụng công nghệ ảo giác, bao gồm cả các công nghệ mới phát triển và các công nghệ đã được nghiên cứu trước đó.

Ảo giác được tạo ra như thế nào từ dự đoán từ tiếp theo

Trước đây đã thảo luận về lý do tại sao ảo giác lại khó để thoát ra như vậy, nhưng những sai lầm thực tế cụ thể cao độ này thực sự đến từ đâu?

Cuối cùng, các mô hình tiền huấn luyện lớn hiếm khi xuất hiện các loại lỗi khác, chẳng hạn như lỗi chính tả và không khớp dấu ngoặc.

OpenAI cho biết, sự khác biệt chắc chắn nằm ở những mẫu nào có trong dữ liệu.

Mô hình ngôn ngữ trước tiên học thông qua việc huấn luyện trước, đây là một quá trình dự đoán từ tiếp theo trong một khối lượng lớn văn bản.

Khác với các vấn đề học máy truyền thống, mỗi câu không có nhãn "đúng / sai". Mô hình chỉ nhìn thấy các ví dụ tích cực của ngôn ngữ trôi chảy và phải gần gũi với phân phối tổng thể.

Khi không có bất kỳ ví dụ nào được đánh dấu là không hợp lệ, việc phân biệt giữa câu hợp lệ và câu không hợp lệ sẽ khó khăn hơn. Nhưng ngay cả khi có nhãn, một số lỗi cũng là không thể tránh khỏi.

Để hiểu lý do, có thể xem xét một phép ẩn dụ đơn giản hơn. Trong nhận diện hình ảnh, nếu hàng triệu bức ảnh mèo và chó được gán nhãn là "mèo" hoặc "chó", thuật toán có thể học cách phân loại chúng một cách đáng tin cậy. Nhưng hãy tưởng tượng, nếu sử dụng ngày sinh của thú cưng để gán nhãn cho mỗi bức ảnh thú cưng. Bởi vì ngày sinh về bản chất là ngẫu nhiên, bất kể thuật toán tiên tiến đến đâu, nhiệm vụ này luôn luôn sẽ tạo ra lỗi.

Nguyên tắc tương tự cũng áp dụng cho việc huấn luyện trước. Cách viết và dấu ngoặc tuân theo một mẫu nhất quán, vì vậy những lỗi này sẽ biến mất khi quy mô mở rộng. Nhưng những sự thật hiếm hoi tùy ý như sinh nhật thú cưng không thể chỉ dựa vào mẫu để dự đoán, do đó sẽ dẫn đến ảo giác.

Phân tích của OpenAI giải thích những loại ảo giác nào sẽ được tạo ra bởi dự đoán từ tiếp theo. Lý tưởng nhất, giai đoạn tiếp theo sau khi tiền huấn luyện nên có khả năng loại bỏ những ảo giác này, nhưng do những lý do được mô tả trong phần trước, điều này chưa hoàn toàn đạt được.

Tóm tắt

OpenAI cho biết: "Chúng tôi hy vọng góc nhìn thống kê trong bài viết này có thể làm rõ bản chất của ảo giác và bác bỏ một số hiểu lầm phổ biến".

Có người tuyên bố: Ảo giác có thể được loại bỏ bằng cách nâng cao độ chính xác, vì mô hình 100% chính xác sẽ không bao giờ tạo ra ảo giác.

Phát hiện: Độ chính xác sẽ không bao giờ đạt 100% vì bất kể quy mô mô hình, khả năng tìm kiếm và suy luận như thế nào, một số vấn đề trong thế giới thực về bản chất là không thể trả lời.

Có người tuyên bố: Ảo giác là không thể tránh khỏi.

Phát hiện: Ảo giác không phải là điều không thể tránh khỏi, vì mô hình ngôn ngữ có thể từ bỏ câu trả lời khi không chắc chắn.

Có người tuyên bố: Để tránh ảo giác cần một mức độ thông minh nhất định, mà điều này chỉ có các mô hình lớn mới có thể đạt được.

Phát hiện: Các mô hình nhỏ dễ dàng hiểu được giới hạn của chính chúng. Ví dụ, khi được yêu cầu trả lời các câu hỏi bằng tiếng Māori, một mô hình nhỏ không hiểu tiếng Māori có thể trả lời trực tiếp "Tôi không biết", trong khi một mô hình biết một chút tiếng Māori thì phải xác định độ tin cậy của nó. Như đã thảo luận trong bài báo, lượng tính toán cần thiết để "hiệu chỉnh" ít hơn nhiều so với việc duy trì độ chính xác.

Có người tuyên bố: Ảo giác là một khiếm khuyết bí ẩn của các mô hình ngôn ngữ hiện đại.

Phát hiện: Chúng ta có thể hiểu cơ chế thống kê tạo ra ảo giác và nhận được phần thưởng trong đánh giá.

Có người tuyên bố: Để đo lường ảo giác, chúng ta chỉ cần một đánh giá ảo giác tốt.

Phát hiện: Đã có một số nhà nghiên cứu công bố về việc đánh giá ảo giác. Tuy nhiên, một đánh giá ảo giác tốt gần như không có hiệu quả so với hàng trăm loại đánh giá truyền thống dựa trên độ chính xác, những đánh giá này sẽ trừng phạt sự khiêm tốn và thưởng cho sự đoán mò. Ngược lại, tất cả các chỉ số đánh giá chính cần được thiết kế lại để thưởng cho việc thể hiện sự không chắc chắn.

OpenAI cho biết: "Tỷ lệ ảo giác của mô hình mới nhất của chúng tôi thấp hơn và chúng tôi sẽ tiếp tục nỗ lực để giảm thêm tỷ lệ lỗi tự tin trong đầu ra của mô hình ngôn ngữ."

Nhân tiện, theo báo cáo của TechCrunch, OpenAI đang tái cấu trúc đội ngũ Hành Vi Mô Hình (Model Behavior), một nhóm các nhà nghiên cứu có quy mô nhỏ nhưng ảnh hưởng lớn, quyết định cách thức mà các mô hình AI của công ty tương tác với con người. Hiện tại, nhóm này sẽ báo cáo cho giám đốc đào tạo sau của OpenAI là Max Schwarzer.

Và người đứng đầu sáng lập của nhóm, Joanne Jang, sẽ khởi động một dự án mới tại công ty, có tên là oai Labs. Theo thông tin từ tweet của cô ấy: "Đây là một nhóm hướng về nghiên cứu, tập trung vào việc phát minh và thiết kế các nguyên mẫu giao diện mới cho sự hợp tác giữa con người và AI."

GPT-0.58%
WHY-3.02%
MAX-0.56%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)