Nghiên cứu phát hiện ra thành kiến của các mô hình AI đối với các phương ngữ - ForkLog: tiền điện tử, AI, siêu việt, tương lai

ИИ угрожает человечеству AI# Nghiên cứu phát hiện thành kiến của các mô hình AI đối với các phương ngữ

Các mô hình ngôn ngữ lớn có xu hướng thành kiến đối với người nói phương ngữ, gán cho họ các định kiến tiêu cực. Các nhà khoa học từ Đức và Mỹ đã đi đến kết luận này, theo DW

«Tôi cho rằng, chúng ta thực sự đang chứng kiến những từ ngữ gây sốc, được gán cho người nói phương ngữ», — một trong những tác giả chính của nghiên cứu Minh Dức Bùi nhận xét trong bình luận cho báo

Phân tích của Đại học Johannes Gutenberg cho thấy, mười mô hình thử nghiệm, bao gồm ChatGPT-5 mini và Llama 3.1, mô tả người nói phương ngữ Đức (bavarian) và (Kölner) là “kém học thức”, “làm việc trên các trang trại” và “dễ nổi giận”.

Thành kiến càng rõ rệt hơn khi AI rõ ràng chỉ ra phương ngữ.

Các trường hợp khác

Các vấn đề tương tự cũng được các nhà khoa học ghi nhận trên toàn cầu. Trong nghiên cứu của Đại học California tại Berkeley năm 2024, phản hồi của ChatGPT về các phương ngữ tiếng Anh khác nhau (tiếng Ấn, tiếng Ireland, tiếng Nigeria) đã được so sánh.

Kết quả cho thấy, chatbot phản hồi với các phương ngữ này mang nhiều định kiến hơn, nội dung xúc phạm và giọng điệu khinh thường so với phản hồi bằng tiếng Anh tiêu chuẩn của Mỹ hoặc Anh.

Nghiên cứu sinh của Đại học Cornell, Mỹ, chuyên ngành khoa học máy tính, Emma Harvey, gọi thành kiến đối với phương ngữ là “có ý nghĩa và đáng lo ngại”.

Vào mùa hè năm 2025, cô cùng các đồng nghiệp cũng phát hiện ra rằng trợ lý mua sắm AI của Amazon, Rufus, đưa ra các câu trả lời mơ hồ hoặc thậm chí sai lệch cho những người viết bằng phương ngữ tiếng Anh của người Mỹ gốc Phi. Nếu có lỗi trong yêu cầu, mô hình phản hồi một cách thô lỗ.

Một ví dụ khác về thành kiến của mạng neural là trường hợp của ứng viên người Ấn Độ, đã sử dụng ChatGPT để kiểm tra sơ yếu lý lịch bằng tiếng Anh. Kết quả, chatbot đã thay đổi họ của anh ta thành một họ liên kết với tầng lớp cao hơn.

«Việc phổ biến rộng rãi các mô hình ngôn ngữ đe dọa không chỉ duy trì các thành kiến đã tồn tại, mà còn làm tăng quy mô của chúng. Thay vì giảm thiểu tác hại, công nghệ có nguy cơ làm cho vấn đề trở nên hệ thống hơn», — Harvey nói.

Tuy nhiên, cuộc khủng hoảng không chỉ dừng lại ở thành kiến — một số mô hình đơn giản là không nhận diện được các phương ngữ. Ví dụ, vào tháng 7, trợ lý AI của Hội đồng thành phố Derby (Anh) đã không thể nhận diện phương ngữ của người dẫn chương trình phát thanh khi cô sử dụng các từ như mardy (“kẻ hay cáu”) và duck “người thân yêu” trong phát sóng trực tiếp.

Nên làm gì?

Vấn đề không nằm ở chính các mô hình AI, mà chủ yếu ở cách chúng được huấn luyện. Các chatbot đọc hàng tỷ văn bản từ internet, dựa trên đó để đưa ra câu trả lời.

«Câu hỏi chính là — ai viết ra những văn bản này. Nếu trong đó có thành kiến chống lại người nói phương ngữ, AI sẽ sao chép chúng», — Caroline Holtermann từ Đại học Hamburg giải thích.

Bà cũng nhấn mạnh rằng công nghệ có lợi thế:

«Khác với con người, hệ thống AI có thể phát hiện và ‘tắt’ thành kiến. Chúng ta có thể chủ động chống lại những biểu hiện như vậy».

Một số nhà khoa học đề xuất tạo ra các mô hình tùy chỉnh phù hợp với từng phương ngữ cụ thể. Tháng 8 năm 2024, công ty Acree AI đã giới thiệu mô hình Arcee-Meraj, hoạt động với nhiều phương ngữ Ả Rập.

Theo Holtermann, sự xuất hiện của các LLM mới và phù hợp hơn cho phép xem AI “không phải là kẻ thù của phương ngữ, mà là một công cụ chưa hoàn thiện, có thể được cải tiến”.

Nhắc lại, các nhà báo của The Economist đã cảnh báo về rủi ro của các trò chơi AI đối với tâm lý trẻ em.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim