Nghiên cứu cho thấy, khoảng 50% câu trả lời của năm chatbot AI lớn khi trả lời các câu hỏi y tế có vấn đề, gần 20% được đánh giá là "cực kỳ có vấn đề", nhấn mạnh rủi ro của ứng dụng AI trong y tế. Những robot này dù thể hiện tự tin, nhưng lại không thể cung cấp nguồn tham khảo có thể xác minh, cho thấy nguy cơ truyền bá thông tin sai lệch rất cao trong bối cảnh thiếu quy định và giáo dục.

動區BlockTempo

2026-04-16 17:33:29

Đang tạo bản tóm tắt

Dựa theo nghiên cứu mới công bố trên BMJ Open, khoảng 50% câu trả lời của năm chatbot AI trong việc trả lời các câu hỏi y tế đều gặp vấn đề, trong đó gần 20% được đánh giá là “cực kỳ có vấn đề”. Bloomberg chỉ ra rằng, nghiên cứu này đã tiết lộ các rủi ro hệ thống trong ứng dụng y tế của AI, đặc biệt khi OpenAI và Anthropic cùng mở rộng hoạt động y tế, điều này lại trở nên đặc biệt mỉa mai.
(Trích dẫn trước: Đừng giao hồ sơ bệnh lý của bạn cho chatbot? Cuộc chơi về quyền riêng tư dưới tham vọng y tế của ChatGPT Health)
(Bổ sung nền: Nghiên cứu của Đại học California về hiện tượng “Sương mù AI”: 14% nhân viên văn phòng bị Agent và tự động hóa làm điên, ý định nghỉ việc tăng 40%)

Mục lục bài viết

Toggle

Grok thể hiện kém nhất, ChatGPT cũng không khá hơn nhiều
AI càng tự tin, rủi ro càng cao
OpenAI và Anthropic: Nghiên cứu giảm tốc, thương mại lại tăng tốc
Tin tưởng AI, nhưng cần có điều kiện

Hàng tuần có hơn 230 triệu người hỏi ChatGPT về các vấn đề sức khỏe và y tế, nhưng gần một nửa câu trả lời có thể gặp vấn đề. Theo nghiên cứu được công bố tuần này trên tạp chí y học BMJ Open, các nhà nghiên cứu từ Mỹ, Canada và Anh đã thực hiện đánh giá hệ thống về năm nền tảng gồm ChatGPT, Gemini, Meta AI, Grok và DeepSeek, mỗi nền tảng đưa ra 10 câu hỏi trong năm lĩnh vực y tế khác nhau.

Kết quả không mấy lạc quan: khoảng 50% phản hồi bị xác định có vấn đề, trong đó gần 20% được đánh giá là “cực kỳ có vấn đề”.

Grok thể hiện kém nhất, ChatGPT cũng không khá hơn nhiều

Bloomberg đưa tin chỉ ra rằng, hiệu suất của các nền tảng khá chênh lệch, nhưng không nền tảng nào vượt qua được thử thách. Xét tỷ lệ phản hồi câu hỏi của từng nền tảng, Grok đứng đầu với 58%, trở thành nền tảng kém nhất; ChatGPT theo sau với tỷ lệ vấn đề 52%; Meta AI là 50%.

Các nhà nghiên cứu nhận thấy, trong các câu hỏi đóng và các vấn đề liên quan đến vaccine, ung thư, chatbot hoạt động tốt hơn; còn trong các câu hỏi mở và các lĩnh vực như tế bào gốc, dinh dưỡng, hiệu suất rõ rệt giảm sút. Ngoài ra, chỉ có hai lần từ chối trả lời, đều đến từ Meta AI (điều này phần nào cho thấy, biết rõ không nên trả lời nhưng vẫn làm, lại trở thành một điểm mạnh hiếm hoi).

Điều đáng cảnh báo hơn nữa là, các câu trả lời của AI thường tràn đầy tự tin, giọng điệu khẳng định, không ngần ngại. Các nhà nghiên cứu đặc biệt nhấn mạnh: không có chatbot nào, dưới bất kỳ câu hỏi nào, có thể cung cấp danh sách tài liệu tham khảo đầy đủ và chính xác. Điều này có nghĩa là, ngay cả khi AI trông có vẻ “có căn cứ”, các nguồn trích dẫn phía sau thường không thể kiểm chứng, thậm chí không tồn tại.

AI càng tự tin, rủi ro càng cao

Các nhà nghiên cứu viết trong bài báo rằng, các hệ thống này có thể tạo ra “những phản hồi nghe có vẻ đáng tin cậy, nhưng thực chất có thể chứa sai sót”, làm nổi bật giới hạn lớn trong hành vi của AI chatbot trong các hoạt động truyền thông y tế và sức khỏe công cộng, cũng như sự cần thiết phải xem xét lại cách triển khai.

Bloomberg cũng trích dẫn cảnh báo của nhóm nghiên cứu: trong bối cảnh thiếu cơ chế giáo dục cộng đồng và giám sát, việc triển khai quy mô lớn các chatbot chính là thúc đẩy sự lan truyền và mở rộng thông tin y tế sai lệch.

Đối chiếu với các nghiên cứu khác, JAMA cho biết, tỷ lệ thất bại của AI trong các trường hợp chẩn đoán sơ bộ vượt quá 80%; Đại học Oxford cũng đã đưa ra cảnh báo vào tháng 2 năm 2026, nhấn mạnh các rủi ro hệ thống của AI trong việc cung cấp lời khuyên y tế.

OpenAI và Anthropic: Nghiên cứu giảm tốc, thương mại lại tăng tốc

Thời điểm công bố nghiên cứu này khá kịch tính. Chỉ vài tháng trước, vào tháng 1 năm 2026, OpenAI đã rầm rộ ra mắt ChatGPT Health, cho phép người dùng kết nối hồ sơ bệnh án điện tử, thiết bị đeo và ứng dụng sức khỏe, đồng thời cung cấp công cụ chuyên nghiệp cho bác sĩ lâm sàng. OpenAI công bố mỗi ngày có 40 triệu người dùng truy vấn thông tin sức khỏe qua ChatGPT.

Gần như cùng thời điểm, Anthropic cũng tuyên bố ra mắt Claude for Healthcare, với chứng nhận tuân thủ HIPAA, chính thức bước chân vào thị trường y tế.

Các nền tảng này đều không có giấy phép y tế, cũng thiếu khả năng chẩn đoán lâm sàng, nhưng lại mở rộng hoạt động trong lĩnh vực y tế với tốc độ đáng kinh ngạc. Sự mâu thuẫn giữa kết quả nghiên cứu và hướng mở rộng thương mại này đã hé lộ một khoảng trống quản lý: hiện chưa có một giới hạn rõ ràng nào giữa việc quảng bá thị trường AI y tế và an toàn thực tế của y tế.

Tin tưởng AI, nhưng cần có điều kiện

Đây không phải lần đầu AI y tế bị đặt vấn đề, nhưng mỗi nghiên cứu đều nhắc nhở chúng ta về một điểm chung: AI chatbot về bản chất là mô hình ngôn ngữ, chúng giỏi “nói nghe có vẻ đúng”, chứ không đảm bảo “đúng sự thật”. Vấn đề là, khi người dùng mang theo lo lắng thực sự về sức khỏe để tìm đến, thì việc nghe có vẻ đúng đã đủ để ảnh hưởng đến quyết định.

Khi các công ty như OpenAI, Anthropic tiếp tục mở rộng trong các lĩnh vực y tế, tốc độ quản lý và giáo dục cộng đồng rõ ràng vẫn chưa theo kịp tốc độ phát triển của công nghệ. Trước khi có các giới hạn rõ ràng, nghiên cứu này có thể nhắc nhở chúng ta rằng: AI có thể là cổng thông tin về sức khỏe, nhưng không nên là điểm dừng cuối cùng.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
GatePreIPOsLaunchesWithSpaceX
159.71K Phổ biến
#
Gate13thAnniversaryLive
431.14K Phổ biến
#
IsraelStrikesIranBTCPlunges
29.99K Phổ biến
#
US-IranTalksVSTroopBuildup
778.16K Phổ biến
#
CryptoMarketRecovery
99.99K Phổ biến

Ghim

sơ đồ trang web

Nghiên cứu phát hiện: Gợi ý y tế do AI đưa ra có gần một nửa gặp vấn đề, Grok tồi tệ nhất, OpenAI vẫn đang mở rộng tham vọng trong lĩnh vực y tế

Grok thể hiện kém nhất, ChatGPT cũng không khá hơn nhiều

AI càng tự tin, rủi ro càng cao

OpenAI và Anthropic: Nghiên cứu giảm tốc, thương mại lại tăng tốc

Tin tưởng AI, nhưng cần có điều kiện

Chủ đề thịnh hành

GatePreIPOsLaunchesWithSpaceX

Gate13thAnniversaryLive

IsraelStrikesIranBTCPlunges

US-IranTalksVSTroopBuildup

CryptoMarketRecovery

Ghim