DeepSeek ra mắt “Chế độ chuyên gia” và “Chế độ hình ảnh”, là bước khởi động cuối cùng trước khi V4 chính thức được phát hành?

動區BlockTempo

DeepSeek vào ngày 8 tháng 4 lặng lẽ đẩy lên thử nghiệm theo ba chế độ: Nhanh, Chuyên gia, Thị giác—phân luồng theo ba nhánh, được cộng đồng xem như màn “khởi động cuối” trước khi V4 chính thức ra mắt.
(Tóm tắt trước đó: DeepSeek V4 từ chối Nvidia—đi tìm Huawei! Alibaba, ByteDance nóng vội giành mua chip 950PR của Hãng Ascent! Tencent tranh mua chip 950PR của Hãng Ascent)
(Bổ sung bối cảnh: DeepSeek V4 tuyên bố bỏ Nvidia! Chiến trường “tách rời” năng lực tính toán của AI Trung Quốc đã đi đến đâu rồi?)

Mục lục bài viết

Toggle

  • Phân luồng ba nhánh: Nhanh, Chuyên gia, Thị giác mỗi bên một việc
  • Tranh cãi chế độ Chuyên gia: khác biệt về kiến trúc, hay kỹ nghệ prompt?
  • Ý nghĩa thật sự của V4: nếu năng lực tính toán thực sự tách rời

Khoảng rạng sáng ngày 8 tháng 4, trang web và ứng dụng của DeepSeek đồng bộ đẩy một bản cập nhật; giao diện chuyển thành ba lựa chọn chế độ. Đây không phải là lần ra mắt chính thức hoàn chỉnh về mặt tính năng, mà là thử nghiệm đi trước dành cho một nhóm người dùng; nhưng ngay khi thông tin được đưa ra, cộng đồng lập tức liên hệ nó với tiến trình phát hành V4.

Phân luồng ba nhánh: Nhanh, Chuyên gia, Thị giác mỗi bên một việc

Cách phân công của ba chế độ khá rõ ràng:

Chế độ Nhanh (Fast Mode) là lựa chọn mặc định, hướng tới hội thoại hằng ngày và phản hồi tức thời, dùng mô hình nhẹ độ trễ thấp; không có giới hạn sử dụng. Tuy nhiên, phần đính kèm chỉ hỗ trợ trích xuất văn bản, không xử lý hình ảnh hoặc giọng nói.

Chế độ Chuyên gia (Expert Mode) được định vị cho các tác vụ suy luận phức tạp, hỗ trợ chế độ suy nghĩ sâu. Thực nghiệm từ cộng đồng cho thấy mỗi lần suy luận có thể kích hoạt thời gian suy nghĩ vượt quá 500 giây. Chế độ này vào giờ cao điểm cần chờ, và không hỗ trợ tải lên đính kèm hay giọng nói. Hiện vẫn đang trong giai đoạn thử nghiệm, chưa mở cho tất cả người dùng.

Chế độ Thị giác (Vision Mode) là chế độ mang ý nghĩa mang tính biểu tượng nhất trong ba chế độ. Đây là lần đầu tiên DeepSeek hỗ trợ đầu vào bằng hình ảnh một cách chính thức ở mảng tiêu dùng; năng lực đa phương thức không còn chỉ là lựa chọn kỹ thuật ở tầng API, mà được hướng thẳng tới người dùng phổ thông.

Toàn bộ logic là: phân luồng mức tiêu hao năng lực tính toán theo loại nhiệm vụ—những tác vụ tần suất cao và nhu cầu thấp đi theo kênh Nhanh; suy luận đòi hỏi năng lực tính toán lớn đi theo kênh Chuyên gia; đầu vào dạng văn bản + hình ảnh đi theo kênh Thị giác. Bản thiết kế này tự thân không phải là điều gì quá mới mẻ, nhưng DeepSeek là mô hình hàng đầu tại Trung Quốc đầu tiên làm theo cách này ở cấp độ sản phẩm tiêu dùng.

Tranh cãi chế độ Chuyên gia: khác biệt về kiến trúc, hay kỹ nghệ prompt?

Cuộc thảo luận của cộng đồng về đợt thử nghiệm này nhanh chóng tập trung vào một nghi ngờ kỹ thuật.

Một phần người dùng thử nghiệm phát hiện chất lượng câu trả lời của chế độ Chuyên gia chỉ cải thiện nhẹ so với chế độ Nhanh; khoảng cách không lớn như tưởng tượng. Điểm quan trọng hơn là có người dùng hỏi trực tiếp bản thân mô hình, và nhận được câu trả lời rằng: hai chế độ có chung kiến trúc nền tảng, khác biệt chủ yếu nằm ở việc điều chỉnh system prompt.

Nếu điều này là sự thật, thì “chế độ Chuyên gia” về bản chất giống một lời nhắc hệ thống đã được tinh chỉnh hơn là một mô hình suy luận độc lập.

DeepSeek chưa có phản hồi chính thức cho sự hoài nghi này. Xét từ góc độ bên ngoài, có hai cách diễn giải khả dĩ: một là đây chỉ là cấu hình tạm thời ở giai đoạn thử nghiệm theo mức độ (gray scale), và việc phân tầng mô hình thật sự sẽ được kích hoạt sau khi V4 ra mắt; hai là mục đích của thiết kế phân tầng vốn không phải là chuyển đổi ở cấp mô hình, mà là kiểm soát mức tiêu hao năng lực tính toán thông qua hạn mức suy luận khác nhau và cấu hình hệ thống, để nhiều người dùng có thể sử dụng đồng thời.

Ý nghĩa thật sự của V4: nếu năng lực tính toán thực sự tách rời

Bản thân giao diện ba chế độ là một nâng cấp ở tầng trải nghiệm người dùng. Nhưng thứ “nặng ký” của bản cập nhật này, nằm ở V4 được liên kết phía sau.

Nhóm DeepSeek đã xác nhận V4 bị lùi sang tháng 4; nguyên nhân chính là công việc thích ứng sâu với chip thăng tấn (Ascend) của Huawei. Các thông số kỹ thuật được biết đến được cho là khá quyết liệt: quy mô 1 nghìn tỷ tham số, SWE-bench bài test năng lực mã hóa đạt tỷ lệ thông qua 81%, giá API $0.30/MTok, cùng một công nghệ trí nhớ dài hạn tự nghiên cứu tên Engram: một cơ chế ghi nhớ theo điều kiện, cho phép mô hình giữ lại sở thích người dùng và ngữ cảnh xuyên suốt các cuộc hội thoại.

Nhưng điều đáng quan sát nhất ở V4, vẫn là lựa chọn ở tầng nền năng lực tính toán.

Nếu V4 thực sự được triển khai đầy đủ trên các chip nội địa như Huawei Ascend và Cambricon, nó sẽ trở thành mô hình ngôn ngữ lớn chủ đạo đầu tiên ở cấp độ tiêu dùng được quy mô hóa, hoàn toàn đi vòng qua hệ sinh thái Nvidia CUDA (tuy nhiên, vì chúng ta biết có một lượng lớn chip Nvidia được tuồn lậu vào Trung Quốc, nên tình hình thực tế phía sau lại càng phức tạp hơn).

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận