Vào ngày 21 tháng 1, DeepSeek đã kỷ niệm DeepSeek-R1 với việc giới thiệu một mô hình cập nhật với chỉ số MODEL1. Sự kiện này cho thấy sự phát triển tích cực của mô hình trong danh mục đầu tư của công ty và thể hiện các kế hoạch đầy tham vọng cho năm tới.
Tiết lộ chi tiết mô hình mới qua mã FlashMLA
Theo BlockBeats, kho lưu trữ FlashMLA đã được cập nhật trên GitHub, chứa các chi tiết quan trọng về MODEL1. Phân tích mã cho thấy 28 đề cập đến mô hình mới trong 114 tệp khác nhau, điều này cho thấy quy mô tích hợp của nó vào cơ sở hạ tầng của công ty. Song song với MODEL1, V32 xuất hiện, xác nhận rằng đây là một mô hình khác biệt về cơ bản so với DeepSeek-V3.2.
Đổi mới và tối ưu hóa kỹ thuật
Mã nguồn cho thấy sự khác biệt đáng kể ở cấp độ công nghệ. Những cải tiến chính là quản lý bộ nhớ cache KV, tính toán thưa thớt và giải mã ở định dạng FP8. Những tối ưu hóa này cho thấy DeepSeek tập trung vào việc cải thiện hiệu quả bộ nhớ và hiệu suất của mô hình, điều này rất quan trọng để mở rộng quy mô ứng dụng thực tế của nó. Do đó, mô hình mới không chỉ là một bản cập nhật mà còn là một bước nhảy vọt về chất về kiến trúc và chức năng.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
DeepSeek ra mắt MODEL1 mới để kỷ niệm một năm thành lập R1
Vào ngày 21 tháng 1, DeepSeek đã kỷ niệm DeepSeek-R1 với việc giới thiệu một mô hình cập nhật với chỉ số MODEL1. Sự kiện này cho thấy sự phát triển tích cực của mô hình trong danh mục đầu tư của công ty và thể hiện các kế hoạch đầy tham vọng cho năm tới.
Tiết lộ chi tiết mô hình mới qua mã FlashMLA
Theo BlockBeats, kho lưu trữ FlashMLA đã được cập nhật trên GitHub, chứa các chi tiết quan trọng về MODEL1. Phân tích mã cho thấy 28 đề cập đến mô hình mới trong 114 tệp khác nhau, điều này cho thấy quy mô tích hợp của nó vào cơ sở hạ tầng của công ty. Song song với MODEL1, V32 xuất hiện, xác nhận rằng đây là một mô hình khác biệt về cơ bản so với DeepSeek-V3.2.
Đổi mới và tối ưu hóa kỹ thuật
Mã nguồn cho thấy sự khác biệt đáng kể ở cấp độ công nghệ. Những cải tiến chính là quản lý bộ nhớ cache KV, tính toán thưa thớt và giải mã ở định dạng FP8. Những tối ưu hóa này cho thấy DeepSeek tập trung vào việc cải thiện hiệu quả bộ nhớ và hiệu suất của mô hình, điều này rất quan trọng để mở rộng quy mô ứng dụng thực tế của nó. Do đó, mô hình mới không chỉ là một bản cập nhật mà còn là một bước nhảy vọt về chất về kiến trúc và chức năng.