DeepSeek 推出全新 MODEL1,慶祝 R1 成立一週年

robot
摘要生成中

1 月 21 日,DeepSeek 慶祝 DeepSeek-R1 週年,推出了更新版的 MODEL1 指數模型。此活動顯示該模型在公司產品組合中的積極開發,並展現出對未來一年的雄心壯志。

透過 FlashMLA 程式碼揭露新模型細節

根據 BlockBeats 的報導,FlashMLA 倉庫已在 GitHub 上更新,包含了關於 MODEL1 的重要細節。程式碼分析顯示,在114個不同檔案中,有28次提及新模型,顯示其整合到公司基礎設施的規模。與 MODEL1 並行出現 V32,證實這是與 DeepSeek-V3.2 根本不同的模型。

技術創新與優化

原始碼在技術層面上顯示出顯著差異。主要改進包括KV快取管理、稀疏性運算以及FP8格式解碼。這些優化顯示 Deepseek 專注於提升模型的記憶體效率與效能,這對於擴大其實際應用至關重要。因此,新模型不僅是更新,更是架構與功能的質的飛躍。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)