DeepSeek запускає нову модель MODEL1 на честь першої річниці R1

robot
Генерація анотацій у процесі

21 січня DeepSeek відзначила річницю DeepSeek-R1 випуском оновленої моделі з індексом MODEL1. Ця подія свідчить про активний розвиток моделі в портфелі компанії та демонструє амбітні плани на наступний рік.

Розкриття деталей нової моделі через код FlashMLA

За даними BlockBeats, репозиторій FlashMLA оновлено на GitHub і містить важливі деталі про MODEL1. Аналіз коду показав 28 згадок про нову модель у 114 різних файлах, що свідчить про масштаб її інтеграції в інфраструктуру компанії. Паралельно з MODEL1 з’являється V32, що підтверджує, що це принципово інша модель від DeepSeek-V3.2.

Технічні інновації та оптимізація

Вихідний код виявляє суттєві відмінності на технологічному рівні. Основні покращення — управління кешом KV, обчислення на розрідженості та декодування у форматі FP8. Ці оптимізації свідчать про акцент DeepSeek на підвищенні ефективності пам’яті та продуктивності моделі, що є критично важливим для масштабування її практичного застосування. Отже, нова модель — це не просто оновлення, а якісний стрибок у архітектурі та функціональності.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити