21 січня DeepSeek відзначила річницю DeepSeek-R1 випуском оновленої моделі з індексом MODEL1. Ця подія свідчить про активний розвиток моделі в портфелі компанії та демонструє амбітні плани на наступний рік.
Розкриття деталей нової моделі через код FlashMLA
За даними BlockBeats, репозиторій FlashMLA оновлено на GitHub і містить важливі деталі про MODEL1. Аналіз коду показав 28 згадок про нову модель у 114 різних файлах, що свідчить про масштаб її інтеграції в інфраструктуру компанії. Паралельно з MODEL1 з’являється V32, що підтверджує, що це принципово інша модель від DeepSeek-V3.2.
Технічні інновації та оптимізація
Вихідний код виявляє суттєві відмінності на технологічному рівні. Основні покращення — управління кешом KV, обчислення на розрідженості та декодування у форматі FP8. Ці оптимізації свідчать про акцент DeepSeek на підвищенні ефективності пам’яті та продуктивності моделі, що є критично важливим для масштабування її практичного застосування. Отже, нова модель — це не просто оновлення, а якісний стрибок у архітектурі та функціональності.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
DeepSeek запускає нову модель MODEL1 на честь першої річниці R1
21 січня DeepSeek відзначила річницю DeepSeek-R1 випуском оновленої моделі з індексом MODEL1. Ця подія свідчить про активний розвиток моделі в портфелі компанії та демонструє амбітні плани на наступний рік.
Розкриття деталей нової моделі через код FlashMLA
За даними BlockBeats, репозиторій FlashMLA оновлено на GitHub і містить важливі деталі про MODEL1. Аналіз коду показав 28 згадок про нову модель у 114 різних файлах, що свідчить про масштаб її інтеграції в інфраструктуру компанії. Паралельно з MODEL1 з’являється V32, що підтверджує, що це принципово інша модель від DeepSeek-V3.2.
Технічні інновації та оптимізація
Вихідний код виявляє суттєві відмінності на технологічному рівні. Основні покращення — управління кешом KV, обчислення на розрідженості та декодування у форматі FP8. Ці оптимізації свідчать про акцент DeepSeek на підвищенні ефективності пам’яті та продуктивності моделі, що є критично важливим для масштабування її практичного застосування. Отже, нова модель — це не просто оновлення, а якісний стрибок у архітектурі та функціональності.