21 января компания DeepSeek отметила годовщину DeepSeek-R1 и представила обновленную модель с индексом MODEL1. Это событие указывает на активное развитие модели в портфеле компании и демонстрирует амбициозные планы на следующий год.
Раскрытие деталей новой модели через код FlashMLA
По информации BlockBeats, на GitHub был обновлен репозиторий FlashMLA, содержащий важные подробности о MODEL1. Анализ кода показал 28 упоминаний новой модели в 114 различных файлах, что свидетельствует о масштабности её интеграции в инфраструктуру компании. Параллельно с MODEL1 появляется версия V32, подтверждая, что это принципиально иная модель, отличающаяся от DeepSeek-V3.2.
Технические инновации и оптимизации
Исходный код раскрывает значительные различия на технологическом уровне. Основные улучшения коснулись управления KV кэша, системы разреженности вычислений и декодирования в формате FP8. Эти оптимизации указывают на фокус DeepSeek на повышение эффективности памяти и производительности модели, что критично для масштабирования её практического применения. Таким образом, новая модель представляет собой не просто обновление, а качественный скачок в архитектуре и функциональности.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
DeepSeek выпустил новую модель MODEL1 в честь первой годовщины R1
21 января компания DeepSeek отметила годовщину DeepSeek-R1 и представила обновленную модель с индексом MODEL1. Это событие указывает на активное развитие модели в портфеле компании и демонстрирует амбициозные планы на следующий год.
Раскрытие деталей новой модели через код FlashMLA
По информации BlockBeats, на GitHub был обновлен репозиторий FlashMLA, содержащий важные подробности о MODEL1. Анализ кода показал 28 упоминаний новой модели в 114 различных файлах, что свидетельствует о масштабности её интеграции в инфраструктуру компании. Параллельно с MODEL1 появляется версия V32, подтверждая, что это принципиально иная модель, отличающаяся от DeepSeek-V3.2.
Технические инновации и оптимизации
Исходный код раскрывает значительные различия на технологическом уровне. Основные улучшения коснулись управления KV кэша, системы разреженности вычислений и декодирования в формате FP8. Эти оптимизации указывают на фокус DeepSeek на повышение эффективности памяти и производительности модели, что критично для масштабирования её практического применения. Таким образом, новая модель представляет собой не просто обновление, а качественный скачок в архитектуре и функциональности.