DeepSeek выпустил новую модель MODEL1 в честь первой годовщины R1

robot
Генерация тезисов в процессе

21 января компания DeepSeek отметила годовщину DeepSeek-R1 и представила обновленную модель с индексом MODEL1. Это событие указывает на активное развитие модели в портфеле компании и демонстрирует амбициозные планы на следующий год.

Раскрытие деталей новой модели через код FlashMLA

По информации BlockBeats, на GitHub был обновлен репозиторий FlashMLA, содержащий важные подробности о MODEL1. Анализ кода показал 28 упоминаний новой модели в 114 различных файлах, что свидетельствует о масштабности её интеграции в инфраструктуру компании. Параллельно с MODEL1 появляется версия V32, подтверждая, что это принципиально иная модель, отличающаяся от DeepSeek-V3.2.

Технические инновации и оптимизации

Исходный код раскрывает значительные различия на технологическом уровне. Основные улучшения коснулись управления KV кэша, системы разреженности вычислений и декодирования в формате FP8. Эти оптимизации указывают на фокус DeepSeek на повышение эффективности памяти и производительности модели, что критично для масштабирования её практического применения. Таким образом, новая модель представляет собой не просто обновление, а качественный скачок в архитектуре и функциональности.

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить