DeepSeek نے نیا ماڈل MODEL1 کا اعلان کیا: ایک سال میں تکنیکی قدم

robot
Генерація анотацій у процесі

DeepSec зробила історичну заяву, піднявши свої технологічні досягнення на новий рівень. Наприкінці січня, через рік після успіху DeepSec-R1, компанія готується представити нову модель MODEL1. Ця новина стала великою подією для галузі та технологічного світу.

Виявлення технічних змін на GitHub

DeepSec оновила свій код на GitHub, натякаючи на значні зміни. У оновленні було знайдено згадки про “MODEL1” у 28 з 114 файлів, що свідчить про масштабні зусилля у розробці нової моделі. Ці зміни у коді Flash MLA особливо важливі та вказують на новий технічний напрям.

MODEL1 проти V32: нова архітектура

Поточна версія V32, відома як DeepSec V3.2, тепер відрізнятиметься від нової структури MODEL1. Основні відмінності проявляються у трьох ключових сферах: покращенні структури KV Cache, зміні методу квантизації та новій техніці кодування FP8D. Усі ці зміни спрямовані на підвищення ефективності системи.

Економія пам’яті та нові досягнення у обчисленнях

Головна перевага MODEL1 — покращена економія пам’яті під час обчислень. Впроваджено унікальні стратегії для збереження пам’яті на різних етапах обробки. Ці зміни дозволять новій моделі DeepSec працювати ефективніше та з меншими ресурсами, що є важливим проривом у галузі.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити