El 21 de enero, DeepSeek celebró el aniversario de DeepSeek-R1 con la introducción de un modelo actualizado con el índice MODEL1. Este evento indica el desarrollo activo del modelo en la cartera de la empresa y demuestra planes ambiciosos para el próximo año.
Revelando nuevos detalles del modelo mediante código FlashMLA
Según BlockBeats, el repositorio FlashMLA ha sido actualizado en GitHub, conteniendo detalles importantes sobre MODEL1. El análisis del código mostró 28 menciones del nuevo modelo en 114 archivos diferentes, lo que indica la escala de su integración en la infraestructura de la empresa. Paralelamente a MODEL1, aparece V32, confirmando que este es un modelo fundamentalmente diferente de DeepSeek-V3.2.
Innovación y Optimización Técnica
El código fuente revela diferencias significativas a nivel tecnológico. Las principales mejoras son en la gestión de la caché KV, computación de esparsidad y decodificación en formato FP8. Estas optimizaciones indican el enfoque de DeepSeek en mejorar la eficiencia de memoria y el rendimiento del modelo, lo cual es fundamental para escalar su aplicación práctica. Así, el nuevo modelo no es solo una actualización, sino un salto cualitativo en arquitectura y funcionalidad.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
DeepSeek lanza un nuevo MODEL1 para celebrar el primer aniversario de R1
El 21 de enero, DeepSeek celebró el aniversario de DeepSeek-R1 con la introducción de un modelo actualizado con el índice MODEL1. Este evento indica el desarrollo activo del modelo en la cartera de la empresa y demuestra planes ambiciosos para el próximo año.
Revelando nuevos detalles del modelo mediante código FlashMLA
Según BlockBeats, el repositorio FlashMLA ha sido actualizado en GitHub, conteniendo detalles importantes sobre MODEL1. El análisis del código mostró 28 menciones del nuevo modelo en 114 archivos diferentes, lo que indica la escala de su integración en la infraestructura de la empresa. Paralelamente a MODEL1, aparece V32, confirmando que este es un modelo fundamentalmente diferente de DeepSeek-V3.2.
Innovación y Optimización Técnica
El código fuente revela diferencias significativas a nivel tecnológico. Las principales mejoras son en la gestión de la caché KV, computación de esparsidad y decodificación en formato FP8. Estas optimizaciones indican el enfoque de DeepSeek en mejorar la eficiencia de memoria y el rendimiento del modelo, lo cual es fundamental para escalar su aplicación práctica. Así, el nuevo modelo no es solo una actualización, sino un salto cualitativo en arquitectura y funcionalidad.