Le 21 janvier, DeepSeek a célébré l’anniversaire de DeepSeek-R1 avec l’introduction d’un modèle mis à jour avec l’indice MODEL1. Cet événement indique le développement actif du modèle dans le portefeuille de l’entreprise et illustre des plans ambitieux pour l’année à venir.
Révélation de nouveaux détails de modèle via un code FlashMLA
Selon BlockBeats, le dépôt FlashMLA a été mis à jour sur GitHub, contenant des informations importantes sur MODEL1. L’analyse du code a montré 28 mentions du nouveau modèle dans 114 fichiers différents, ce qui indique l’ampleur de son intégration dans l’infrastructure de l’entreprise. Parallèlement à MODEL1, V32 apparaît, confirmant qu’il s’agit d’un modèle fondamentalement différent de DeepSeek-V3.2.
Innovation technique et optimisation
Le code source révèle des différences significatives au niveau technologique. Les principales améliorations concernent la gestion du cache KV, le calcul de parsanie et le décodage au format FP8. Ces optimisations témoignent de l’accent mis par DeepSearch sur l’amélioration de l’efficacité mémoire et des performances du modèle, ce qui est essentiel pour l’élargir de son application pratique. Ainsi, le nouveau modèle n’est pas seulement une mise à jour, mais un saut qualitatif en architecture et en fonctionnalités.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
DeepSeek lance une nouvelle MODEL1 pour célébrer le premier anniversaire de R1
Le 21 janvier, DeepSeek a célébré l’anniversaire de DeepSeek-R1 avec l’introduction d’un modèle mis à jour avec l’indice MODEL1. Cet événement indique le développement actif du modèle dans le portefeuille de l’entreprise et illustre des plans ambitieux pour l’année à venir.
Révélation de nouveaux détails de modèle via un code FlashMLA
Selon BlockBeats, le dépôt FlashMLA a été mis à jour sur GitHub, contenant des informations importantes sur MODEL1. L’analyse du code a montré 28 mentions du nouveau modèle dans 114 fichiers différents, ce qui indique l’ampleur de son intégration dans l’infrastructure de l’entreprise. Parallèlement à MODEL1, V32 apparaît, confirmant qu’il s’agit d’un modèle fondamentalement différent de DeepSeek-V3.2.
Innovation technique et optimisation
Le code source révèle des différences significatives au niveau technologique. Les principales améliorations concernent la gestion du cache KV, le calcul de parsanie et le décodage au format FP8. Ces optimisations témoignent de l’accent mis par DeepSearch sur l’amélioration de l’efficacité mémoire et des performances du modèle, ce qui est essentiel pour l’élargir de son application pratique. Ainsi, le nouveau modèle n’est pas seulement une mise à jour, mais un saut qualitatif en architecture et en fonctionnalités.