A 21 de janeiro, a DeepSeek celebrou o aniversário do DeepSeek-R1 com a introdução de um modelo atualizado com o índice MODEL1. Este evento indica o desenvolvimento ativo do modelo no portefólio da empresa e demonstra planos ambiciosos para o próximo ano.
Revelando Novos Detalhes do Modelo através do Código FlashMLA
Segundo o BlockBeats, o repositório FlashMLA foi atualizado no GitHub, contendo detalhes importantes sobre o MODEL1. A análise do código mostrou 28 menções ao novo modelo em 114 ficheiros diferentes, o que indica a escala da sua integração na infraestrutura da empresa. Em paralelo com o MODEL1, surge o V32, confirmando que este é um modelo fundamentalmente diferente do DeepSeek-V3.2.
Inovação Técnica e Otimização
O código-fonte revela diferenças significativas a nível tecnológico. As principais melhorias são na gestão de cache KV, computação de esparsidade e decodificação em formato FP8. Estas otimizações indicam o foco da DeepSeek em melhorar a eficiência de memória e o desempenho do modelo, o que é fundamental para escalar a sua aplicação prática. Assim, o novo modelo não é apenas uma atualização, mas um salto qualitativo na arquitetura e funcionalidade.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
DeepSeek lança novo MODEL1 para celebrar o primeiro aniversário da R1
A 21 de janeiro, a DeepSeek celebrou o aniversário do DeepSeek-R1 com a introdução de um modelo atualizado com o índice MODEL1. Este evento indica o desenvolvimento ativo do modelo no portefólio da empresa e demonstra planos ambiciosos para o próximo ano.
Revelando Novos Detalhes do Modelo através do Código FlashMLA
Segundo o BlockBeats, o repositório FlashMLA foi atualizado no GitHub, contendo detalhes importantes sobre o MODEL1. A análise do código mostrou 28 menções ao novo modelo em 114 ficheiros diferentes, o que indica a escala da sua integração na infraestrutura da empresa. Em paralelo com o MODEL1, surge o V32, confirmando que este é um modelo fundamentalmente diferente do DeepSeek-V3.2.
Inovação Técnica e Otimização
O código-fonte revela diferenças significativas a nível tecnológico. As principais melhorias são na gestão de cache KV, computação de esparsidade e decodificação em formato FP8. Estas otimizações indicam o foco da DeepSeek em melhorar a eficiência de memória e o desempenho do modelo, o que é fundamental para escalar a sua aplicação prática. Assim, o novo modelo não é apenas uma atualização, mas um salto qualitativo na arquitetura e funcionalidade.