Pada 21 Januari, DeepSeek merayakan ulang tahun DeepSeek-R1 dengan pengenalan model yang diperbarui dengan indeks MODEL1. Acara ini menunjukkan pengembangan aktif model dalam portofolio perusahaan dan menunjukkan rencana ambisius untuk tahun depan.
Mengungkapkan Detail Model Baru melalui Kode FlashMLA
Menurut BlockBeats, repositori FlashMLA telah diperbarui di GitHub, berisi detail penting tentang MODEL1. Analisis kode menunjukkan 28 penyebutan model baru dalam 114 file berbeda, yang menunjukkan skala integrasinya ke dalam infrastruktur perusahaan. Sejalan dengan MODEL1, V32 muncul, mengonfirmasi bahwa ini adalah model yang berbeda secara fundamental dari DeepSeek-V3.2.
Inovasi dan Optimasi Teknis
Kode sumber mengungkapkan perbedaan yang signifikan di tingkat teknologi. Peningkatan utama adalah dalam manajemen cache KV, komputasi jarang, dan decoding dalam format FP8. Pengoptimalan ini menunjukkan fokus DeepSeek untuk meningkatkan efisiensi memori dan kinerja model, yang sangat penting untuk menskalakan aplikasi praktisnya. Dengan demikian, model baru ini bukan hanya pembaruan, tetapi lompatan kualitatif dalam arsitektur dan fungsionalitas.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
DeepSeek Meluncurkan MODEL1 Baru untuk Merayakan Ulang Tahun Pertama R1
Pada 21 Januari, DeepSeek merayakan ulang tahun DeepSeek-R1 dengan pengenalan model yang diperbarui dengan indeks MODEL1. Acara ini menunjukkan pengembangan aktif model dalam portofolio perusahaan dan menunjukkan rencana ambisius untuk tahun depan.
Mengungkapkan Detail Model Baru melalui Kode FlashMLA
Menurut BlockBeats, repositori FlashMLA telah diperbarui di GitHub, berisi detail penting tentang MODEL1. Analisis kode menunjukkan 28 penyebutan model baru dalam 114 file berbeda, yang menunjukkan skala integrasinya ke dalam infrastruktur perusahaan. Sejalan dengan MODEL1, V32 muncul, mengonfirmasi bahwa ini adalah model yang berbeda secara fundamental dari DeepSeek-V3.2.
Inovasi dan Optimasi Teknis
Kode sumber mengungkapkan perbedaan yang signifikan di tingkat teknologi. Peningkatan utama adalah dalam manajemen cache KV, komputasi jarang, dan decoding dalam format FP8. Pengoptimalan ini menunjukkan fokus DeepSeek untuk meningkatkan efisiensi memori dan kinerja model, yang sangat penting untuk menskalakan aplikasi praktisnya. Dengan demikian, model baru ini bukan hanya pembaruan, tetapi lompatan kualitatif dalam arsitektur dan fungsionalitas.