DeepSeek, arsitektur AI generasi berikutnya yang mengatasi koneksi residual, diperkenalkan sebagai 'mHC'

robot
Pembuatan abstrak sedang berlangsung

Sumber: TokenPost Judul Asli: 中 딥시크, 잔차 연결 넘는 차세대 AI 아키텍처 ‘mHC’ 공개 Tautan Asli: https://www.tokenpost.kr/news/ai/320188 DeepSeek( dari lembaga riset AI China, DeepSeek), mengumumkan arsitektur baru yang secara signifikan dapat meningkatkan kinerja pembelajaran kecerdasan buatan generasi berikutnya. Diberi nama ‘mHC(Manifold-Constrained Hyper-Connections)’, teknologi ini merupakan struktur yang melampaui metode ‘residual connection(’ yang esensial dalam model bahasa besar)LLM( dan model pengenalan visual, dan dikatakan mampu meningkatkan akurasi pembelajaran serta efisiensi perangkat keras.

mHC adalah pengembangan dari teknologi ‘Hyper-Connections)’ yang sudah ada. Hyper-Connections dikenal sebagai struktur yang membantu menyampaikan informasi antar lapisan(layer) dalam model deep learning secara lebih efisien, tetapi dalam praktiknya, penggunaannya terbatas karena berbagai kendala teknis. DeepSeek( mengatasi batasan ini dengan menggabungkan konsep ‘manifold)’. Manifold secara matematis adalah ruang dengan struktur berlapis-lapis, mulai dari bentuk lingkaran sederhana hingga struktur kompleks yang melampaui dimensi 3. DeepSeek( menjelaskan bahwa mHC memanfaatkan struktur berbasis manifold ini untuk memastikan stabilitas dan konsistensi sinyal error backpropagation) dari gradient( selama pelatihan model, yang merupakan kunci keberhasilan.

Untuk menguji performa arsitektur ini, DeepSeek) melatih tiga jenis LLM dengan parameter masing-masing 3 miliar, 9 miliar, dan 27 miliar menggunakan struktur mHC, dan membandingkannya dengan model ber spesifikasi sama yang menggunakan Hyper-Connections. Hasilnya, model dengan struktur mHC secara konsisten menunjukkan performa yang lebih baik di 8 benchmark berbeda. Khususnya, dari segi kebutuhan memori, pelatihan menjadi lebih efisien dibandingkan struktur sebelumnya, dan overhead perangkat keras selama pelatihan dilaporkan hanya sekitar 6,27%.

Tim peneliti DeepSeek menegaskan, “Dengan memahami lebih dalam hubungan antara struktur topologi berbasis manifold dan algoritma optimisasi, mHC dapat mengatasi batasan model AI saat ini dan membuka jalan baru dalam desain infrastruktur generasi berikutnya,” serta menekankan pentingnya inovasi ini secara teknis.

Pengumuman ini menarik perhatian karena muncul di tengah gerakan global untuk meninjau ulang arsitektur pembelajaran AI terbaru. Metode residual connection yang ada sejak penelitian deep learning tahun 2015 telah digunakan secara luas dalam model LLM dan pengklasifikasi gambar. Struktur ini mengalirkan sinyal error dari output akhir ke lapisan-lapisan sebelumnya, membantu memperbaiki distorsi informasi yang terjadi selama proses tersebut.

Namun, seiring dengan semakin besar dan kompleksnya model AI, batasan residual connection ini mulai terlihat, dan berbagai upaya perbaikan pun dilakukan. mHC dari DeepSeek merupakan teknologi terbaru dalam konteks ini, dan diperkirakan dapat memberikan kontribusi langsung terhadap peningkatan efisiensi pelatihan model yang menjadi dasar industri AI secara keseluruhan.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 8
  • Posting ulang
  • Bagikan
Komentar
0/400
PretendingToReadDocsvip
· 6jam yang lalu
Aduh, lagi-lagi inovasi dari DeepSeek, apakah mHC ini akan mengubah sesuatu lagi? --- Bisa melewati koneksi residual? Teknologi ini sepertinya tidak bisa diandalkan, hanya dari namanya saja sudah bikin bingung --- AI dari Tiongkok lagi-lagi merilis arsitektur baru, sementara kita masih sibuk dengan jumlah parameter hahaha --- LLM dan model visual bisa ditingkatkan? Rasanya terlalu berlebihan --- Mengapa singkatan mHC ini terasa tidak nyaman di lidah, bahkan sulit diingat --- DeepSeek merilis satu paper setelah yang lain, tidak tahu efektivitasnya seperti apa --- Lagi-lagi tentang manifold dan hyper, orang-orang ini memang suka pakai istilah-istilah keren seperti itu
Lihat AsliBalas0
CryptoHistoryClassvip
· 10jam yang lalu
ngl, pernah melihat plot ini sebelumnya... koneksi residual seharusnya menjadi arsitektur akhir pada tahun 2017. sekarang mereka "melampaui" itu? *memeriksa grafik kinerja historis* ...ya, kita pasti sedang dalam fase "terobosan revolusioner" dari siklus lagi. beri waktu 18 bulan
Lihat AsliBalas0
LiquidationWatchervip
· 10jam yang lalu
ngl deepseek merilis arsitektur AI baru sementara kita semua berkeringat tentang posisi kita... ingat saat semua orang mengira residual connections adalah akhir dari segalanya? bagaimanapun, hal ini tentang mhc terdengar sah tetapi saya tidak tahu, setiap kali China mengumumkan terobosan, PTSD likuidasi saya muncul. menonton terlalu banyak permainan teknologi "revolusioner" yang di-frontrun ke dalam ketiadaan di tahun 2022.
Lihat AsliBalas0
pvt_key_collectorvip
· 10jam yang lalu
Ha, deepseek melakukan trik baru lagi, dan kali ini mHC terdengar cukup mengagumkan --- Bosan bermain dengan koneksi sisa? Ini agak menarik, Anda harus melihat bagaimana sebenarnya cara kerjanya --- AI China telah menerbitkan makalah lain, dan pasar modal Barat akan bergetar lagi --- Kata manifold-constrained dimulai dan terasa agak kaku --- Baik LLM maupun model visual dapat digunakan, yang merupakan pukulan pengurangan dimensi jika benar-benar mendarat --- Saya tidak tahu apakah itu hype atau benar-benar terobosan, tunggu dan lihat tolok ukurnya --- Geng deepseek sangat aktif akhir-akhir ini, dan mereka mulai mengebom kertas demi pembiayaan --- Terus terang, masih mengoptimalkan arsitektur, seberapa segar logika intinya? --- Biasanya dibutuhkan setengah tahun untuk melihat apakah hal semacam ini berhasil, jangan terburu-buru untuk meledakkannya --- Di luar koneksi sisa? Ya Tuhan, apakah Anda akan mengubah buku teks lagi?
Lihat AsliBalas0
BoredStakervip
· 10jam yang lalu
Sial, deepseek lagi bikin trik baru? Setiap kali tim China mengirim sesuatu, media Barat langsung mulai heboh
Lihat AsliBalas0
MemeTokenGeniusvip
· 10jam yang lalu
Setelah memikirkannya sebentar, arsitektur mHC ini terdengar luar biasa, tetapi masih harus dilihat apa yang sebenarnya bisa berjalan DeepSeek melakukan sesuatu yang baru, sedikit sengit, bisakah melampaui model saat ini? Kuncinya adalah apakah biayanya benar-benar dapat ditekan, dan data kertas tidak menarik Akankah gelombang iterasi teknologi ini berdampak besar pada produsen GPU yang ada... mHC LLM, kedengarannya profesional, tetapi benar-benar dapat diterapkan pada ekosistem web3... Baik
Lihat AsliBalas0
PanicSellervip
· 10jam yang lalu
Ini adalah arsitektur baru lagi, dan nama mHC berasal, dan rasanya seperti mengarang kata-kata setiap saat --- Deepseek telah memperbesar pergerakan, kali ini benar-benar bisa melampaui koneksi sisa? Saya sedikit penasaran --- Produsen AI China benar-benar berbelit-belit, tetapi bisakah benda ini benar-benar digunakan? --- Saya belum mengerti judulnya, tetapi kedengarannya seperti banyak istilah matematika lagi --- EMM juga masalah model super besar, apa hubungannya dengan spekulasi mata uang kita --- Alangkah baiknya jika benda ini benar-benar dapat mengurangi biaya daya komputasi, dan sekarang model pelatihan terlalu mahal --- Judulnya setengah Korea dan setengah Cina, yang membuatku sedikit pusing --- Arsitekturnya bagus, tetapi pertanyaannya adalah siapa yang bisa menggunakannya
Lihat AsliBalas0
AirdropBlackHolevip
· 10jam yang lalu
DeepSea pemain kembali bersaing, desain arsitektur mHC kali ini memang cukup menarik, tapi jujur saja, semua makalah terdengar cukup serupa Dengan ritme DeepSeek ini, rasanya akan memecahkan beberapa monopoli Apakah batas kinerja LLM akan pecah? Kita tunggu saja Sekali lagi, banyak istilah teknis, kenyataannya implementasinya tergantung bagaimana kita mengatasinya di masa depan
Lihat AsliBalas0
  • Sematkan

Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)