DeepSix, нова архітектура AI наступного покоління, що перевищує з'єднання Residual, представлена

robot
Генерація анотацій у процесі

Джерело: TokenPost Оригінальна назва: 中 딥시크, 잔차 연결 넘는 차세대 AI 아키텍처 ‘mHC’ 공개 Оригінальне посилання: https://www.tokenpost.kr/news/ai/320188 Китайський дослідницький центр AI DeepSeek(DeepSeek) оголосив про нову архітектуру, яка значно підвищує продуктивність навчання наступного покоління штучного інтелекту. Технологія під назвою ‘mHC(Manifold-Constrained Hyper-Connections)’ є структурою, що перевищує традиційний метод ‘залишкових з’єднань(residual connection)’, який є необхідним для великих мовних моделей(LLM) та моделей зорового сприйняття. Вона підвищує точність навчання та ефективність апаратного забезпечення.

mHC є покращеною версією існуючої технології ‘гіпер-зв’язків(Hyper-Connections)’. Гіпер-зв’язки допомагають більш ефективно передавати інформацію між шарами(layer) в глибоких моделях, але через технічні обмеження вони не отримали широкого застосування в реальних умовах. DeepSeek подолав цей обмеження, поєднавши його з концепцією ‘маніфольду(manifold)’. Маніфольд — це математична структура багатошарових просторів, що може бути простим колом або складною структурою з понад трьома вимірами. DeepSeek пояснив, що mHC використовує цю структуру для забезпечення стабільності та послідовності градієнтів(помилка зворотного поширення) під час навчання моделей.

Для перевірки ефективності архітектури DeepSeek навчила три типи LLM з 30 мільярдами, 90 мільярдами та 270 мільярдами параметрів у структурі mHC, а також провела порівняльні експерименти з моделями того ж розміру, побудованими на основі гіпер-зв’язків. За результатами, моделі з структурою mHC показали стабільно кращі результати у 8 бенчмарках. Особливо відзначається більш ефективне використання пам’яті та зменшення апаратних накладних витрат під час тренування до 6.27%.

Команда DeepSeek підкреслює, що “глибше розуміння зв’язку між топологічною структурою маніфольду та алгоритмами оптимізації дозволить mHC подолати сучасні обмеження AI-моделей і відкрити нові шляхи для розробки інфраструктури наступного покоління”.

Ця новина привертає увагу у контексті глобального перегляду архітектур AI, що відбувається останнім часом. Традиційні залишкові з’єднання були впроваджені ще у 2015 році у дослідженнях глибокого навчання і широко використовуються у LLM та моделях класифікації зображень. Вони передають помилки з останнього шару назад до попередніх, забезпечуючи навчання. Однак з ростом масштабів моделей виникли обмеження цієї технології, і з’явилися різні спроби їх подолати. Новітня технологія mHC від DeepSeek є відповіддю на ці виклики і може суттєво підвищити ефективність навчання моделей у всій індустрії штучного інтелекту.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 8
  • Репост
  • Поділіться
Прокоментувати
0/400
PretendingToReadDocsvip
· 6год тому
Ой, знову нові фішки від DeepSeek, ця mHC знову щось має перевернути? --- Чи можна перевершити з'єднання잔차? Чи ця технологія надійна, чи ні, назва трохи заплутує --- Китайський AI знову і знову випускає нову архітектуру, а ми тут ще з параметрами б'ємося, ха-ха --- Чи можуть LLM і візуальні моделі покращитися? Виглядає, ніби це трохи перебільшено --- Чому ця абревіатура mHC така незручна для запам'ятовування, важко її запам'ятати --- DeepSeek публікує одну статтю за іншою, але як насправді працює — невідомо --- Знову manifold і hyper, ці хлопці просто люблять використовувати такі високопарні слова
Переглянути оригіналвідповісти на0
CryptoHistoryClassvip
· 10год тому
ngl, бачив цей графік раніше... залишкові з'єднання мали бути кінцевою архітектурою ще у 2017 році. тепер вони «перевищують» її? *перевіряє історичні графіки продуктивності* ...так, ми точно знову у фазі «революційного прориву» циклу. дайте їм 18 місяців
Переглянути оригіналвідповісти на0
LiquidationWatchervip
· 10год тому
ngl deepseek випускає нову архітектуру штучного інтелекту, поки ми всі напружено стежимо за нашими позиціями... пам’ятаєте, коли всі думали, що залишкові з’єднання — це кінцева мета? в будь-якому випадку ця річ MHC здається справжньою, але я не знаю, щоразу, коли Китай оголошує про якийсь прорив, у мене активується посттравматичний стресовий розлад через ліквідацію. бачив занадто багато "революційних" технологічних ігор, які були обійдені у 2022 році.
Переглянути оригіналвідповісти на0
pvt_key_collectorvip
· 10год тому
Ха, це deepseek знову робить нові трюки, і цього разу mHC звучить досить круто --- Втомилися гратися з залишковими з'єднаннями? Це трохи цікаво, треба побачити, як це насправді працює --- Китайський ШІ опублікував ще одну статтю, і західний ринок капіталу знову почне тремтіти --- Слово «обмежений многомером» починається і звучить трохи жорстко --- Можна використовувати і LLM, і візуальні моделі, що є ударом по зменшенню розмірності, якщо це справді вдається --- Не знаю, чи це хайп, чи справжній прорив, зачекайте і подивитеся на бенчмарк --- Банда Deepseek останнім часом дуже активна і почала вибухати газети після фінансування --- Говорячи прямо, архітектура все ще оптимізується, наскільки свіжа основна логіка? --- Зазвичай це займає півроку, щоб перевірити, чи це спрацює, не поспішай зіпсувати все --- Окрім залишкового зв'язку? О Боже, ти знову збираєшся змінити підручник?
Переглянути оригіналвідповісти на0
BoredStakervip
· 10год тому
Чорт побери, deepseek знову придумав нову фішку? Щоразу китайська команда щось випускає, західні медіа починають роздувати.
Переглянути оригіналвідповісти на0
MemeTokenGeniusvip
· 10год тому
Задумавшись, я зрозумів, що архітектура mHC звучить круто, але що саме вона зможе показати — ще питання. DeepSeek знову випускає нові речі, це досить круто, чи зможе воно перевершити існуючі моделі? Головне — чи зможуть справді знизити витрати, адже лише теоретичні дані — це нічого не значить. Ця хвиля технологічних ітерацій може сильно вплинути на існуючих виробників GPU... mHC, LLM — звучить професійно, але наскільки це реально застосовно до екосистеми Web3... ммм
Переглянути оригіналвідповісти на0
PanicSellervip
· 10год тому
Знову нова архітектура, як назвали mHC, здається, що кожного разу вигадують нові слова --- deepseek знову показує свої можливості, чи зможе цього разу перевершити залишкові з’єднання? Мені трохи цікаво --- Внутрішня конкуренція китайських AI-компаній справді сильна, але чи можна це реально використовувати --- Ще не зрозумів за заголовком, але звучить знову як купа математичних термінів --- emm знову справа у надвеликих моделях, яка між цим і нашою торгівлею криптовалютами? --- Якщо ця штука справді зможе знизити витрати на обчислювальні ресурси, це буде круто, зараз тренування моделей дуже дорого обходиться --- Заголовок наполовину на корейській, наполовину на китайській, я трохи заплутався --- Архітектура хороша, але питання — хто зможе її застосувати?
Переглянути оригіналвідповісти на0
AirdropBlackHolevip
· 10год тому
Глибоководний учасник знову активізувався, дизайн архітектури mHC дійсно має деякий потенціал, але чесно кажучи, ці статті звучать майже однаково Ритм DeepSeek здається, ніби він має зламати деякі монополії Чи зможемо побити межу продуктивності LLM? Подивимось Знову купа технічних термінів, справжнє впровадження залежить від того, як далі все зроблять
Переглянути оригіналвідповісти на0
  • Закріпити