DeepSeek представляет архитектуру ИИ следующего поколения «mHC», которая выходит за рамки остаточной связности

robot
Генерация тезисов в процессе

Источник: TokenPost Оригинальный заголовок: 中 딥시크, 잔차 연결 넘는 차세대 AI 아키텍처 ‘mHC’ 공개 Оригинальная ссылка: https://www.tokenpost.kr/news/ai/320188 Китайский исследовательский институт AI DeepSeek(DeepSeek) представил новую архитектуру, которая значительно повышает производительность обучения следующего поколения искусственного интеллекта. Технология, названная ‘mHC(Manifold-Constrained Hyper-Connections)’, представляет собой структуру, превосходящую по принципу ‘остаточные связи(residual connection)’, которые являются необходимыми для крупных языковых моделей(LLM) и моделей визуального восприятия, что повысило как точность обучения, так и эффективность аппаратного обеспечения.

mHC — это усовершенствованный вариант технологии ‘гипер-связей(Hyper-Connections)’. Гипер-связи помогают более эффективно передавать информацию между слоями(layer) в моделях глубокого обучения, однако в реальных условиях эксплуатации из-за технических ограничений они широко не использовались. DeepSeek преодолела этот барьер, интегрировав концепцию ‘манifold(manifold)’. Манifold — это математическое пространство с многослойной структурой, которое может быть простым кругом или сложной структурой, превышающей трехмерность. Компания объяснила, что mHC использует структуру на базе manifold для обеспечения стабильности и согласованности градиентов(ошибки обратного распространения), возникающих при обучении модели.

Для проверки эффективности архитектуры DeepSeek обучила три типа LLM с 30 миллиардами, 90 миллиардами и 270 миллиардами параметров в структуре mHC, а также провела сравнение с моделями того же размера, основанными на гипер-связях. По результатам, модели с архитектурой mHC показали более высокие показатели на 8 различных бенчмарках. Особенно отмечается более эффективное использование памяти и снижение аппаратных накладных расходов при обучении, которые составили всего около 6.27%.

Исследователи DeepSeek подчеркнули: «Глубже понимая взаимосвязь между топологической структурой manifold и алгоритмами оптимизации, mHC способен преодолеть текущие ограничения AI-моделей и открыть новые пути для проектирования инфраструктуры следующего поколения».

Это объявление особенно актуально на фоне глобальных обсуждений и пересмотров архитектур обучения AI. Традиционные остаточные связи, введённые в 2015 году в исследованиях глубокого обучения, широко применялись в LLM и моделях классификации изображений. Эта структура передает ошибочные сигналы с последнего слоя обратно через все слои, компенсируя искажения информации, возникающие в процессе.

Однако по мере увеличения масштабов AI-моделей выявились ограничения этих связей, и начались различные попытки их улучшения. Новая технология mHC от DeepSeek — это современное решение, которое, по мнению экспертов, может значительно повысить эффективность обучения моделей и стать основой для развития индустрии искусственного интеллекта.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 9
  • Репост
  • Поделиться
комментарий
0/400
ImpermanentLossFanvip
· 3ч назад
Опять mHC? Кажется, за последние два года обновления архитектур ИИ идут очень быстро, еще даже не разобрался с предыдущей. --- deepseek снова придумал новые фишки, но в конце концов эти исследования в стране все равно блокируют. --- Подключение остатка уже стало банальностью, действительно ли mHC значительно лучше residual? --- Еще одна архитектура, превосходящая transformer, правда ли это? --- Выглядит неплохо, но как всегда, настоящая цена — это затраты на фактическое рассуждение.
Посмотреть ОригиналОтветить0
PretendingToReadDocsvip
· 10ч назад
Ой, это опять новый трюк DeepSeek, что этот mHC собирается подорвать? --- Можно ли превзойти остаточное соединение? Эта технология ненадёжна, даже взгляд на название немного сбивает с толку --- Китайский ИИ выпустил новую архитектуру, и мы всё ещё прорабатываем параметры, ха-ха. --- Можно ли улучшить LLM и визуальные модели? Кажется, что он немного сильно дует --- Почему аббревиатура mHC такая неприятная, что я даже не могу её вспомнить --- Статьи DeepSeek появляются одна за другой, и я не знаю, каков реальный эффект --- Он многогранный и гиперактивный, и эти люди любят произносить такие высокие слова
Посмотреть ОригиналОтветить0
CryptoHistoryClassvip
· 13ч назад
ngl, видел этот график раньше... остаточные соединения должны были стать архитектурой финальной стадии еще в 2017 году. теперь они «превзошли» ее? *проверяет исторические графики производительности* ...да, мы снова находимся в фазе «революционного прорыва» цикла. дайте этому 18 месяцев
Посмотреть ОригиналОтветить0
LiquidationWatchervip
· 13ч назад
ngl deepseek представляет новую архитектуру ИИ, пока все мы потеем над нашими позициями... помните, когда все думали, что остаточные соединения — это финал? в любом случае, эта штука MHC звучит надежно, но я не уверен, каждый раз, когда Китай объявляет о каком-то прорыве, у меня срабатывает посттравматический стресс от ликвидации. смотрел слишком много "революционных" технологических игр, которые были обгонены и исчезли в 2022 году.
Посмотреть ОригиналОтветить0
pvt_key_collectorvip
· 13ч назад
Ха, снова deepseek придумывает что-то новое, в этот раз mHC звучит довольно круто --- Устали от всех этих residual connection? Интересно, стоит посмотреть, как это работает на практике --- Китайский ИИ снова публикует статьи, западные рынки капитала снова начнут трястись --- Слово manifold-constrained кажется немного грубым --- LLM и визуальные модели можно использовать вместе, если это действительно реализуется, это будет мощным ударом по снижению размерности --- Не знаю, хайп это или действительно есть прорыв, посмотрим на benchmark --- Эти ребята из deepseek недавно очень активны, после финансирования начали бомбардировать статьями --- Говоря откровенно, всё сводится к оптимизации архитектуры, насколько свежа основная логика? --- Обычно такие вещи показывают свою эффективность только через полгода, не спешите хвалить --- Превзойти residual connection? Боже, опять меняют учебники?
Посмотреть ОригиналОтветить0
BoredStakervip
· 13ч назад
Блин, deepseek снова придумали что-то новое? Каждый раз, когда китайская команда что-то публикует, западные СМИ начинают раздувать шумиху
Посмотреть ОригиналОтветить0
MemeTokenGeniusvip
· 13ч назад
Подумав некоторое время, эта архитектура mHC звучит потрясающе, но ещё предстоит увидеть, что действительно сможет работать DeepSeek делает что-то новое, немного жёсткое, сможет ли он превзойти нынешнюю модель? Ключевой вопрос в том, можно ли действительно подавить стоимость, а бумажные данные неинтересны Окажет ли эта волна технологических итераций большое влияние на существующих производителей GPU... mHC LLM, звучит профессионально, но его действительно можно применить в экосистеме web3... Ну
Посмотреть ОригиналОтветить0
PanicSellervip
· 13ч назад
Опять новая архитектура, как придумали название mHC, кажется, каждый раз придумывают новые слова --- deepseek снова удивляет, сможет ли на этот раз превзойти остаточные соединения? Мне интересно --- Внутреннее соревнование китайских AI-компаний действительно жесткое, но реально ли это применимо --- Еще не понял по заголовку, но звучит как куча математических терминов --- emm снова речь о сверхбольших моделях, какая связь с нашим трейдингом криптовалют? --- Если это действительно снизит затраты на вычислительные ресурсы, было бы круто, сейчас обучение моделей очень дорогое --- Половина заголовка на корейском, половина на китайском, я немного запутался --- Хорошая архитектура — это здорово, но вопрос в том, кто сможет её использовать
Посмотреть ОригиналОтветить0
AirdropBlackHolevip
· 14ч назад
Глубоководные участники снова в игре, дизайн архитектуры mHC действительно впечатляет, но честно говоря, эти статьи звучат очень похоже Ритм DeepSeek кажется, что он собирается разрушить некоторые монополии Нужно ли сломать потолок производительности LLM? Посмотрим Опять куча технических терминов, реальное внедрение зависит от того, как дальше всё будет реализовано
Посмотреть ОригиналОтветить0
Подробнее
  • Закрепить