DeepSeekは、残留接続を超えた次世代AIアーキテクチャ「mHC」を発表しました

robot
概要作成中

出典:TokenPost オリジナルタイトル:中 딥시크, 잔차 연결 넘는 차세대 AI 아키텍처 ‘mHC’ 공개 オリジナルリンク:https://www.tokenpost.kr/news/ai/320188 中国のAI研究機関DeepSeek(が次世代のAI学習性能を大幅に向上させる新しいアーキテクチャを発表した。『mHC)Manifold-Constrained Hyper-Connections(』と名付けられたこの技術は、大規模言語モデル)LLM(や視覚認識モデルにおいて不可欠な『残差接続)residual connection(』方式を超える構造であり、学習精度はもちろんハードウェア効率も向上させたと評価されている。

mHCは従来の『ハイパーコネクション)Hyper-Connections(』技術を改良した方式である。ハイパーコネクションはディープラーニングモデルの層)layer(間の情報伝達をより効率的に行う構造として注目されたが、実運用環境ではさまざまな技術的制約により広く使われてこなかった。DeepSeekはこの限界を『マニフォールド)manifold(』の概念と結びつけることで克服した。マニフォールドは数学的に多層構造を持つ空間であり、単純な円形から3次元を超える複雑な構造まで多様である。DeepSeekはmHCがこれらのマニフォールドベースの構造を活用し、モデル学習中に生成される勾配)誤差逆伝播信号(の安定性と一貫性を確保する上で重要な役割を果たすと説明した。

DeepSeekはこのアーキテクチャの性能を検証するため、それぞれ30億、90億、270億のパラメータを持つ3種類のLLMをmHC構造で学習させ、同じスペックのモデルをハイパーコネクションベースと比較実験した。その結果、mHC構造のモデルは合計8つのベンチマークで一貫してより優れた性能を示したと同社は主張している。特にメモリ要求量の面で従来の構造より効率的な学習が可能であり、訓練時に発生するハードウェアオーバーヘッドは6.27%程度にとどまったと報告された。

DeepSeekの研究者は「マニフォールドベースの位相構造と最適化アルゴリズムの関係をより深く理解することで、mHCは現在のAIモデルの限界を克服し、次世代のインフラ設計の新たな道を開くことができる」と技術的意義を強調した。

今回の発表は、最近のAI学習アーキテクチャに対する世界的な見直しの動きの中で出されたものである点に注目される。従来の残差接続方式は2015年のディープラーニング研究で導入されて以来、LLMや画像分類モデルに広く用いられてきた。この構造は最終出力層で生成される誤差信号が逆流し、全層に学習情報を伝達する方式であり、この過程で生じる情報歪みを補正してきた。

しかし、AIモデルが次第に超大型化するにつれ、この残差接続の限界が露呈し、それを改善するためのさまざまな試みが続いてきた。DeepSeekのmHCはこうした背景から登場した最新技術であり、AI産業全体の基盤となるモデル学習効率の改善に直接寄与できると分析されている。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 8
  • リポスト
  • 共有
コメント
0/400
PretendingToReadDocsvip
· 6時間前
あらまたDeepSeekの新しいアイデアだ。これmHCはまた何を覆すつもりだろう? --- 잔차接続も超越できる?この技術は信頼できるのか、名前だけ見るとちょっと混乱する。 --- 中国のAIはまた新しいアーキテクチャを発表したね。こちらはまだパラメータ数を増やしているところだよ哈哈 --- LLMとビジョンモデルの両方を向上させられる?ちょっと大げさに聞こえるね。 --- mHCの略称はなんだか言いにくいし、覚えにくい。 --- DeepSeekの論文は次々と出ているけど、実際の効果はどうなんだろう。 --- またmanifoldやhyperといった、こういう高尚な言葉を使うのが好きなんだね。
原文表示返信0
CryptoHistoryClassvip
· 9時間前
正直、このプロットは以前にも見たことがある...2017年当時、残留接続がエンドゲームのアーキテクチャとされていました。今、彼らはそれを「超越」しているのですか?*過去の業績チャートを確認する* ...はい、私たちは間違いなくサイクルの「革命的突破口」フェーズに入っています。18ヶ月待ってみて
原文表示返信0
LiquidationWatchervip
· 9時間前
ngl deepseekは新しいAIアーキテクチャを発表している一方で、私たちは皆ポジションに汗をかいています... みんなが残差接続が最終形態だと思っていた頃を覚えていますか?とにかく、このmhcの話は本物のように聞こえますが、わかりません。中国が何かブレークスルーを発表するたびに、私の清算PTSDが発動します。2022年に多くの「革命的」な技術プレイがフロントランされて消え去るのを見てきました。
原文表示返信0
pvt_key_collectorvip
· 9時間前
ハ、またdeepseekが新しい仕掛けをしてきた。今回のmHCはかなりすごそうだ。 --- 残差接続に飽きた?面白いね、実際の効果を見てみないと。 --- 中国のAIがまた論文を発表、西洋の資本市場も揺れ動きそうだ。 --- manifold-constrainedという言葉、ちょっと堅苦しい感じがする。 --- LLMとビジュアルモデルの両方に使える、これが本当に実用化されたら次元削減の一撃だ。 --- これはただの誇張なのか、それとも本当にブレークスルーなのか、ベンチマークを待とう。 --- deepseekの連中は最近本当に活発だ。資金調達後すぐに論文攻勢を始めた。 --- 結局はアーキテクチャの最適化だ。核心のロジックはどれだけ新しいのか。 --- こういうものは普通、半年くらい経たないと本当に使えるかどうか分からない。焦らず見守ろう。 --- residual connectionを超える?まさかまた教科書を書き換えるのか。
原文表示返信0
BoredStakervip
· 9時間前
くそっ、deepseekまた新しい手口を考えたのか?中国チームが何かを出すたびに、西洋メディアはすぐに騒ぎ出す
原文表示返信0
MemeTokenGeniusvip
· 9時間前
しばらく考えた結果、このmHCアーキテクチャは素晴らしいと思いますが、実際に何が動作するかはまだ分かりません DeepSeekは新しい試みをしています。少し激しく、現行モデルを超えることができるでしょうか? 重要なのはコストを本当に抑制できるかどうかであり、紙のデータは興味を引かないのです この技術の波は既存のGPUメーカーに大きな影響を与えるのでしょうか... mHC LLMはプロフェッショナルに聞こえますが、実際にはWeb3エコシステムにも応用できます... まぁ
原文表示返信0
PanicSellervip
· 9時間前
また新しいアーキテクチャで、mHCという名前の由来で、毎回言葉を作り上げているように感じます --- Deepseekは移動を拡大しました。今回は本当に残留的なつながりを超えることができるのでしょうか? ちょっと気になるんだ --- 中国のAIメーカーは本当に手を焼いていますが、本当に使えるのでしょうか? --- タイトルはまだ理解できませんが、また数学用語の集まりのように聞こえます --- EMMは超大型モデルの問題でもありますが、それが私たちの通貨投機と何の関係があるのでしょうか --- もしこれが本当に計算能力のコストを下げられるなら素晴らしいことですが、今ではモデルのトレーニングコストが高すぎます --- タイトルは韓国語と中国語が半分で、少し目が回ります --- アーキテクチャは良いですが、問題は誰がそれを使えるかです
原文表示返信0
AirdropBlackHolevip
· 10時間前
深海選手また巻き返してきたね、mHCのこの波のアーキテクチャ設計は確かに一部面白いけど、正直これらの論文はどれも似たり寄ったりに聞こえる DeepSeekのこのペースは、いくつかの独占を打破しそうな気がする LLMの性能の天井を破る?見守るしかないね また技術用語の山だけど、実際に実現できるかはこれから次第
原文表示返信0
  • ピン