【最新情報】DeepSeek主導の研究によると、大規模言語モデルはTransformer内の静的知識を再構築しようとしすぎて、多くの計算資源を浪費していることが示唆されています。


彼らの解決策はEngramであり、条件付きメモリモジュールで、O(1)検索とMoEアーキテクチャを組み合わせたもので、内部テストでは知識、推論、プログラミング、数学、長いコンテキストタスクの性能向上が見られました。
原文表示
post-image
post-image
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 1
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
User_anyvip
· 10分前
LFG 🔥
返信0
  • ピン