【最新情報】DeepSeek主導の研究によると、大規模言語モデルはTransformer内の静的知識を再構築しようとしすぎて、多くの計算資源を浪費していることが示唆されています。

彼らの解決策はEngramであり、条件付きメモリモジュールで、O(1)検索とMoEアーキテクチャを組み合わせたもので、内部テストでは知識、推論、プログラミング、数学、長いコンテキストタスクの性能向上が見られました。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

2 いいね

コメントを追加

User_any

· 10分前

LFG 🔥

返信0

人気の話題