Ted Hisokawa 2026年4月12日 01:37MiniMaxは、NVIDIAのGPU向けに最適化された2300億パラメータのミクスチャー・オブ・エキスパートモデル「M2.7」をリリースし、Blackwellハードウェア上で最大2.7倍のスループット向上を実現。MiniMaxは、特に自律エージェントのワークフロー向けに設計された2300億パラメータのオープンウェイトAIモデル「M2.7」をリリースし、NVIDIAの推論エコシステム全体で利用可能となった。最新のBlackwell Ultra GPUもサポート。このモデルは、エンタープライズAIにおける大きな効率化を示すものだ。総パラメータ数は巨大な2300億にもかかわらず、M2.7は1トークンあたりわずか10億パラメータを活性化—これは256のローカルエキスパートを持つミクスチャー・オブ・エキスパート(MoE)アーキテクチャによる4.3%の活性化率によるものだ。これにより推論コストを抑えつつ、はるかに大きなモデルの推論能力を維持している。## Blackwellでのパフォーマンス数値NVIDIAは、オープンソースコミュニティと協力してM2.7を実運用ワークロード向けに最適化した。二つの主要な最適化—融合されたQK RMS NormカーネルとTensorRT-LLMによるFP8 MoE統合—により、Blackwell Ultra GPU上で大幅なスループット向上を実現した。1K/1Kの入力/出力シーケンス長データセットでのテストでは、vLLMは最大2.5倍のスループット改善を達成し、SGLangは2.7倍の向上を記録した。これらの最適化はわずか一ヶ月で実施されており、さらなる性能向上の余地も示唆されている。## 技術アーキテクチャM2.7は、62層にわたる200Kの入力コンテキスト長をサポートし、ロータリー位置埋め込みを用いたマルチヘッド因果自己注意((RoPE))を採用している。トップ-kエキスパートルーティングにより、任意の入力に対して256のエキスパートのうち8つだけを活性化し、モデルの規模にもかかわらず低コストの推論を維持している。このアーキテクチャは、コーディングの課題や複雑なエージェントタスクをターゲットとしており、AIシステムが単一のプロンプトに反応するのではなく、自律的に計画・実行・反復を行うワークフローに適している。## 展開オプション開発者は複数のチャネルを通じてM2.7にアクセスできる。NVIDIAのNemoClawリファレンススタックは、OpenShellランタイムを用いた自律エージェントのワンクリック展開を提供。モデルはまた、NVIDIA NIMコンテナ化マイクロサービスを通じて、オンプレミス、クラウド、ハイブリッド展開にも対応している。モデルのカスタマイズを希望するチーム向けには、NVIDIAのNeMo AutoModelライブラリが公開レシピとともにファインチューニングをサポート。強化学習ワークフローもNeMo RLを通じて利用可能で、8Kおよび16Kシーケンス長のサンプル設定が用意されている。build.nvidia.comの無料GPUアクセラレーテッドエンドポイントで事前にテストでき、インフラ導入前の検証も可能。オープンウェイトはHugging Faceでも公開されており、セルフホスト型の展開も可能だ。このリリースにより、MiniMaxはOpenAIやAnthropicのクローズドモデルに対する信頼できる代替案として位置付けられ、特にNVIDIAインフラに既に投資しているエンタープライズにとって魅力的な選択肢となる。*画像出典:Shutterstock*
MiniMax M2.7が2300億パラメータのAIモデルをNVIDIAインフラに導入
Ted Hisokawa
2026年4月12日 01:37
MiniMaxは、NVIDIAのGPU向けに最適化された2300億パラメータのミクスチャー・オブ・エキスパートモデル「M2.7」をリリースし、Blackwellハードウェア上で最大2.7倍のスループット向上を実現。
MiniMaxは、特に自律エージェントのワークフロー向けに設計された2300億パラメータのオープンウェイトAIモデル「M2.7」をリリースし、NVIDIAの推論エコシステム全体で利用可能となった。最新のBlackwell Ultra GPUもサポート。
このモデルは、エンタープライズAIにおける大きな効率化を示すものだ。総パラメータ数は巨大な2300億にもかかわらず、M2.7は1トークンあたりわずか10億パラメータを活性化—これは256のローカルエキスパートを持つミクスチャー・オブ・エキスパート(MoE)アーキテクチャによる4.3%の活性化率によるものだ。これにより推論コストを抑えつつ、はるかに大きなモデルの推論能力を維持している。
Blackwellでのパフォーマンス数値
NVIDIAは、オープンソースコミュニティと協力してM2.7を実運用ワークロード向けに最適化した。二つの主要な最適化—融合されたQK RMS NormカーネルとTensorRT-LLMによるFP8 MoE統合—により、Blackwell Ultra GPU上で大幅なスループット向上を実現した。
1K/1Kの入力/出力シーケンス長データセットでのテストでは、vLLMは最大2.5倍のスループット改善を達成し、SGLangは2.7倍の向上を記録した。これらの最適化はわずか一ヶ月で実施されており、さらなる性能向上の余地も示唆されている。
技術アーキテクチャ
M2.7は、62層にわたる200Kの入力コンテキスト長をサポートし、ロータリー位置埋め込みを用いたマルチヘッド因果自己注意((RoPE))を採用している。トップ-kエキスパートルーティングにより、任意の入力に対して256のエキスパートのうち8つだけを活性化し、モデルの規模にもかかわらず低コストの推論を維持している。
このアーキテクチャは、コーディングの課題や複雑なエージェントタスクをターゲットとしており、AIシステムが単一のプロンプトに反応するのではなく、自律的に計画・実行・反復を行うワークフローに適している。
展開オプション
開発者は複数のチャネルを通じてM2.7にアクセスできる。NVIDIAのNemoClawリファレンススタックは、OpenShellランタイムを用いた自律エージェントのワンクリック展開を提供。モデルはまた、NVIDIA NIMコンテナ化マイクロサービスを通じて、オンプレミス、クラウド、ハイブリッド展開にも対応している。
モデルのカスタマイズを希望するチーム向けには、NVIDIAのNeMo AutoModelライブラリが公開レシピとともにファインチューニングをサポート。強化学習ワークフローもNeMo RLを通じて利用可能で、8Kおよび16Kシーケンス長のサンプル設定が用意されている。
build.nvidia.comの無料GPUアクセラレーテッドエンドポイントで事前にテストでき、インフラ導入前の検証も可能。オープンウェイトはHugging Faceでも公開されており、セルフホスト型の展開も可能だ。
このリリースにより、MiniMaxはOpenAIやAnthropicのクローズドモデルに対する信頼できる代替案として位置付けられ、特にNVIDIAインフラに既に投資しているエンタープライズにとって魅力的な選択肢となる。
画像出典:Shutterstock