1M AI News のモニタリングによると、米国のAIモデル企業 Arcee が、長時間の Agent タスク向けのオープンソース推論モデル「Trinity-Large-Thinking」をリリースしました。モデルはスパース混合専門家(MoE)アーキテクチャを採用し、総パラメータ 400B、アクティブパラメータはわずか 13B で、Apache 2.0 ライセンスのもと Hugging Face でオープンな重みとしてダウンロード可能です。
前モデルの Trinity-Large-Preview(純粋な指示の微調整)とは異なり、Trinity-Large-Thinking は回答前に推論の思考を実行し、複数ラウンドのツール呼び出し、長いコンテキストの一貫性、指示追従能力のいずれも向上しています。中核となる設計目標は、長時間の Agent ループにおいて安定した出力を維持することです。
Kilo が開発した Agent 能力ベンチマーク PinchBench では 91.9 点を獲得し、2位で、Opus 4.6 の 93.3 に次ぐ結果となりました。Agent タスクベンチマーク Tau2-Airline では 88.0 点で、すべての比較モデル中で最高です。しかし汎用推論ベンチマークの成績は一般的です。GPQA-D は 76.3 点で、Kimi-K2.5(86.9)や Opus 4.6(89.2)を下回ります。MMLU-Pro は 83.4 点で、同様に最下位です。Arcee 公式の説明では、このモデルは「多くの次元において、中国以外で最強のオープンソースモデル」です。
Arcee API の価格は出力 $0.90/百万 token で、Arcee によれば Opus 4.6 より約 96% 安いとのことです。モデルは同時に AI モデルルーティングプラットフォーム OpenRouter にも登場し、最初の 5 日間は OpenClaw で無料利用できます。前モデルの Preview は 1 月末のリリース以降、OpenRouter で 3.37 万億 token を超えて提供されており、OpenClaw に収録された米国の利用量第1位、世界の利用量第4位のオープンソースモデルです。Preview は引き続き OpenRouter で無料提供されます。