Nucleus-Imageはオープンソースで、17Bパラメータの推論はわずか2Bを活性化し、後訓練ベンチマークでは超えるImagen4

robot
概要作成中

ME News ニュース、4月16日(UTC+8)、動察Beatingの監視によると、Nucleus AIチームはテキストから画像へのモデルNucleus-Imageを発表し、モデルの重み、訓練コード、訓練データセットをオープンソースで公開しました。ライセンスはApache 2.0で商用利用可能です。モデルは疎な混合専門家(MoE)拡散変換器アーキテクチャを採用し、総パラメータ数は17B(170億)で、各層に64のルーティング専門家が分散しています。推論時には約2B(20億)パラメータのみが活性化され、同じパラメータ規模の密集モデルより推論コストが著しく低くなっています。
三つの標準ベンチマークで、Nucleus-Imageは非公開のトップモデルと同等、またはそれを超えています。GenEvalのスコアは0.87で、Qianwen画像モデルと同等、空間位置サブ項目(0.85)はすべての比較モデルの中でトップです。DPG-Benchのスコアは88.79で、総合ランキング1位。OneIG-Benchのスコアは0.522で、Google Imagen4(0.515)やRecraft V3(0.502)を上回っています。これらの成績はすべて純粋な事前訓練から得られ、DPOや強化学習、人間の好みによる調整は行っていません。
Nucleus AIはこれを「この品質レベルで最初の完全オープンソースのMoE拡散モデル」と公式に述べています。
訓練データはインターネットから大規模に収集され、多段階のフィルタリング、重複排除、美学評価を経て7億枚の画像を保持し、1.5億の画像とテキストペアを生成しました。訓練は3段階に分かれ、256から1024解像度へ段階的に進行し、合計170万ステップ行われました。
テキストエンコーダはQwen3-VL-8B-Instructを使用し、diffusersライブラリを通じて呼び出され、クロスノイズ除去ステップのためのテキストKVキャッシュを内蔵し、推論コストをさらに低減しています。
ローカルで画像生成を展開したい開発者にとって、17Bパラメータながら2Bのみを活性化する設計は、消費者向けGPUでも動作可能であることを意味します。
完全なオープンソース(重み+訓練コード+データセット)は比較的珍しく、多くのオープンソース画像モデルは重みのみを公開し、データセットや訓練の詳細は非公開のままであり、これがテキストから画像への研究の再現性の主要な障壁の一つとなっています。
(出典:BlockBeats)

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン