ミラ・ジョヴァ・ヴィキはAIで「満点プロジェクト」を作った?開発者が実測:本当に中身があるのか、それとも誇大な宣伝・誇張なのか?

Milla Jovovich が開発に参加した AI 記憶システム MemPalace は、テストで満点を取って大ブレイクしたと主張したものの、コミュニティからはテストの不正やデータのミスリードが疑われると指摘された。実測の結果、効果は誇張されており大量の誤りが見つかった。チームは欠陥を認め、修復に取り組んでいる。

Milla Jovovich が AI 記憶の「メモリー宮殿」を構築し、外部の注目を集める

昨日(4/7)AI 業界での大きなニュースは、 『バイオハザード』や『第5元素』で知られるハリウッド女優の Milla・ジョヴォヴィッチ(Milla Jovovich)が、開発者 Ben Sigman と Claude Code を使って「MemPalace」オープンソースの AI 記憶システムを開発した、というものだ。

一気に、「ハリウッドの大スターが異業種で満点級のプロジェクトを作った」という話が広まり、MemPalace はこれまで GitHub 上で 2 万スター以上を獲得しているものの、すぐに開発者コミュニティから疑問の声が上がった。本当に実力があるのか、それとも宣伝の誇大なのか?

まずは MemPalace が生まれた動機について説明しよう。公式ドキュメントによれば、現在の AI システムでは、ユーザーと AI の対話内容、意思決定のプロセス、そしてアーキテクチャの議論が、作業セッション終了後に消えてしまうことが多い。そのため、数か月の努力が ゼロまで落ちる 制約があるという。

この問題を解決するため、MemPalace は空間構造を用いて記憶を保存し、情報を人物やプロジェクトを示す翼区(ウィング)に明確に分類するほか、廊下、部屋、引き出しなどの異なる階層の構造にも整理して、後続の意味検索のために対話原文を保持する。

開発チームは、MemPalace は長期記憶の評価基準 LongMemEval で 100% の完璧な成績を獲得し、さらに外部 API を一切呼び出さない状況で 96.6% の正確率に到達していると主張している。また、完全にローカル端末で動作し、クラウドサービスのサブスクは不要で、さらに 30 倍の無損圧縮に到達するとされる AAAK 方言システムを搭載している。

画像出典:GitHub ハリウッドスターの Milla Jovovich が AI 記憶の宮殿を構築し、外部の注目を集める

同業他社とコミュニティが一斉に疑問視、テスト方法と宣伝に瑕疵

しかし、LongMemEval で満点という MemPalace の成績は、すぐに同業他社から疑問を呼んだ。

同じく AI 記憶システムを制作する PenfieldLabs は、MemPalace が LoCoMo データセットで満点を取ったと主張しているが、数学的には起こりえないと指摘した。なぜなら、そのデータセットの模範解答そのものに 99 個の誤りが含まれているからだ。

PenfieldLabs の分析では、MemPalace の 100% 成績は、検索回数を 50 回に設定していることに起因していた。しかしテストデータセットの対話は最高で 32 ステージしかない。つまりシステムは検索段階をそのまま迂回し、すべてのデータを AI モデルに読ませている。

LongMemEval の 100% 成績については、開発チームが開発集中でエラーが出ている 3 つの特定の問題を対象に専用の修復コードを書いており、テストセットでの不正の疑いがあることが判明した。

画像出典:Reddit 同業他社の PenfieldLabs は、MemPalace が LoCoMo データセットで満点を取ったと主張しているが、数学的には起こりえないと指摘

GitHub ユーザーの実測、ベンチマークにはミスリード成分

GitHub ユーザーの hugooconnor は実測後にコメントし、MemPalace が最大 96.6% の検索精度を主張しているが、実際には MemPalace が売りにしている記憶宮殿の構造をまったく使っていないと述べた。hugooconnor によれば、彼らのテストは単に下層のデータベース ChromaDB のデフォルト機能を呼び出すだけで、プロジェクトが強調する翼区、部屋、引き出しなどの分類ロジックは一切関与していないという。

hugooconnor のテストでは、システムでこれらの記憶宮殿の専用分類ロジックを実際に有効化すると、検索成績はむしろ悪化したことが分かった。たとえば部屋モードでは正確率が 89.4% まで下がり、AAAK 圧縮技術を有効にすると正確率はさらに 84.2% まで落ちる。どちらもデフォルトのデータベースの性能を下回っている。

hugooconnor はテスト方法も批判した。MemPalace のテスト環境は、各問題の検索範囲を意図的に約 50 の対話ステージにまで絞り、極めて小さなサンプル庫の中で答えを探すのは簡単すぎるという。

範囲を実際の状況における 19,000 以上の対話ステージまで広げると、従来のキーワード検索の正確率は 30% まで大きく下落するはずで、MemPalace の現在のテスト方式が実際の検索の難題を隠していることが示唆される。

画像出典:GitHub GitHub ユーザーの実測、MemPalace のベンチマークにはミスリード成分

同時に、開発チームが訂正声明をすでに公開し、AAAK 技術が実際に損失圧縮として検証されたことを認め、コミュニティからの厳しい批判に基づいてドキュメントとシステム設計を修正することを約束しているにもかかわらず、プロジェクトのメインの説明ドキュメントには依然として未修正の誇大表現が複数残されている。たとえば「30 倍の無損圧縮」や「検索が 34% 向上」といった主張であり、さらに他の競合相手との比較グラフにも出典がまったく示されていない。

MemPalace の元コードには複数の Bug がある

より多くの開発者がテストをダウンロードするにつれ、現在 GitHub 上では MemPalace の元コードに関する大量の Bug 報告が出ている。

ユーザー cktang88 は複数の重大な不備を列挙しており、圧縮コマンドが動作せずシステムがクラッシュする、要約の文字数計算ロジックの誤り、部屋を掘り起こすための統計データが不正確であること、そしてサーバーが呼び出しのたびにすべての解釈データをメモリに読み込んでしまい、深刻なリソース消費問題を引き起こすことが含まれるという。

ほかにも指摘されている問題として、システムが開発者の家族の名前をデフォルト設定ファイルに強制的に書き込むこと、ならびに照会時に 1 万件のデータの強制表示上限が存在することが挙げられている。

これらの問題に対し、オープンソースコミュニティはすでに積極的に修復を始めている。**ユーザー adv3nt3 は複数の修復リクエストを提出し、統計データの掘り起こし部分の修正、デフォルトの家族名の削除、知識グラフ初期化時間の遅延といった内容を含めた。**開発チームもその後、これらの誤りを認めており、コミュニティとの協業で段階的にコードの問題を解決しているところだ。

Milla Jovovich の Vibe Coding はかっこいいが、マーケティングはかっこよくない

MemPalace というこのプロジェクトについて、Hacker News のユーザー darkhanakh は次のような結論を下している。MemPalace は OpenClaw のような印象を与える。つまり、ベンチマーク(benchmark)結果を人為的に操作して完璧に見せ、そしてそれを何らかの重大なブレイクスルーとしてパッケージ化して売り込む。

彼は、MemPalace の基盤技術はたしかに面白い可能性があるものの、テスト方法にこうした瑕疵がある状況で、さらに「史上公開最高スコア」を打ち出して宣伝するのは、あまり適切ではないと考えている。「ただし、Milla Jovovich が Vibe Coding で遊んでる件については、私はやっぱりかなりクールだと思う。」

関連記事:
AI がプログラム制作で失敗!コンビニ即配のアプリ「惜食獵人」が資安問題で炎上、家の GPS が丸見えに

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし