デジタル知識の自由な宇宙の中心で、ウィキメディアは今日、その最近の歴史の中で最も複雑な課題の一つに直面しています。それは、体系的にそのコンテンツを略奪するAIボットの強気の波の高まりです。特に、最近数ヶ月でいわゆるクローラーAIによって生成されるトラフィックが50%増加しており、プラットフォームの技術的能力と経済的持続可能性の両方に負担をかけています。人工知能(AI)がデジタルインフラに与える影響は増大している:ウィキメディアのケース2024年1月から、ウィキペディアやその他のウィキメディアプロジェクトからダウンロードされるデータのボリュームが急増しています。この増加は、人間ユーザーの参加が増えたことに起因するのではなく、むしろ人工知能モデルを開発する企業によって使用される自動ボットの体系的でしばしば規制が不十分な使用に起因しています。これらのツールは、大量のテキスト、画像、その他のコンテンツを収集および分析するように設計されており、アルゴリズムのトレーニングにおいて主要なデータソースとしてWikimediaを使用します。一方では、デジタル知識のエコシステムにおけるプラットフォームの中心性を示す操作であり、他方では、そのITインフラに持続不可能な圧力をかける。問題は転送されるデータの量だけにあるのではありません。実際の重要な問題は、これらのボットがコンテンツにアクセスする方法にあります。実際のところ、ほとんどの場合、リクエストはまれなページやあまり訪問されないページに向けられます。つまり、それらはキャッシュシステムに含まれないページです。言い換えれば、最もよく参照されるページのコピーを一時的に保存することで、読み込みを速くするメカニズムです。これが発生すると、リクエストは中央サーバーによって直接処理される必要があり、その結果、作業負荷とコストが大幅に増加します。このシナリオは、メディアの関連性が高いイベントと結びつくと特に重要になります。その際、「人間」のトラフィックはすでに高いレベルに達しています。制御不能なボット:彼らはルールを無視し、ブロックを回避する。この現象のもう一つの憂慮すべき側面は、ますます洗練され、時にはクローラーの誤った行動によって表されます。実際、これらのボットの多くは、確立された規則を無視し、自動ブロックシステムを回避し、正当なユーザーを装います。このような行為は、良好なネットワーク利用の規範に違反するだけでなく、ウィキメディアの技術チームに継続的な監視とインフラを保護するための資源の恒常的な使用を強いる。プラットフォームを強化したり、そのコンテンツを豊かにするために割り当てられる可能性のあるリソース。この状況に応じて、ウィキメディア財団は技術的または防御的な反応に限らないよう努めています。提案された解決策は単に問題を抑制するだけでなく、自由な知識の協力的かつ持続可能な管理を目指しています。このようにして、WE5が誕生しました。これは、プラットフォームがホストするデータの取得と利用において、より公平で責任あるアプローチを促進することを目的とした新しい戦略的イニシアティブです。このプロジェクトは、テクノロジー企業や人工知能開発者への招待として提示されています。具体的には、ルールを尊重し、ネットワーク管理コストに貢献し、世界の主要な無料情報源の基盤となるインフラの存続を確保するよう招待することです。この一連の出来事は、知識への自由なアクセスの未来にとって重要な疑問を提起します。データが人工知能の生命線となった時代において、そのデータの保存と配布の費用を誰が負担するのでしょうか?ウィキメディアは、常に無償と共有の原則に駆動されてきましたが、今、オープンネスと持続可能性の交差点に立たされています。大手テクノロジー企業やファウンデーションのコンテンツを大量に使用するアクターによる方針変更がない限り、プロジェクトはアクセスの制限を強化するか、インフラを守るためにより厳しい制限を導入せざるを得ないかもしれません。デジタル公共財の尊重を求めるアピールウィキメディアが世界に送るメッセージは明確です。すなわち、自由な知識は公共の財であり、そのため、それは尊敬と責任をもって扱われるべきです。財団が提供する膨大な情報資産の商業目的での利用は、透明性のある方法で行われなければならず、規則に従う必要があります。さらに、必要に応じて、公正な貢献の形態を伴うことが求められます。アルゴリズムと自動化に支配されたますますデジタル化する環境において、知識へのアクセスが少数の経済的利益によって損なわれないようにすることが不可欠です。コミュニティ、機関、企業間のオープンな対話を通じてのみ、自由でアクセス可能かつ持続可能なグローバル百科事典の夢を生かし続けることが可能になります。
ウィキメディアが圧力にさらされています:AIボットによるトラフィックの50%の急増
デジタル知識の自由な宇宙の中心で、ウィキメディアは今日、その最近の歴史の中で最も複雑な課題の一つに直面しています。それは、体系的にそのコンテンツを略奪するAIボットの強気の波の高まりです。
特に、最近数ヶ月でいわゆるクローラーAIによって生成されるトラフィックが50%増加しており、プラットフォームの技術的能力と経済的持続可能性の両方に負担をかけています。
人工知能(AI)がデジタルインフラに与える影響は増大している:ウィキメディアのケース
2024年1月から、ウィキペディアやその他のウィキメディアプロジェクトからダウンロードされるデータのボリュームが急増しています。
この増加は、人間ユーザーの参加が増えたことに起因するのではなく、むしろ人工知能モデルを開発する企業によって使用される自動ボットの体系的でしばしば規制が不十分な使用に起因しています。
これらのツールは、大量のテキスト、画像、その他のコンテンツを収集および分析するように設計されており、アルゴリズムのトレーニングにおいて主要なデータソースとしてWikimediaを使用します。
一方では、デジタル知識のエコシステムにおけるプラットフォームの中心性を示す操作であり、他方では、そのITインフラに持続不可能な圧力をかける。
問題は転送されるデータの量だけにあるのではありません。実際の重要な問題は、これらのボットがコンテンツにアクセスする方法にあります。
実際のところ、ほとんどの場合、リクエストはまれなページやあまり訪問されないページに向けられます。つまり、それらはキャッシュシステムに含まれないページです。言い換えれば、最もよく参照されるページのコピーを一時的に保存することで、読み込みを速くするメカニズムです。
これが発生すると、リクエストは中央サーバーによって直接処理される必要があり、その結果、作業負荷とコストが大幅に増加します。
このシナリオは、メディアの関連性が高いイベントと結びつくと特に重要になります。その際、「人間」のトラフィックはすでに高いレベルに達しています。
制御不能なボット:彼らはルールを無視し、ブロックを回避する。
この現象のもう一つの憂慮すべき側面は、ますます洗練され、時にはクローラーの誤った行動によって表されます。実際、これらのボットの多くは、確立された規則を無視し、自動ブロックシステムを回避し、正当なユーザーを装います。
このような行為は、良好なネットワーク利用の規範に違反するだけでなく、ウィキメディアの技術チームに継続的な監視とインフラを保護するための資源の恒常的な使用を強いる。
プラットフォームを強化したり、そのコンテンツを豊かにするために割り当てられる可能性のあるリソース。
この状況に応じて、ウィキメディア財団は技術的または防御的な反応に限らないよう努めています。提案された解決策は単に問題を抑制するだけでなく、自由な知識の協力的かつ持続可能な管理を目指しています。
このようにして、WE5が誕生しました。これは、プラットフォームがホストするデータの取得と利用において、より公平で責任あるアプローチを促進することを目的とした新しい戦略的イニシアティブです。
このプロジェクトは、テクノロジー企業や人工知能開発者への招待として提示されています。
具体的には、ルールを尊重し、ネットワーク管理コストに貢献し、世界の主要な無料情報源の基盤となるインフラの存続を確保するよう招待することです。
この一連の出来事は、知識への自由なアクセスの未来にとって重要な疑問を提起します。データが人工知能の生命線となった時代において、そのデータの保存と配布の費用を誰が負担するのでしょうか?
ウィキメディアは、常に無償と共有の原則に駆動されてきましたが、今、オープンネスと持続可能性の交差点に立たされています。
大手テクノロジー企業やファウンデーションのコンテンツを大量に使用するアクターによる方針変更がない限り、プロジェクトはアクセスの制限を強化するか、インフラを守るためにより厳しい制限を導入せざるを得ないかもしれません。
デジタル公共財の尊重を求めるアピール
ウィキメディアが世界に送るメッセージは明確です。すなわち、自由な知識は公共の財であり、そのため、それは尊敬と責任をもって扱われるべきです。
財団が提供する膨大な情報資産の商業目的での利用は、透明性のある方法で行われなければならず、規則に従う必要があります。さらに、必要に応じて、公正な貢献の形態を伴うことが求められます。
アルゴリズムと自動化に支配されたますますデジタル化する環境において、知識へのアクセスが少数の経済的利益によって損なわれないようにすることが不可欠です。
コミュニティ、機関、企業間のオープンな対話を通じてのみ、自由でアクセス可能かつ持続可能なグローバル百科事典の夢を生かし続けることが可能になります。