以前、AIとWeb3が、計算ネットワーク、中間プラットフォーム、消費者アプリケーションなど、垂直産業全般で相互補完する方法について説明しました。垂直領域としてデータリソースに焦点を当てると、新興Webプロジェクトは、データの取得、共有、利用のための新しい可能性を提供しています。
データは、業界全体のイノベーションと意思決定の重要な推進力となっています。UBSは、世界のデータ量は2020年から2030年にかけて10倍に増加し、660ZBに達すると予測しています。2025 年までに、世界中の個人が毎日 463 EB (エクサバイト、1 EB = 10 億GB) のデータを生成すると予想されています。DaaS(Data-as-a-Service)市場は急速に拡大しています。Grand View Researchによると、世界のDaaS市場は2023年に143億6,000万ドルと評価され、28.1%の年平均成長率(CAGR)で成長し、2030年には768億ドルに達すると予想されています。
AIモデルトレーニングは、パターンを特定しパラメータを調整するために大規模なデータセットに大きく依存しています。トレーニング後、モデルのパフォーマンスや一般化能力をテストするためにもデータセットが必要です。さらに、新興の知能アプリケーション形態であるAIエージェントは、正確な意思決定とタスク実行を確保するためにリアルタイムかつ信頼性のあるデータソースが必要です。
(出典:Leewayhertz)
ビジネス分析の需要は多様化し、広範囲に及んでおり、企業のイノベーションを推進するための中核的なツールとして機能しています。たとえば、ソーシャルメディアプラットフォームや市場調査会社は、信頼性のあるユーザー行動データを必要とし、さまざまなソーシャルプラットフォームからの多様なデータを統合して、より包括的な画像を構築するために戦略を立案し、トレンドを分析する必要があります。
Web3エコシステムでは、新しい金融商品をサポートするためにチェーン上でも信頼性のある正確なデータが必要です。より革新的なアセットがトークン化されるにつれて、柔軟で信頼性のあるデータインターフェースが必要とされ、製品開発やリスク管理をサポートし、検証可能なリアルタイムデータに基づいてスマートコントラクトを実行することができます。
さらに、科学研究、IoT、および他の分野でのユースケースは、多様性のある、信頼性のある、リアルタイムのデータへの需要の急増を示しています。伝統的なシステムは急速に増加するデータ量と変化する要求に対応するのが難しいかもしれません。
典型的なデータエコシステムには、データの収集、保管、処理、分析、および応用が含まれています。中央集権型モデルは、中央集権的なデータの収集と保管が特徴で、厳格なアクセス制御を行う中核のITチームによって管理されています。例えば、Googleのデータエコシステムは、検索エンジン、Gmail、Androidオペレーティングシステムなど、様々なデータソースにまたがっています。これらのプラットフォームはユーザーデータを収集し、世界中の分散データセンターに保存し、アルゴリズムを使用してそれを処理し、様々な製品やサービスの開発と最適化を支援しています。
金融市場では、LSEG(旧リフィニティブ)は、世界の取引所、銀行、主要金融機関からリアルタイムおよび過去のデータを収集し、独自のロイター通信ネットワークを利用して市場関連ニュースを収集しています。彼らはこの情報を独自のアルゴリズムやモデルを使用して処理し、付加価値サービスとして分析およびリスク評価製品を生成しています。
(出典:kdnuggets.com)
伝統的なデータアーキテクチャは、プロフェッショナルサービスにおいて効果的ですが、中央集権モデルの制約がますます明らかになってきており、特に新興データソース、透明性、ユーザープライバシー保護の範囲をカバーする際に制約があります。以下にいくつかの主要な問題があります:
例えば、2021年のGameStopイベントは、伝統的な金融データプロバイダーのソーシャルメディアセンチメントを分析する際の限界を明らかにしました。Redditなどのプラットフォーム上の投資家のセンチメントが迅速に市場トレンドに影響を与えましたが、BloombergやReutersなどのデータ端末はこれらのダイナミクスを時に捉えることができず、市場予測が遅れることとなりました。
これらの問題を超えて、従来のデータプロバイダーは、コスト効率と柔軟性に関連する課題に直面しています。これらの問題に対処するために積極的に取り組んでいますが、新興のWeb3技術はこれらの問題に対処するための新たな視点と可能性を提供します。
2014年にIPFS(InterPlanetary File System)などの分散型ストレージソリューションが発売されて以来、伝統的なデータエコシステムの限界に対処するための新興プロジェクトが続々と登場しています。分散型データソリューションは、データ生成、ストレージ、交換、処理と分析、検証とセキュリティ、そしてプライバシーと所有権など、データライフサイクルのすべての段階をカバーする多層の相互接続エコシステムに進化しています。
データ交換と利用が増加するにつれ、信頼性、信憑性、およびプライバシーの確保が重要になっています。これにより、Web3エコシステムはデータの検証とプライバシー保護の革新を推進し、画期的なソリューションを生み出しています。
多くのWeb3テクノロジーとネイティブプロジェクトは、データの信頼性やプライバシー保護の問題に焦点を当てています。ゼロ知識証明(ZK)や多者計算(MPC)のようなテクノロジーの広範な採用を超えて、TLS Notaryは注目すべき新しい検証方法として登場しています。
TLS Notaryの紹介
Transport Layer Security(TLS)プロトコルはネットワーク通信のための広く使用されている暗号化プロトコルです。その主な目的は、クライアントとサーバーの間のデータ転送のセキュリティ、整合性、機密性を確保することです。TLSは、HTTPS、電子メール、インスタントメッセージなどのシーンで広く使用されている共通の暗号化標準です。
(TLS暗号化原則、出所:TechTarget)
TLS Notaryが10年前に最初に導入されたとき、その目的は、クライアント(証明者)とサーバーの外部に第三者の「公証人」を導入することによってTLSセッションの真正性を検証することでした。
キースプリッティング技術を使用することで、TLSセッションのマスターキーは2つの部分に分割され、クライアントと公証人によって別々に保持されます。この設計により、公証人は実際の通信内容にアクセスせずに検証プロセスに信頼できる第三者として参加することができます。このメカニズムは中間者攻撃を検出し、不正な証明書を防ぎ、通信データが送信中に改ざんされないようにします。また、プライバシーを保護しながら信頼できる第三者が通信の正当性を確認することも可能にします。
TLS Notaryは、安全なデータ検証を提供し、検証のニーズとプライバシー保護とを効果的にバランスさせます。
2022年、Ethereum FoundationのPrivacy and Scaling Exploration(PSE)研究所によって、TLS Notaryプロジェクトが再構築されました。Rustプログラミング言語でゼロから書き直された新しいバージョンのTLS Notaryプロトコルは、MPCなどのより高度な暗号プロトコルと統合されています。これらのアップデートにより、ユーザーはデータの内容を明らかにせずにサーバーから受け取ったデータの正当性を第三者に証明することができます。新しいTLS Notaryは、そのコアの検証機能を維持しながら、プライバシー保護を大幅に強化し、現在および将来のデータプライバシー要件により適しています。
最近、TLS Notaryテクノロジーは進化し続け、さまざまな派生形が生まれ、そのプライバシーと検証能力がさらに強化されました。
Web3プロジェクトは、これらの暗号技術を活用してデータの検証とプライバシー保護を強化し、データの独占、データの孤立、信頼性のある伝送などの問題に取り組んでいます。ユーザーは、ソーシャルメディアアカウントの所有権、金融ローンのショッピング記録、銀行の信用履歴、職歴、学歴などをプライバシーを損なうことなく安全に検証することができます。例には、次のようなものがあります:
(TLSオラクルを扱うプロジェクト、出典:Bastian Wetzel)
Web3におけるデータ検証は、データエコシステムにおける重要なリンクであり、広範な応用の可能性を持っています。このエコシステムの繁栄は、デジタル経済をよりオープンでダイナミック、ユーザーセントリックなモデルに導いています。ただし、真正性検証技術の開発は、次世代データインフラの構築の始まりに過ぎません。
前述のデータ検証技術をさらに探求したプロジェクトでは、データの追跡性、分散データ収集、信頼性のある伝送など、上流データエコシステムのさらなる探求を組み合わせています。以下では、OpenLayer、Grass、およびVanaという3つの代表的なプロジェクトを紹介し、次世代データインフラストラクチャの独自のポテンシャルを示しています。
a16z Crypto 2024 Spring Startup Acceleratorのプロジェクトの1つであるOpenLayerは、最初のモジュール式の正当なデータレイヤーです。Web2およびWeb3企業のニーズに対応するため、データ収集、検証、変換を調整するための革新的なモジュール式のソリューションを提供することを目的としています。OpenLayerは、Geometry VenturesやLongHash Venturesをはじめとする有名なファンドやエンジェル投資家から支援を受けています。
従来のデータレイヤーには複数の課題があります:信頼性のある検証メカニズムの不足、アクセシビリティを制限する中央集権的なアーキテクチャへの依存、異なるシステム間の相互運用性と流れの不足、そして公正なデータ価値分配メカニズムの欠如。
AIの訓練データの不足がますます深刻化しているという問題もあります。公共インターネット上では、多くのウェブサイトが今やAI企業による大規模なデータスクレイピングを防ぐためにアンチスクレイピング対策を展開しています。プライベートな独自のデータでは、状況はさらに複雑です。貴重なデータは、その機密性からプライバシー保護の方法で保管されることが多く、効果的なインセンティブメカニズムが不足しています。ユーザーはプライベートデータを安全に収益化することができず、そのため機密情報を共有することをためらっています。
これらの問題に対処するために、OpenLayerはデータ検証技術を組み合わせ、モジュラーな認証データレイヤーを構築しています。分散化と経済的インセンティブを通じて、データ収集、検証、変換のプロセスを調整し、Web2およびWeb3企業により安全で効率的かつ柔軟なデータインフラを提供しています。
OpenLayerは、データ収集、信頼性のある検証、および変換プロセスを簡素化するモジュラープラットフォームを提供します。
a) OpenNodes
OpenNodesは、OpenLayerエコシステムにおける分散データ収集の中核コンポーネントです。モバイルアプリ、ブラウザ拡張機能、その他のチャンネルを通じて、ユーザーはデータを収集することができます。異なるオペレーター/ノードは、ハードウェア仕様に最適なタスクを実行することで、報酬を最適化することができます。
OpenNodesは、3つの主要なデータタイプをサポートしています:
開発者は新しいデータタイプを簡単に追加したり、データソースを指定したり、要件を定義したり、取得方法を指定したりできます。ユーザーは報酬と引き換えに匿名化されたデータを提供できます。この設計により、システムは新しいデータ要求に対応するために持続的に拡大できます。多様なデータソースにより、OpenLayerはさまざまなアプリケーションシナリオに適しており、データ提供の敷居が低くなります。
b) OpenValidators
OpenValidatorsは、収集されたデータの検証を処理し、データ消費者がユーザーが提供したデータの正確性をソースと照合できるようにします。検証方法は暗号的な証明を使用し、結果は遡って検証できます。複数のプロバイダーが同じタイプの証明に対して検証サービスを提供することができ、開発者は自分のニーズに最適なプロバイダーを選択できます。
初期の使用事例では、特にインターネットAPIからのパブリックまたはプライベートデータについて、OpenLayerはTLS Notaryを検証ソリューションとして利用しています。これにより、Webアプリケーションからデータをエクスポートし、プライバシーを損なうことなくその信頼性を検証します。
Beyond TLS Notary, thanks to its modular design, the verification system can easily integrate other methods to accommodate diverse data and verification needs, including:
c) OpenConnect
OpenConnectは、OpenLayerエコシステム内でのデータ変換と利便性に責任を持つモジュールです。さまざまなソースからデータを処理し、異なるシステム間での相互運用性を確保し、多様なアプリケーション要件を満たします。例えば:
データ共有中のリークと誤用を減らすために、ユーザーのプライベートアカウントに対してプライバシーを保護するデータ匿名化を提供しながら、セキュリティを強化します。
AIとブロックチェーンアプリケーションのリアルタイムデータ要求に応えるために、OpenConnectは効率的なリアルタイムデータ変換をサポートしています。
現在、EigenLayerとの統合により、OpenLayer AVS(Active Validation Service)オペレータはデータリクエストタスクを監視し、データを収集し、検証し、結果をシステムに報告します。オペレータはEigenLayer上でアセットをステーキングまたは再ステーキングして、自身の行動に対する経済的な保証を提供します。悪意のある行動はアセットの削減を引き起こします。EigenLayerメインネット上の最初のAVSプロジェクトの一つであるOpenLayerは、50以上のオペレータと40億ドル以上の再ステーキングアセットを集めています。
Wynd Networkが開発した旗艦プロジェクト「Grass」は、分散型ネットワーククローラーとAIトレーニングデータプラットフォームを作成するために設計されています。2023年末までに、Polychain CapitalとTribe Capitalをリードとする350万ドルのシードラウンドを完了しました。2024年9月には、HackVCをリードとする500万ドルのシリーズA資金調達を確保し、Polychain、Delphi、Lattice、Brevan Howardも追加で参加しました。
AIトレーニングはますます多様で広範なデータソースに依存しており、Grassは分散ウェブクローラーノードネットワークを作成することでこのニーズに対応しています。このネットワークは分散型の物理的インフラストラクチャとアイドルユーザーバンド幅を活用して、AIトレーニングのための検証可能なデータセットを収集および提供しています。ノードはユーザーのインターネット接続を介してウェブリクエストをルーティングし、公開ウェブサイトにアクセスして構造化されたデータセットを編成します。初期のデータクリーニングとフォーマット変換はエッジコンピューティング技術を使用して行われ、高品質な出力が保証されています。
Grassは、処理効率を向上させるためにSolana Layer 2 Data Rollupアーキテクチャを利用しています。バリデータは、ノードからWebトランザクションを受信し、検証し、バッチ処理し、データの真正性を確認するためにZero-Knowledge (ZK)プルーフを生成します。検証済みデータはGrassデータ台帳(L2)に格納され、対応するプルーフがSolana L1ブロックチェーンにリンクされています。
a) グラスノード:
ユーザーは、Grassアプリまたはブラウザ拡張機能をインストールし、アイドル状態の帯域幅を使用して分散型Webクローリングを行います。ノードはWebリクエストをルーティングし、公開ウェブサイトにアクセスし、構造化されたデータセットを編集します。エッジコンピューティングを使用して、初期のデータクリーニングとフォーマットを行います。ユーザーは、帯域幅の貢献と提供されたデータのボリュームに基づいてGRASSトークンを報酬として獲得します。
b) ルーター:
中間者として機能するルーターは、Grassノードをバリデータに接続します。彼らはノードネットワークを管理し、帯域幅を中継し、提供する検証済み帯域幅に基づいてインセンティブを受け取ります。
c)バリデーター:
バリデータは、ルーターによって中継されたウェブトランザクションを受け取り、検証します。彼らはZKプルーフを生成してデータの正当性を確認し、固有のキーセットを活用して安全なTLS接続と暗号化スイートを確立します。現在、Grassは中央集権的なバリデータを使用していますが、分散型のバリデータ委員会への移行の計画が進行中です。
d) ZK プロセッサー:
これらのプロセッサは、ノードセッションデータの検証とすべてのWebリクエストデータのバッチ処理を行い、Solanaレイヤー1への提出を行います。
e) Grass Data Ledger (Grass L2):
The Grass Data Ledger stores comprehensive datasets and links them to their corresponding L1 proofs on Solana, ensuring transparency and traceability.
f) エッジ埋め込みモデル:
これらのモデルは、AIトレーニングに適した構造化されたデータセットに非構造化のWebデータを変換します。
Source: 草
GrassとOpenLayerは、分散ネットワークを活用して企業にオープンなインターネットデータと認証済みのプライベートデータへのアクセスを提供するという共通のコミットメントを持っています。両者はデータ共有と高品質なデータセットの生成を促進するためにインセンティブメカニズムを利用していますが、技術的なアーキテクチャやビジネスモデルは異なります。
技術アーキテクチャ:
Grassは、単一のバリデータに依存する中央集権的な検証を使用するSolana Layer 2 Data Rollupアーキテクチャを採用しており、OpenLayerはEigenLayerのAVS(アクティブ検証サービス)の早期採用者として、経済的インセンティブとスラッシングペナルティを使用した分散型の検証メカニズムを採用しています。そのモジュラーデザインは、データ検証サービスの拡張性と柔軟性を重視しています。
製品焦点:
両プロジェクトはユーザーがノードを通じてデータを収益化することを可能にしますが、ビジネスの用途は異なります:
Grassは、主に大規模な構造化データセットを必要とするAI企業やデータサイエンティスト、またウェブベースのデータを必要とする研究機関や企業をターゲットとしています。OpenLayerは、オフチェーンデータソースを必要とするWeb3開発者、リアルタイムで検証可能なストリームを必要とするAI企業、競合他社の製品使用状況を検証するなど、革新的な戦略を追求するビジネスに対応しています。
両プロジェクトは現在は異なるニッチを占めていますが、業界が進化するにつれて機能が収束する可能性があります:
両プロジェクトは、トレーニングデータセットの重要なステップとしてデータラベリングを統合することも可能です。Grassは、220万を超える活発なノードを持つ広範なネットワークを備えており、迅速に強化学習と人間フィードバック(RLHF)サービスを展開してAIモデルを最適化することができます。一方、OpenLayerは、リアルタイムのデータ検証と処理の専門知識を持っており、特にプライベートデータセットにおいてデータの信頼性と品質を維持することができます。
潜在的な重複にもかかわらず、彼らのユニークな強みと技術的アプローチにより、分散型データエコシステム内の異なるニッチを支配することができるかもしれません。
(ソース:IOSG、David)
Vanaは、AIおよび関連アプリケーション向けの高品質なデータを提供するために設計されたユーザーセントリックなデータプールネットワークです。OpenLayerやGrassと比較して、Vanaは異なる技術的およびビジネスアプローチを取っています。2024年9月、VanaはCoinbase Venturesをリードインベスターとして500万ドルの資金調達に成功し、Paradigmがリードインベスターとして参加し、PolychainとCasey Carusoも参加した1,800万ドルのシリーズAラウンドに続きました。
もともとMITの研究プロジェクトとして2018年に立ち上げられたVanaは、プライベートユーザーデータ専用のレイヤー1ブロックチェーンです。データの所有権と価値の分配におけるイノベーションにより、ユーザーはデータでトレーニングされたAIモデルから利益を得ることができます。Vanaは、トラストレスでプライベートで帰属可能なデータ流動性プール(DLP)と、プライベートデータの流れと収益化を促進する革新的なProof of Contributionメカニズムを通じてこれを実現します。
Vanaは、Vanaネットワークの中心にあるデータ流動性プール(DLP)のユニークなコンセプトを紹介しています。各DLPは、特定の種類のデータ資産を集約する独立したピアツーピアネットワークです。ユーザーは、ショッピング記録、ブラウジング習慣、ソーシャルメディアの活動などのプライベートデータを指定されたDLPにアップロードし、特定の第三者の使用を認可するかどうかを決定することができます。
これらのプール内のデータは、ユーザーのプライバシーを保護するために匿名化されると同時に、AIモデルのトレーニングや市場調査などの商用アプリケーションに引き続き使用できます。DLP にデータを提供するユーザーには、対応する DLP トークンが報酬として与えられます。これらのトークンは、プールへのユーザーの貢献を表し、ガバナンス権限を付与し、ユーザーに将来の利益の一部を受け取る権利を与えます。
従来の一度限りのデータ販売とは異なり、Vanaはデータが経済サイクルに継続的に参加できるようにし、ユーザーが透明で視覚化された利用状況の追跡による継続的な報酬を受け取ることができます。
Proof of Contribution(PoC)メカニズムは、データ品質を確保するためのVanaのアプローチの基礎となるものです。各DLPは、その特性に合わせた独自のPoC機能を定義し、提出されたデータの真正性と完全性を検証し、AIモデルのパフォーマンス向上への貢献を評価できます。このメカニズムは、ユーザーの貢献を定量化し、報酬の割り当てのために記録します。暗号通貨の「プルーフ・オブ・ワーク」の概念と同様に、PoCはデータの質、量、使用頻度に基づいてユーザーに報酬を与えます。スマートコントラクトはこのプロセスを自動化し、コントリビューターが公正かつ透明に報酬を受けられるようにします。
このコアレイヤーは、DLPへのデータのコントリビューション、検証、記録を可能にし、データをオンチェーンで転送可能なデジタル資産に変換します。DLP 作成者は、スマート コントラクトをデプロイして、目的、検証方法、およびコントリビューション パラメーターを設定します。データコントリビューターは検証のためにデータを送信し、PoC モジュールはデータ品質を評価し、ガバナンスの権利と報酬を割り当てます。
Vanaのアプリケーションレイヤーとして機能し、データ提供者と開発者の協力を促進するプラットフォームです。DLPの流動性を使用して、分散型AIトレーニングモデルとAI DAppsを構築するためのインフラを提供します。
Vanaエコシステムの基盤となる分散型台帳であるコネクトームは、リアルタイムのデータフローマップとして機能します。 Proof of Stakeコンセンサスを使用して、すべてのリアルタイムデータトランザクションを記録し、効率的なDLPトークンの転送を確実にし、クロスDLPデータアクセスを可能にします。 EVMと完全に互換性があり、他のネットワーク、プロトコル、DeFiアプリケーションとの相互運用が可能です。
(Source: Vana)
Vanaは、ユーザーデータの流動性とエンパワーメントに焦点を当てることで新しいアプローチを提供します。この分散型データ交換モデルは、AIトレーニングやデータマーケットプレイスをサポートするだけでなく、Web3エコシステムにおけるシームレスなクロスプラットフォームのデータ共有と所有を可能にします。最終的には、ユーザーがデータとそれから作成されたインテリジェント製品を所有し管理できるオープンなインターネットを育成します。
2006年、データサイエンティストのクライブ・ハムビーは有名な言葉を残しました。「データは新たな石油である」と。過去20年間、私たちは「この資源を精製する」技術の急速な進化を目撃してきました。ビッグデータ分析や機械学習など、データから前例のない価値を引き出すことができる技術です。IDCによると、2025年までに、世界のデータスフィアは163ゼタバイトに拡大し、その大部分は個人からのものになると予想されています。IoT、ウェアラブルデバイス、AI、パーソナライズされたサービスがより普及するにつれて、商業利用に必要なデータの多くは個人から発生するでしょう。
Web3データソリューションは、分散ノードネットワークを活用することで、従来のインフラの制約を克服しています。これらのネットワークにより、より広範囲で効率的なデータ収集が可能となり、特定のデータセットのリアルタイムなアクセス可能性と検証性が向上します。Web3テクノロジーは、データの信頼性と整合性を確保し、ユーザーのプライバシーを保護しながら、より公正なデータ利用モデルを育成します。この分散型アーキテクチャはデータアクセスを民主化し、ユーザーにデータ経済の経済的利益を共有する力を与えます。
OpenLayerとGrassはどちらもユーザーノードモデルに依存して特定のデータ収集プロセスを強化し、Vanaはプライベートユーザーデータを収益化します。これらのアプローチは、効率を向上させるだけでなく、一般ユーザーがデータエコノミーによって生み出される価値に参加できるようにし、ユーザーと開発者にとってWin-Winのシナリオを作成します。
トークンエコノミクスを通じて、Web3データソリューションはインセンティブモデルを再設計し、より公正な価値分配メカニズムを確立しています。これらのシステムは、ユーザーの参加、ハードウェアリソース、資本投資を大幅に引き付け、データネットワーク全体の運営を最適化します。
Web3のソリューションは、技術の進化とエコシステムの拡大に向けたモジュール性と拡張性を提供します。例えば、OpenLayerのモジュール設計は将来の進歩に対する柔軟性を提供し、Grassの分散アーキテクチャは多様で高品質なデータセットを提供することでAIモデルのトレーニングを最適化します。
データ生成、保存、検証から交換、分析まで、Web3によるソリューションは従来のインフラの欠点に対処します。これらのソリューションにより、ユーザーはデータを収益化できるようになり、データ経済を根本的に変革します。
テクノロジーが進化し、アプリケーションシナリオが拡大するにつれて、分散データレイヤーは次世代インフラストラクチャーの礎となる可能性があります。これにより、幅広いデータ駆動型産業をサポートし、ユーザーがデータとその経済的可能性をコントロールすることができます。
以前、AIとWeb3が、計算ネットワーク、中間プラットフォーム、消費者アプリケーションなど、垂直産業全般で相互補完する方法について説明しました。垂直領域としてデータリソースに焦点を当てると、新興Webプロジェクトは、データの取得、共有、利用のための新しい可能性を提供しています。
データは、業界全体のイノベーションと意思決定の重要な推進力となっています。UBSは、世界のデータ量は2020年から2030年にかけて10倍に増加し、660ZBに達すると予測しています。2025 年までに、世界中の個人が毎日 463 EB (エクサバイト、1 EB = 10 億GB) のデータを生成すると予想されています。DaaS(Data-as-a-Service)市場は急速に拡大しています。Grand View Researchによると、世界のDaaS市場は2023年に143億6,000万ドルと評価され、28.1%の年平均成長率(CAGR)で成長し、2030年には768億ドルに達すると予想されています。
AIモデルトレーニングは、パターンを特定しパラメータを調整するために大規模なデータセットに大きく依存しています。トレーニング後、モデルのパフォーマンスや一般化能力をテストするためにもデータセットが必要です。さらに、新興の知能アプリケーション形態であるAIエージェントは、正確な意思決定とタスク実行を確保するためにリアルタイムかつ信頼性のあるデータソースが必要です。
(出典:Leewayhertz)
ビジネス分析の需要は多様化し、広範囲に及んでおり、企業のイノベーションを推進するための中核的なツールとして機能しています。たとえば、ソーシャルメディアプラットフォームや市場調査会社は、信頼性のあるユーザー行動データを必要とし、さまざまなソーシャルプラットフォームからの多様なデータを統合して、より包括的な画像を構築するために戦略を立案し、トレンドを分析する必要があります。
Web3エコシステムでは、新しい金融商品をサポートするためにチェーン上でも信頼性のある正確なデータが必要です。より革新的なアセットがトークン化されるにつれて、柔軟で信頼性のあるデータインターフェースが必要とされ、製品開発やリスク管理をサポートし、検証可能なリアルタイムデータに基づいてスマートコントラクトを実行することができます。
さらに、科学研究、IoT、および他の分野でのユースケースは、多様性のある、信頼性のある、リアルタイムのデータへの需要の急増を示しています。伝統的なシステムは急速に増加するデータ量と変化する要求に対応するのが難しいかもしれません。
典型的なデータエコシステムには、データの収集、保管、処理、分析、および応用が含まれています。中央集権型モデルは、中央集権的なデータの収集と保管が特徴で、厳格なアクセス制御を行う中核のITチームによって管理されています。例えば、Googleのデータエコシステムは、検索エンジン、Gmail、Androidオペレーティングシステムなど、様々なデータソースにまたがっています。これらのプラットフォームはユーザーデータを収集し、世界中の分散データセンターに保存し、アルゴリズムを使用してそれを処理し、様々な製品やサービスの開発と最適化を支援しています。
金融市場では、LSEG(旧リフィニティブ)は、世界の取引所、銀行、主要金融機関からリアルタイムおよび過去のデータを収集し、独自のロイター通信ネットワークを利用して市場関連ニュースを収集しています。彼らはこの情報を独自のアルゴリズムやモデルを使用して処理し、付加価値サービスとして分析およびリスク評価製品を生成しています。
(出典:kdnuggets.com)
伝統的なデータアーキテクチャは、プロフェッショナルサービスにおいて効果的ですが、中央集権モデルの制約がますます明らかになってきており、特に新興データソース、透明性、ユーザープライバシー保護の範囲をカバーする際に制約があります。以下にいくつかの主要な問題があります:
例えば、2021年のGameStopイベントは、伝統的な金融データプロバイダーのソーシャルメディアセンチメントを分析する際の限界を明らかにしました。Redditなどのプラットフォーム上の投資家のセンチメントが迅速に市場トレンドに影響を与えましたが、BloombergやReutersなどのデータ端末はこれらのダイナミクスを時に捉えることができず、市場予測が遅れることとなりました。
これらの問題を超えて、従来のデータプロバイダーは、コスト効率と柔軟性に関連する課題に直面しています。これらの問題に対処するために積極的に取り組んでいますが、新興のWeb3技術はこれらの問題に対処するための新たな視点と可能性を提供します。
2014年にIPFS(InterPlanetary File System)などの分散型ストレージソリューションが発売されて以来、伝統的なデータエコシステムの限界に対処するための新興プロジェクトが続々と登場しています。分散型データソリューションは、データ生成、ストレージ、交換、処理と分析、検証とセキュリティ、そしてプライバシーと所有権など、データライフサイクルのすべての段階をカバーする多層の相互接続エコシステムに進化しています。
データ交換と利用が増加するにつれ、信頼性、信憑性、およびプライバシーの確保が重要になっています。これにより、Web3エコシステムはデータの検証とプライバシー保護の革新を推進し、画期的なソリューションを生み出しています。
多くのWeb3テクノロジーとネイティブプロジェクトは、データの信頼性やプライバシー保護の問題に焦点を当てています。ゼロ知識証明(ZK)や多者計算(MPC)のようなテクノロジーの広範な採用を超えて、TLS Notaryは注目すべき新しい検証方法として登場しています。
TLS Notaryの紹介
Transport Layer Security(TLS)プロトコルはネットワーク通信のための広く使用されている暗号化プロトコルです。その主な目的は、クライアントとサーバーの間のデータ転送のセキュリティ、整合性、機密性を確保することです。TLSは、HTTPS、電子メール、インスタントメッセージなどのシーンで広く使用されている共通の暗号化標準です。
(TLS暗号化原則、出所:TechTarget)
TLS Notaryが10年前に最初に導入されたとき、その目的は、クライアント(証明者)とサーバーの外部に第三者の「公証人」を導入することによってTLSセッションの真正性を検証することでした。
キースプリッティング技術を使用することで、TLSセッションのマスターキーは2つの部分に分割され、クライアントと公証人によって別々に保持されます。この設計により、公証人は実際の通信内容にアクセスせずに検証プロセスに信頼できる第三者として参加することができます。このメカニズムは中間者攻撃を検出し、不正な証明書を防ぎ、通信データが送信中に改ざんされないようにします。また、プライバシーを保護しながら信頼できる第三者が通信の正当性を確認することも可能にします。
TLS Notaryは、安全なデータ検証を提供し、検証のニーズとプライバシー保護とを効果的にバランスさせます。
2022年、Ethereum FoundationのPrivacy and Scaling Exploration(PSE)研究所によって、TLS Notaryプロジェクトが再構築されました。Rustプログラミング言語でゼロから書き直された新しいバージョンのTLS Notaryプロトコルは、MPCなどのより高度な暗号プロトコルと統合されています。これらのアップデートにより、ユーザーはデータの内容を明らかにせずにサーバーから受け取ったデータの正当性を第三者に証明することができます。新しいTLS Notaryは、そのコアの検証機能を維持しながら、プライバシー保護を大幅に強化し、現在および将来のデータプライバシー要件により適しています。
最近、TLS Notaryテクノロジーは進化し続け、さまざまな派生形が生まれ、そのプライバシーと検証能力がさらに強化されました。
Web3プロジェクトは、これらの暗号技術を活用してデータの検証とプライバシー保護を強化し、データの独占、データの孤立、信頼性のある伝送などの問題に取り組んでいます。ユーザーは、ソーシャルメディアアカウントの所有権、金融ローンのショッピング記録、銀行の信用履歴、職歴、学歴などをプライバシーを損なうことなく安全に検証することができます。例には、次のようなものがあります:
(TLSオラクルを扱うプロジェクト、出典:Bastian Wetzel)
Web3におけるデータ検証は、データエコシステムにおける重要なリンクであり、広範な応用の可能性を持っています。このエコシステムの繁栄は、デジタル経済をよりオープンでダイナミック、ユーザーセントリックなモデルに導いています。ただし、真正性検証技術の開発は、次世代データインフラの構築の始まりに過ぎません。
前述のデータ検証技術をさらに探求したプロジェクトでは、データの追跡性、分散データ収集、信頼性のある伝送など、上流データエコシステムのさらなる探求を組み合わせています。以下では、OpenLayer、Grass、およびVanaという3つの代表的なプロジェクトを紹介し、次世代データインフラストラクチャの独自のポテンシャルを示しています。
a16z Crypto 2024 Spring Startup Acceleratorのプロジェクトの1つであるOpenLayerは、最初のモジュール式の正当なデータレイヤーです。Web2およびWeb3企業のニーズに対応するため、データ収集、検証、変換を調整するための革新的なモジュール式のソリューションを提供することを目的としています。OpenLayerは、Geometry VenturesやLongHash Venturesをはじめとする有名なファンドやエンジェル投資家から支援を受けています。
従来のデータレイヤーには複数の課題があります:信頼性のある検証メカニズムの不足、アクセシビリティを制限する中央集権的なアーキテクチャへの依存、異なるシステム間の相互運用性と流れの不足、そして公正なデータ価値分配メカニズムの欠如。
AIの訓練データの不足がますます深刻化しているという問題もあります。公共インターネット上では、多くのウェブサイトが今やAI企業による大規模なデータスクレイピングを防ぐためにアンチスクレイピング対策を展開しています。プライベートな独自のデータでは、状況はさらに複雑です。貴重なデータは、その機密性からプライバシー保護の方法で保管されることが多く、効果的なインセンティブメカニズムが不足しています。ユーザーはプライベートデータを安全に収益化することができず、そのため機密情報を共有することをためらっています。
これらの問題に対処するために、OpenLayerはデータ検証技術を組み合わせ、モジュラーな認証データレイヤーを構築しています。分散化と経済的インセンティブを通じて、データ収集、検証、変換のプロセスを調整し、Web2およびWeb3企業により安全で効率的かつ柔軟なデータインフラを提供しています。
OpenLayerは、データ収集、信頼性のある検証、および変換プロセスを簡素化するモジュラープラットフォームを提供します。
a) OpenNodes
OpenNodesは、OpenLayerエコシステムにおける分散データ収集の中核コンポーネントです。モバイルアプリ、ブラウザ拡張機能、その他のチャンネルを通じて、ユーザーはデータを収集することができます。異なるオペレーター/ノードは、ハードウェア仕様に最適なタスクを実行することで、報酬を最適化することができます。
OpenNodesは、3つの主要なデータタイプをサポートしています:
開発者は新しいデータタイプを簡単に追加したり、データソースを指定したり、要件を定義したり、取得方法を指定したりできます。ユーザーは報酬と引き換えに匿名化されたデータを提供できます。この設計により、システムは新しいデータ要求に対応するために持続的に拡大できます。多様なデータソースにより、OpenLayerはさまざまなアプリケーションシナリオに適しており、データ提供の敷居が低くなります。
b) OpenValidators
OpenValidatorsは、収集されたデータの検証を処理し、データ消費者がユーザーが提供したデータの正確性をソースと照合できるようにします。検証方法は暗号的な証明を使用し、結果は遡って検証できます。複数のプロバイダーが同じタイプの証明に対して検証サービスを提供することができ、開発者は自分のニーズに最適なプロバイダーを選択できます。
初期の使用事例では、特にインターネットAPIからのパブリックまたはプライベートデータについて、OpenLayerはTLS Notaryを検証ソリューションとして利用しています。これにより、Webアプリケーションからデータをエクスポートし、プライバシーを損なうことなくその信頼性を検証します。
Beyond TLS Notary, thanks to its modular design, the verification system can easily integrate other methods to accommodate diverse data and verification needs, including:
c) OpenConnect
OpenConnectは、OpenLayerエコシステム内でのデータ変換と利便性に責任を持つモジュールです。さまざまなソースからデータを処理し、異なるシステム間での相互運用性を確保し、多様なアプリケーション要件を満たします。例えば:
データ共有中のリークと誤用を減らすために、ユーザーのプライベートアカウントに対してプライバシーを保護するデータ匿名化を提供しながら、セキュリティを強化します。
AIとブロックチェーンアプリケーションのリアルタイムデータ要求に応えるために、OpenConnectは効率的なリアルタイムデータ変換をサポートしています。
現在、EigenLayerとの統合により、OpenLayer AVS(Active Validation Service)オペレータはデータリクエストタスクを監視し、データを収集し、検証し、結果をシステムに報告します。オペレータはEigenLayer上でアセットをステーキングまたは再ステーキングして、自身の行動に対する経済的な保証を提供します。悪意のある行動はアセットの削減を引き起こします。EigenLayerメインネット上の最初のAVSプロジェクトの一つであるOpenLayerは、50以上のオペレータと40億ドル以上の再ステーキングアセットを集めています。
Wynd Networkが開発した旗艦プロジェクト「Grass」は、分散型ネットワーククローラーとAIトレーニングデータプラットフォームを作成するために設計されています。2023年末までに、Polychain CapitalとTribe Capitalをリードとする350万ドルのシードラウンドを完了しました。2024年9月には、HackVCをリードとする500万ドルのシリーズA資金調達を確保し、Polychain、Delphi、Lattice、Brevan Howardも追加で参加しました。
AIトレーニングはますます多様で広範なデータソースに依存しており、Grassは分散ウェブクローラーノードネットワークを作成することでこのニーズに対応しています。このネットワークは分散型の物理的インフラストラクチャとアイドルユーザーバンド幅を活用して、AIトレーニングのための検証可能なデータセットを収集および提供しています。ノードはユーザーのインターネット接続を介してウェブリクエストをルーティングし、公開ウェブサイトにアクセスして構造化されたデータセットを編成します。初期のデータクリーニングとフォーマット変換はエッジコンピューティング技術を使用して行われ、高品質な出力が保証されています。
Grassは、処理効率を向上させるためにSolana Layer 2 Data Rollupアーキテクチャを利用しています。バリデータは、ノードからWebトランザクションを受信し、検証し、バッチ処理し、データの真正性を確認するためにZero-Knowledge (ZK)プルーフを生成します。検証済みデータはGrassデータ台帳(L2)に格納され、対応するプルーフがSolana L1ブロックチェーンにリンクされています。
a) グラスノード:
ユーザーは、Grassアプリまたはブラウザ拡張機能をインストールし、アイドル状態の帯域幅を使用して分散型Webクローリングを行います。ノードはWebリクエストをルーティングし、公開ウェブサイトにアクセスし、構造化されたデータセットを編集します。エッジコンピューティングを使用して、初期のデータクリーニングとフォーマットを行います。ユーザーは、帯域幅の貢献と提供されたデータのボリュームに基づいてGRASSトークンを報酬として獲得します。
b) ルーター:
中間者として機能するルーターは、Grassノードをバリデータに接続します。彼らはノードネットワークを管理し、帯域幅を中継し、提供する検証済み帯域幅に基づいてインセンティブを受け取ります。
c)バリデーター:
バリデータは、ルーターによって中継されたウェブトランザクションを受け取り、検証します。彼らはZKプルーフを生成してデータの正当性を確認し、固有のキーセットを活用して安全なTLS接続と暗号化スイートを確立します。現在、Grassは中央集権的なバリデータを使用していますが、分散型のバリデータ委員会への移行の計画が進行中です。
d) ZK プロセッサー:
これらのプロセッサは、ノードセッションデータの検証とすべてのWebリクエストデータのバッチ処理を行い、Solanaレイヤー1への提出を行います。
e) Grass Data Ledger (Grass L2):
The Grass Data Ledger stores comprehensive datasets and links them to their corresponding L1 proofs on Solana, ensuring transparency and traceability.
f) エッジ埋め込みモデル:
これらのモデルは、AIトレーニングに適した構造化されたデータセットに非構造化のWebデータを変換します。
Source: 草
GrassとOpenLayerは、分散ネットワークを活用して企業にオープンなインターネットデータと認証済みのプライベートデータへのアクセスを提供するという共通のコミットメントを持っています。両者はデータ共有と高品質なデータセットの生成を促進するためにインセンティブメカニズムを利用していますが、技術的なアーキテクチャやビジネスモデルは異なります。
技術アーキテクチャ:
Grassは、単一のバリデータに依存する中央集権的な検証を使用するSolana Layer 2 Data Rollupアーキテクチャを採用しており、OpenLayerはEigenLayerのAVS(アクティブ検証サービス)の早期採用者として、経済的インセンティブとスラッシングペナルティを使用した分散型の検証メカニズムを採用しています。そのモジュラーデザインは、データ検証サービスの拡張性と柔軟性を重視しています。
製品焦点:
両プロジェクトはユーザーがノードを通じてデータを収益化することを可能にしますが、ビジネスの用途は異なります:
Grassは、主に大規模な構造化データセットを必要とするAI企業やデータサイエンティスト、またウェブベースのデータを必要とする研究機関や企業をターゲットとしています。OpenLayerは、オフチェーンデータソースを必要とするWeb3開発者、リアルタイムで検証可能なストリームを必要とするAI企業、競合他社の製品使用状況を検証するなど、革新的な戦略を追求するビジネスに対応しています。
両プロジェクトは現在は異なるニッチを占めていますが、業界が進化するにつれて機能が収束する可能性があります:
両プロジェクトは、トレーニングデータセットの重要なステップとしてデータラベリングを統合することも可能です。Grassは、220万を超える活発なノードを持つ広範なネットワークを備えており、迅速に強化学習と人間フィードバック(RLHF)サービスを展開してAIモデルを最適化することができます。一方、OpenLayerは、リアルタイムのデータ検証と処理の専門知識を持っており、特にプライベートデータセットにおいてデータの信頼性と品質を維持することができます。
潜在的な重複にもかかわらず、彼らのユニークな強みと技術的アプローチにより、分散型データエコシステム内の異なるニッチを支配することができるかもしれません。
(ソース:IOSG、David)
Vanaは、AIおよび関連アプリケーション向けの高品質なデータを提供するために設計されたユーザーセントリックなデータプールネットワークです。OpenLayerやGrassと比較して、Vanaは異なる技術的およびビジネスアプローチを取っています。2024年9月、VanaはCoinbase Venturesをリードインベスターとして500万ドルの資金調達に成功し、Paradigmがリードインベスターとして参加し、PolychainとCasey Carusoも参加した1,800万ドルのシリーズAラウンドに続きました。
もともとMITの研究プロジェクトとして2018年に立ち上げられたVanaは、プライベートユーザーデータ専用のレイヤー1ブロックチェーンです。データの所有権と価値の分配におけるイノベーションにより、ユーザーはデータでトレーニングされたAIモデルから利益を得ることができます。Vanaは、トラストレスでプライベートで帰属可能なデータ流動性プール(DLP)と、プライベートデータの流れと収益化を促進する革新的なProof of Contributionメカニズムを通じてこれを実現します。
Vanaは、Vanaネットワークの中心にあるデータ流動性プール(DLP)のユニークなコンセプトを紹介しています。各DLPは、特定の種類のデータ資産を集約する独立したピアツーピアネットワークです。ユーザーは、ショッピング記録、ブラウジング習慣、ソーシャルメディアの活動などのプライベートデータを指定されたDLPにアップロードし、特定の第三者の使用を認可するかどうかを決定することができます。
これらのプール内のデータは、ユーザーのプライバシーを保護するために匿名化されると同時に、AIモデルのトレーニングや市場調査などの商用アプリケーションに引き続き使用できます。DLP にデータを提供するユーザーには、対応する DLP トークンが報酬として与えられます。これらのトークンは、プールへのユーザーの貢献を表し、ガバナンス権限を付与し、ユーザーに将来の利益の一部を受け取る権利を与えます。
従来の一度限りのデータ販売とは異なり、Vanaはデータが経済サイクルに継続的に参加できるようにし、ユーザーが透明で視覚化された利用状況の追跡による継続的な報酬を受け取ることができます。
Proof of Contribution(PoC)メカニズムは、データ品質を確保するためのVanaのアプローチの基礎となるものです。各DLPは、その特性に合わせた独自のPoC機能を定義し、提出されたデータの真正性と完全性を検証し、AIモデルのパフォーマンス向上への貢献を評価できます。このメカニズムは、ユーザーの貢献を定量化し、報酬の割り当てのために記録します。暗号通貨の「プルーフ・オブ・ワーク」の概念と同様に、PoCはデータの質、量、使用頻度に基づいてユーザーに報酬を与えます。スマートコントラクトはこのプロセスを自動化し、コントリビューターが公正かつ透明に報酬を受けられるようにします。
このコアレイヤーは、DLPへのデータのコントリビューション、検証、記録を可能にし、データをオンチェーンで転送可能なデジタル資産に変換します。DLP 作成者は、スマート コントラクトをデプロイして、目的、検証方法、およびコントリビューション パラメーターを設定します。データコントリビューターは検証のためにデータを送信し、PoC モジュールはデータ品質を評価し、ガバナンスの権利と報酬を割り当てます。
Vanaのアプリケーションレイヤーとして機能し、データ提供者と開発者の協力を促進するプラットフォームです。DLPの流動性を使用して、分散型AIトレーニングモデルとAI DAppsを構築するためのインフラを提供します。
Vanaエコシステムの基盤となる分散型台帳であるコネクトームは、リアルタイムのデータフローマップとして機能します。 Proof of Stakeコンセンサスを使用して、すべてのリアルタイムデータトランザクションを記録し、効率的なDLPトークンの転送を確実にし、クロスDLPデータアクセスを可能にします。 EVMと完全に互換性があり、他のネットワーク、プロトコル、DeFiアプリケーションとの相互運用が可能です。
(Source: Vana)
Vanaは、ユーザーデータの流動性とエンパワーメントに焦点を当てることで新しいアプローチを提供します。この分散型データ交換モデルは、AIトレーニングやデータマーケットプレイスをサポートするだけでなく、Web3エコシステムにおけるシームレスなクロスプラットフォームのデータ共有と所有を可能にします。最終的には、ユーザーがデータとそれから作成されたインテリジェント製品を所有し管理できるオープンなインターネットを育成します。
2006年、データサイエンティストのクライブ・ハムビーは有名な言葉を残しました。「データは新たな石油である」と。過去20年間、私たちは「この資源を精製する」技術の急速な進化を目撃してきました。ビッグデータ分析や機械学習など、データから前例のない価値を引き出すことができる技術です。IDCによると、2025年までに、世界のデータスフィアは163ゼタバイトに拡大し、その大部分は個人からのものになると予想されています。IoT、ウェアラブルデバイス、AI、パーソナライズされたサービスがより普及するにつれて、商業利用に必要なデータの多くは個人から発生するでしょう。
Web3データソリューションは、分散ノードネットワークを活用することで、従来のインフラの制約を克服しています。これらのネットワークにより、より広範囲で効率的なデータ収集が可能となり、特定のデータセットのリアルタイムなアクセス可能性と検証性が向上します。Web3テクノロジーは、データの信頼性と整合性を確保し、ユーザーのプライバシーを保護しながら、より公正なデータ利用モデルを育成します。この分散型アーキテクチャはデータアクセスを民主化し、ユーザーにデータ経済の経済的利益を共有する力を与えます。
OpenLayerとGrassはどちらもユーザーノードモデルに依存して特定のデータ収集プロセスを強化し、Vanaはプライベートユーザーデータを収益化します。これらのアプローチは、効率を向上させるだけでなく、一般ユーザーがデータエコノミーによって生み出される価値に参加できるようにし、ユーザーと開発者にとってWin-Winのシナリオを作成します。
トークンエコノミクスを通じて、Web3データソリューションはインセンティブモデルを再設計し、より公正な価値分配メカニズムを確立しています。これらのシステムは、ユーザーの参加、ハードウェアリソース、資本投資を大幅に引き付け、データネットワーク全体の運営を最適化します。
Web3のソリューションは、技術の進化とエコシステムの拡大に向けたモジュール性と拡張性を提供します。例えば、OpenLayerのモジュール設計は将来の進歩に対する柔軟性を提供し、Grassの分散アーキテクチャは多様で高品質なデータセットを提供することでAIモデルのトレーニングを最適化します。
データ生成、保存、検証から交換、分析まで、Web3によるソリューションは従来のインフラの欠点に対処します。これらのソリューションにより、ユーザーはデータを収益化できるようになり、データ経済を根本的に変革します。
テクノロジーが進化し、アプリケーションシナリオが拡大するにつれて、分散データレイヤーは次世代インフラストラクチャーの礎となる可能性があります。これにより、幅広いデータ駆動型産業をサポートし、ユーザーがデータとその経済的可能性をコントロールすることができます。