AIエージェントを使ったコンテンツやデータ収集を経験した人なら誰でも知っていることだが、ウェブページのスクレイピングは最も汚くて疲れる作業だ。


普段のワークフローではChromeのクッキーを使ってデータを取得しているが、クッキーが期限切れになると使えなくなる。Cloudflareや厳しい反スクレイピング対策のサイトでは直接403エラーになる。Xのコンテンツは言うまでもなく、ログイン状態がすぐに無効になり、APIのクォータがなくなると別の方法を探さなければならない。リンク一つを取得するために、三層、四層のバックアップを準備しなければならず、最終層に到達しても取得できないことも頻繁にある。データを「取り込む」ために費やす労力は、「データを使って何かをする」よりも多い。
試しにXCrawlを使ってみて、私のOpenClawボットにそのスキルをインストールした。
最初のテストは、「ボットに『〇〇の内容を取得して』と指示する」だけだったが、数十の予測市場のオッズ、取引量、締め切り時間をすべて構造化されたMarkdown形式で返してきた。JavaScriptで動的にレンダリングされるページも、一つのリクエストで完了できる。
二つ目のテストはさらに過激だった——自分のX記事のリンクを一つ投入しただけで、数千字の長文とともにビュー数、いいね数、ブックマーク数も一緒に返ってきた。Xのコンテンツは取得が非常に難しいことで有名で、以前は専用のロジックを書かなければならなかったが、今では一言で済む。
消費量を見てみると、リクエスト一回あたり1〜2クレジットを消費する。内蔵の住宅用プロキシとJavaScriptレンダリング機能のおかげで、自分でインフラを構築する必要はない。出力されたMarkdownはそのままLLMに渡すか、データベースに保存できるので、二次的なクレンジングも不要だ。
APIには五つのモードがある——シングルページの取得、サイト全体のクロール、サイトマップ、検索、SERP(検索結果ページ)。これらは日常的な収集シナリオをほぼカバーしている。OpenClawのユーザーはスキルをインストールするだけで使え、登録時に1000クレジットが付与されるので、しばらくは十分に運用できる。
正直なところ、このデータ収集の基盤は早くサービス化されるべきだった。自分で構築するコストは高すぎて、メンテナンスも大変だ。必要に応じて呼び出すことで、時間を節約し、その分を本当に価値のある分析や意思決定に充てることができる。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • 人気の Gate Fun

    もっと見る
  • 時価総額:$2.22K保有者数:1
    0.00%
  • 時価総額:$2.22K保有者数:1
    0.00%
  • 時価総額:$2.28K保有者数:2
    0.32%
  • 時価総額:$2.23K保有者数:0
    0.00%
  • 時価総額:$2.23K保有者数:1
    0.00%
  • ピン