広場
最新
注目
ニュース
プロフィール
ポスト
runesleo
2026-03-27 02:30:04
フォロー
AIエージェントを使ったコンテンツやデータ収集を経験した人なら誰でも知っていることだが、ウェブページのスクレイピングは最も汚くて疲れる作業だ。
普段のワークフローではChromeのクッキーを使ってデータを取得しているが、クッキーが期限切れになると使えなくなる。Cloudflareや厳しい反スクレイピング対策のサイトでは直接403エラーになる。Xのコンテンツは言うまでもなく、ログイン状態がすぐに無効になり、APIのクォータがなくなると別の方法を探さなければならない。リンク一つを取得するために、三層、四層のバックアップを準備しなければならず、最終層に到達しても取得できないことも頻繁にある。データを「取り込む」ために費やす労力は、「データを使って何かをする」よりも多い。
試しにXCrawlを使ってみて、私のOpenClawボットにそのスキルをインストールした。
最初のテストは、「ボットに『〇〇の内容を取得して』と指示する」だけだったが、数十の予測市場のオッズ、取引量、締め切り時間をすべて構造化されたMarkdown形式で返してきた。JavaScriptで動的にレンダリングされるページも、一つのリクエストで完了できる。
二つ目のテストはさらに過激だった——自分のX記事のリンクを一つ投入しただけで、数千字の長文とともにビュー数、いいね数、ブックマーク数も一緒に返ってきた。Xのコンテンツは取得が非常に難しいことで有名で、以前は専用のロジックを書かなければならなかったが、今では一言で済む。
消費量を見てみると、リクエスト一回あたり1〜2クレジットを消費する。内蔵の住宅用プロキシとJavaScriptレンダリング機能のおかげで、自分でインフラを構築する必要はない。出力されたMarkdownはそのままLLMに渡すか、データベースに保存できるので、二次的なクレンジングも不要だ。
APIには五つのモードがある——シングルページの取得、サイト全体のクロール、サイトマップ、検索、SERP(検索結果ページ)。これらは日常的な収集シナリオをほぼカバーしている。OpenClawのユーザーはスキルをインストールするだけで使え、登録時に1000クレジットが付与されるので、しばらくは十分に運用できる。
正直なところ、このデータ収集の基盤は早くサービス化されるべきだった。自分で構築するコストは高すぎて、メンテナンスも大変だ。必要に応じて呼び出すことで、時間を節約し、その分を本当に価値のある分析や意思決定に充てることができる。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
2 いいね
報酬
2
コメント
リポスト
共有
コメント
コメントを追加
コメントを追加
コメント
コメントなし
人気の話題
もっと見る
#
WinGoldBarsWithGrowthPoints
1M 人気度
#
CryptoMarketPullback
1.39M 人気度
#
IsraelStrikesIranBTCPlunges
16.99K 人気度
#
BitcoinWeakens
100.98M 人気度
#
FedRateHikeExpectationsResurface
843.23K 人気度
人気の Gate Fun
もっと見る
Gate Fun
KOL
最新
ファイナライズ中
リスト済み
1
LUX
Luxoris
時価総額:
$2.22K
保有者数:
1
0.00%
2
TKN26
TOKEN2026
時価総額:
$2.22K
保有者数:
1
0.00%
3
LGNS
LGNS
時価総額:
$2.28K
保有者数:
2
0.32%
4
!
春节
時価総額:
$2.23K
保有者数:
0
0.00%
5
KT
KT
時価総額:
$2.23K
保有者数:
1
0.00%
ピン
サイトマップ
AIエージェントを使ったコンテンツやデータ収集を経験した人なら誰でも知っていることだが、ウェブページのスクレイピングは最も汚くて疲れる作業だ。
普段のワークフローではChromeのクッキーを使ってデータを取得しているが、クッキーが期限切れになると使えなくなる。Cloudflareや厳しい反スクレイピング対策のサイトでは直接403エラーになる。Xのコンテンツは言うまでもなく、ログイン状態がすぐに無効になり、APIのクォータがなくなると別の方法を探さなければならない。リンク一つを取得するために、三層、四層のバックアップを準備しなければならず、最終層に到達しても取得できないことも頻繁にある。データを「取り込む」ために費やす労力は、「データを使って何かをする」よりも多い。
試しにXCrawlを使ってみて、私のOpenClawボットにそのスキルをインストールした。
最初のテストは、「ボットに『〇〇の内容を取得して』と指示する」だけだったが、数十の予測市場のオッズ、取引量、締め切り時間をすべて構造化されたMarkdown形式で返してきた。JavaScriptで動的にレンダリングされるページも、一つのリクエストで完了できる。
二つ目のテストはさらに過激だった——自分のX記事のリンクを一つ投入しただけで、数千字の長文とともにビュー数、いいね数、ブックマーク数も一緒に返ってきた。Xのコンテンツは取得が非常に難しいことで有名で、以前は専用のロジックを書かなければならなかったが、今では一言で済む。
消費量を見てみると、リクエスト一回あたり1〜2クレジットを消費する。内蔵の住宅用プロキシとJavaScriptレンダリング機能のおかげで、自分でインフラを構築する必要はない。出力されたMarkdownはそのままLLMに渡すか、データベースに保存できるので、二次的なクレンジングも不要だ。
APIには五つのモードがある——シングルページの取得、サイト全体のクロール、サイトマップ、検索、SERP(検索結果ページ)。これらは日常的な収集シナリオをほぼカバーしている。OpenClawのユーザーはスキルをインストールするだけで使え、登録時に1000クレジットが付与されるので、しばらくは十分に運用できる。
正直なところ、このデータ収集の基盤は早くサービス化されるべきだった。自分で構築するコストは高すぎて、メンテナンスも大変だ。必要に応じて呼び出すことで、時間を節約し、その分を本当に価値のある分析や意思決定に充てることができる。