Cloudflareが提供する「ワンクリック全サイト爬虫API」は、RAG、増分更新、モデル訓練を完璧にサポートします。

動區BlockTempo

Cloudflareは3月10日に、そのBrowser Renderingサービス向けに新しい/crawlエンドポイント(現在オープンベータ段階)をリリースしました。この新機能により、開発者は単一のAPI呼び出しでウェブサイト全体をクロールできるほか、内容を自動的にHTML、Markdown、または構造化JSON形式に変換することが可能となり、AI訓練データセットやRAG(検索強化生成)パイプラインの構築において強力かつコンプライアンスに則ったツールを提供します。

(前提:Cloudflareの大規模障害により世界中のネットワークが大規模にダウン、「分散型アーキテクチャ」がインフラの未来なのか?)

(補足:Cloudflareのダウン後24時間:なぜネットワークは「倒れるとすぐに停止」するのか?中央集権のリスクとWeb3やRWAの未来)

目次

Toggle

  • 非同期処理、Markdownと構造化JSONに対応
  • 「お利口さん」クローラーを標榜し、コンプライアンスと防護機構を徹底
  • 増分クロールでコスト削減、無料プランで体験可能

生成型AIとRAG(検索強化生成)技術の爆発的な成長に伴い、効率的かつコンプライアンスを守ったウェブサイトのデータ取得は、開発者にとって最優先の課題となっています。そこで、インターネットインフラの巨人であるCloudflareは、3月10日に正式に発表しました。彼らのBrowser Rendering(ブラウザレンダリング)サービスにおいて、画期的な新機能として全く新しい/crawl APIエンドポイントを導入したのです。

この機能は現在オープンベータ段階にあり、「一度のAPI呼び出しだけでウェブサイト全体をクロールできる」ことを売りにしています。

非同期処理、Markdownと構造化JSONに対応

Cloudflareの発表によると、新しいクローラーAPIは非同期(Asynchronous)運用モードを採用しています。開発者は開始URLを送信するだけで、システムはジョブID(Job ID)を返し、バックグラウンドでヘッドレスブラウザ(Headless Browser)を用いて自動的にページを発見・レンダリングします。開発者はいつでもそのIDを使ってクロールの進行状況や結果を確認できます。

また、AI開発のワークフローにシームレスに連携できるよう、APIは複数の出力フォーマットを提供しています。従来のHTMLに加え、LLM(大規模言語モデル)に好まれるMarkdown形式や、Workers AIによる構造化JSON形式もサポート。これにより、データのクリーニングやフォーマット変換にかかる時間を大幅に削減します。

「お利口さん」クローラーを標榜し、コンプライアンスと防護機構を徹底

市販の多くの悪意あるクローラーが防護策を回避しようとする中、Cloudflareが今回導入した/crawlエンドポイントは、「コンプライアンスと透明性」を重視しています。公式は、このエンドポイントは署名済みのエージェント(Signed-agent)として動作し、対象サイトのrobots.txt(クロール遅延制限を含む)を厳守し、Cloudflare独自の「AIクローリングコントロール(AI Crawl Control)」規範も尊重すると強調しています。

さらに、Cloudflareはこのツールが「ロボットであることを自己申告」し、Cloudflareのロボット検出システムやCaptcha認証を回避できないことも明言しています。この設計により、クローラーの行動はサイト所有者の意向やサーバーに対して侵害的にならないことが保証されています。

増分クロールでコスト削減、無料プランで体験可能

効率化とコスト削減のため、APIには高度な制御機能も内蔵されています。

  • 増分クロール(Incremental crawling):modifiedSinceやmaxAgeパラメータをサポートし、変更されていないページや最近取得済みのページを自動的にスキップ。重複クロールの計算コストを節約します。
  • 詳細な範囲制御:クロール深度やページ数の上限を設定でき、ワイルドカード(Wildcard)を使って特定のURLパスを含めたり除外したり可能。
  • 静的モード(Static mode):JavaScriptのレンダリングを必要としない静的サイト向けにrender: falseを設定すれば、ヘッドレスブラウザの起動をスキップし、超高速なクロールを実現。

この強力なクローラー機能は、現在、Cloudflare Workersの「無料版」および「有料版」ユーザーに対して全面的に公開されています。定期的なサイト内容の監視や研究資料の収集、企業向けAIナレッジベースの構築を目指す開発チームにとって、これは非常に魅力的なインフラのアップグレードです。

原文表示
免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし