Cloudflareは3月10日に、そのBrowser Renderingサービス向けに新しい/crawlエンドポイント(現在オープンベータ段階)をリリースしました。この新機能により、開発者は単一のAPI呼び出しでウェブサイト全体をクロールできるほか、内容を自動的にHTML、Markdown、または構造化JSON形式に変換することが可能となり、AI訓練データセットやRAG(検索強化生成)パイプラインの構築において強力かつコンプライアンスに則ったツールを提供します。
(前提:Cloudflareの大規模障害により世界中のネットワークが大規模にダウン、「分散型アーキテクチャ」がインフラの未来なのか?)
(補足:Cloudflareのダウン後24時間:なぜネットワークは「倒れるとすぐに停止」するのか?中央集権のリスクとWeb3やRWAの未来)
目次
Toggle
生成型AIとRAG(検索強化生成)技術の爆発的な成長に伴い、効率的かつコンプライアンスを守ったウェブサイトのデータ取得は、開発者にとって最優先の課題となっています。そこで、インターネットインフラの巨人であるCloudflareは、3月10日に正式に発表しました。彼らのBrowser Rendering(ブラウザレンダリング)サービスにおいて、画期的な新機能として全く新しい/crawl APIエンドポイントを導入したのです。
この機能は現在オープンベータ段階にあり、「一度のAPI呼び出しだけでウェブサイト全体をクロールできる」ことを売りにしています。
Cloudflareの発表によると、新しいクローラーAPIは非同期(Asynchronous)運用モードを採用しています。開発者は開始URLを送信するだけで、システムはジョブID(Job ID)を返し、バックグラウンドでヘッドレスブラウザ(Headless Browser)を用いて自動的にページを発見・レンダリングします。開発者はいつでもそのIDを使ってクロールの進行状況や結果を確認できます。
また、AI開発のワークフローにシームレスに連携できるよう、APIは複数の出力フォーマットを提供しています。従来のHTMLに加え、LLM(大規模言語モデル)に好まれるMarkdown形式や、Workers AIによる構造化JSON形式もサポート。これにより、データのクリーニングやフォーマット変換にかかる時間を大幅に削減します。
市販の多くの悪意あるクローラーが防護策を回避しようとする中、Cloudflareが今回導入した/crawlエンドポイントは、「コンプライアンスと透明性」を重視しています。公式は、このエンドポイントは署名済みのエージェント(Signed-agent)として動作し、対象サイトのrobots.txt(クロール遅延制限を含む)を厳守し、Cloudflare独自の「AIクローリングコントロール(AI Crawl Control)」規範も尊重すると強調しています。
さらに、Cloudflareはこのツールが「ロボットであることを自己申告」し、Cloudflareのロボット検出システムやCaptcha認証を回避できないことも明言しています。この設計により、クローラーの行動はサイト所有者の意向やサーバーに対して侵害的にならないことが保証されています。
効率化とコスト削減のため、APIには高度な制御機能も内蔵されています。
この強力なクローラー機能は、現在、Cloudflare Workersの「無料版」および「有料版」ユーザーに対して全面的に公開されています。定期的なサイト内容の監視や研究資料の収集、企業向けAIナレッジベースの構築を目指す開発チームにとって、これは非常に魅力的なインフラのアップグレードです。