Cloudflare 10 марта выпустила совершенно новую точку API /crawl для своей услуги Browser Rendering (отображение в браузере), которая в настоящее время находится в стадии открытой бета-версии. Эта новая функция позволяет разработчикам осуществлять сканирование всего сайта одним вызовом API, автоматически преобразуя содержимое в HTML, Markdown или структурированный JSON-формат, что предоставляет мощный и соответствующий требованиям инструмент для создания обучающих наборов данных для ИИ и каналов RAG (поиск с усилением генерации).
(Предыстория: крупный сбой Cloudflare вызвал масштабный сбой глобальной сети, — разве «децентрализованная архитектура» — будущее инфраструктуры?)
(Дополнительный фон: 24 часа после сбоя Cloudflare: почему сеть «обрушилась и полностью остановилась»? Риски централизации для Web3 и RWA в будущем)
Содержание статьи
Переключить
С учетом стремительного роста генеративного ИИ и технологий RAG (поиск с усилением генерации), эффективное и соответствующее требованиям получение данных с сайтов становится одной из главных задач разработчиков. В ответ на это, гигант интернет-инфраструктуры Cloudflare 10 марта официально объявила о запуске революционной новой функции для своей услуги Browser Rendering — полностью нового API /crawl.
Эта функция, находящаяся в стадии открытого тестирования (Open Beta), предназначена для того, чтобы разработчики могли «одним вызовом API сканировать весь сайт».
Согласно объявлению Cloudflare, новый API для краулинга работает в асинхронном режиме. Разработчики просто отправляют начальный URL, и система возвращает идентификатор задачи (Job ID), после чего в фоновом режиме с помощью безголового браузера (Headless Browser) автоматически обнаруживает и рендерит страницы. Разработчики могут в любой момент проверять статус и результаты сканирования по этому ID.
Чтобы идеально интегрировать его в текущие рабочие процессы разработки ИИ, API поддерживает несколько форматов вывода. Помимо традиционного HTML, он может напрямую выдавать Markdown — формат, очень любимый крупными языковыми моделями (LLM), — а также структурированный JSON, управляемый AI-движком Workers. Это значительно сокращает время, затрачиваемое на очистку данных и преобразование форматов.
В отличие от множества существующих на рынке вредоносных краулеров, пытающихся обходить защитные механизмы, новая точка API /crawl от Cloudflare ориентирована на «соответствие и прозрачность». В официальной документации подчеркивается, что этот агент — подписанный прокси-агент (Signed-agent), который по умолчанию строго соблюдает правила robots.txt целевого сайта (включая ограничения по задержкам), а также уважает собственные стандарты Cloudflare «AI Crawl Control» (контроль за краулингом ИИ).
Кроме того, Cloudflare ясно заявляет, что этот инструмент «самоотмечается как робот» и не может обходить системы обнаружения роботов или CAPTCHA. Такой дизайн гарантирует, что поведение краулеров не нарушает волю владельцев сайтов и не создает нагрузку на их серверы.
Для повышения эффективности и снижения затрат API включает ряд расширенных функций управления:
На данный момент эта мощная функция краулинга полностью доступна как для бесплатных, так и для платных пользователей Cloudflare Workers. Это безусловно привлекательное обновление инфраструктуры для команд, регулярно мониторящих содержимое сайтов, собирающих исследовательские данные или создающих корпоративные базы знаний на базе ИИ.