Cloudflare, который помогает вам блокировать веб-скреперов, запустил «Одноклик полносайт Crawler API», идеально поддерживающий RAG, добавочные обновления и обучение моделей

動區BlockTempo

Cloudflare 10 марта выпустила совершенно новую точку API /crawl для своей услуги Browser Rendering (отображение в браузере), которая в настоящее время находится в стадии открытой бета-версии. Эта новая функция позволяет разработчикам осуществлять сканирование всего сайта одним вызовом API, автоматически преобразуя содержимое в HTML, Markdown или структурированный JSON-формат, что предоставляет мощный и соответствующий требованиям инструмент для создания обучающих наборов данных для ИИ и каналов RAG (поиск с усилением генерации).
(Предыстория: крупный сбой Cloudflare вызвал масштабный сбой глобальной сети, — разве «децентрализованная архитектура» — будущее инфраструктуры?)
(Дополнительный фон: 24 часа после сбоя Cloudflare: почему сеть «обрушилась и полностью остановилась»? Риски централизации для Web3 и RWA в будущем)

Содержание статьи

Переключить

  • Асинхронная обработка, поддержка Markdown и структурированного JSON
  • Основной упор на «послушных» краулеров, строгие правила соответствия и механизмы защиты
  • Инкрементальное сканирование для снижения затрат, бесплатные планы для тестирования

С учетом стремительного роста генеративного ИИ и технологий RAG (поиск с усилением генерации), эффективное и соответствующее требованиям получение данных с сайтов становится одной из главных задач разработчиков. В ответ на это, гигант интернет-инфраструктуры Cloudflare 10 марта официально объявила о запуске революционной новой функции для своей услуги Browser Rendering — полностью нового API /crawl.

Эта функция, находящаяся в стадии открытого тестирования (Open Beta), предназначена для того, чтобы разработчики могли «одним вызовом API сканировать весь сайт».

Асинхронная обработка, поддержка Markdown и структурированного JSON

Согласно объявлению Cloudflare, новый API для краулинга работает в асинхронном режиме. Разработчики просто отправляют начальный URL, и система возвращает идентификатор задачи (Job ID), после чего в фоновом режиме с помощью безголового браузера (Headless Browser) автоматически обнаруживает и рендерит страницы. Разработчики могут в любой момент проверять статус и результаты сканирования по этому ID.

Чтобы идеально интегрировать его в текущие рабочие процессы разработки ИИ, API поддерживает несколько форматов вывода. Помимо традиционного HTML, он может напрямую выдавать Markdown — формат, очень любимый крупными языковыми моделями (LLM), — а также структурированный JSON, управляемый AI-движком Workers. Это значительно сокращает время, затрачиваемое на очистку данных и преобразование форматов.

Основной упор на «послушных» краулеров, строгие правила соответствия и механизмы защиты

В отличие от множества существующих на рынке вредоносных краулеров, пытающихся обходить защитные механизмы, новая точка API /crawl от Cloudflare ориентирована на «соответствие и прозрачность». В официальной документации подчеркивается, что этот агент — подписанный прокси-агент (Signed-agent), который по умолчанию строго соблюдает правила robots.txt целевого сайта (включая ограничения по задержкам), а также уважает собственные стандарты Cloudflare «AI Crawl Control» (контроль за краулингом ИИ).

Кроме того, Cloudflare ясно заявляет, что этот инструмент «самоотмечается как робот» и не может обходить системы обнаружения роботов или CAPTCHA. Такой дизайн гарантирует, что поведение краулеров не нарушает волю владельцев сайтов и не создает нагрузку на их серверы.

Инкрементальное сканирование для снижения затрат, бесплатные планы для тестирования

Для повышения эффективности и снижения затрат API включает ряд расширенных функций управления:

  • Инкрементальное сканирование (Incremental crawling): поддержка параметров modifiedSince и maxAge, позволяющих автоматически пропускать страницы, которые не изменялись или недавно уже были сканированы, что экономит ресурсы на повторное сканирование.
  • Тонкая настройка диапазона: разработчики могут задавать глубину сканирования, лимит количества страниц, а также использовать универсальные шаблоны (Wildcard) для включения или исключения определенных URL.
  • Статический режим (Static mode): для сайтов, не требующих рендеринга JavaScript, можно установить render: false, чтобы пропустить запуск безголового браузера и добиться максимально быстрой выборки.

На данный момент эта мощная функция краулинга полностью доступна как для бесплатных, так и для платных пользователей Cloudflare Workers. Это безусловно привлекательное обновление инфраструктуры для команд, регулярно мониторящих содержимое сайтов, собирающих исследовательские данные или создающих корпоративные базы знаний на базе ИИ.

Посмотреть Оригинал
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев