Девять способов скрапить данные с помощью Claude Code

@ai_longreads

Исчерпывающее руководство по девяти различным подходам к извлечению данных из веб-сайтов с использованием Claude Code — от простого скрапинга до работы с API, социальными сетями и аутентифицированными ресурсами.

Это AI-перевод статьи, сделанный каналом Про AI: Лучшие Статьи и Исследования.

Девять способов скрапить данные с помощью Claude Code

Nine Ways to Scrape Data with Claude Code Автор: Aniket Panjwani Оригинальный текст:

Одна из самых простых и полезных задач, которую можно поручить Claude Code, — это скрапинг данных.

Однако для получения оптимальных результатов при скрапинге данных с помощью Claude Code необходимо давать ему правильные подсказки и доступ к нужным инструментам.

В этой статье я подробно рассмотрю девять различных способов скрапинга данных с помощью Claude Code.

Видеоверсия статьи

Всё, что обсуждается в этой статье, также доступно в видео на YouTube.

В видео я провожу живые демо, пошагово разбирая каждый из девяти способов скрапинга данных с Claude Code, чтобы вы могли наглядно увидеть, как они работают.

Способ 1: Просто попросите Claude Code скрапить сайт

Для большого числа сайтов можно просто сказать Claude Code, чтобы он скрапил сайт, указать, какие данные вам нужны, и попросить записать результат в CSV или SQLite файл.

Он самостоятельно исследует сайт, вероятно, напишет Python-скрипт, запустит его, возможно, даже напишет юнит-тесты, а затем просто запишет данные куда-нибудь на ваш компьютер.

Способ 2: Попросите Claude Code найти эндпоинты

Многие интересные данные не отображаются как статическая страница, а загружаются динамически через API-вызовы. Иногда Claude Code самостоятельно реверс-инженерит этот API-вызов, но порой нужно подтолкнуть его и сказать явно: «Найди API, через который, например, загружаются данные о ценах и бронировании отелей — они могут понадобиться для исследования или конкурентного анализа».

Единственное отличие от предыдущего способа в том, что здесь вы просите искать endpoint (точка доступа API). Достаточно произнести это слово — и иногда результаты будут значительно лучше, чем если просто попросить скрапить сайт.

Способ 3: ScrapeCreators

Много полезных данных на большинстве социальных сетей технически поддаётся скрапингу, но их endpoint (точки доступа API) специально сделаны сложными для реверс-инженеринга.

У них есть собственные правила защиты от ботов, и они еженедельно меняют работу селекторов. Можно заставить Claude Code или Codex постоянно пытаться реверс-инженерить их, но мне нравится использовать инструмент Scrape Creators.

У него есть API endpoint (точки доступа) практически для каждого API социальных сетей. Рекомендую создать скилл для endpoint-ов Scrape Creators как одноразовую утилиту, к которой ваш агентный инструмент для кодинга всегда будет иметь доступ.

Способ 4: Apify Actor

Apify — это маркетплейс скраперов. Для многих сложных для скрапинга сайтов люди создали арендуемые скраперы, доступные на Apify (они называются «акторами»).

Один из скраперов, который мне нравится использовать, — это скрапер Google Maps, который может быть весьма полезен для социологов — как для непосредственного анализа данных, так и для создания прокси-показателей. Он также полезен бизнесменам для конкурентного анализа или поиска локальных лидов.

Единственная проблема — за них нужно платить. За некоторые платишь по использованию, другие нужно арендовать помесячно. После ограниченного бесплатного пробного периода необходимо оплачивать подписку на Apify, которая покрывает использование акторов с оплатой по потреблению.

Способ 5: Firecrawl → Markdown → Структурированное извлечение

Многие данные, которые вам понадобятся, не будут высокоструктурированными.

Например, когда я работал над проектом EconNow, мне нужно было скрапить множество страниц кандидатов на академическом рынке труда по экономике.

Каждая из этих страниц имела свою HTML-структуру, поэтому мне не хотелось писать отдельные скраперы для каждой веб-страницы.

Вместо этого распространённый приём — превратить веб-страницу в Markdown, а затем попросить большую языковую модель, например от OpenAI, разобрать этот Markdown и создать структурированный вывод.

Firecrawl — это платный сервис, который позволяет легко конвертировать веб-страницы в Markdown.

Он также доступен как проект с открытым исходным кодом, но всё, что я видел об open-source версии, говорит о её низком качестве, поэтому для меня ROI достаточно высок, чтобы платить за Firecrawl.

По сути, когда у вас есть инструмент для конвертации страницы в Markdown, вы можете передать этот Markdown в OpenAI через API. Если правильно настроить structured outputs (структурированные выходные данные) в соответствии с ожиданиями API, вы сможете заставить модель извлекать определённые поля из различных неструктурированных сайтов.

Способ 6: DIY HTML → Markdown → Структурированное извлечение

Вы можете спросить: зачем платить за Firecrawl, если можно конвертировать в Markdown самостоятельно?

И ответ — да, можно. Есть инструменты, которые позволяют это сделать:

Я использую Firecrawl, потому что он лучше обрабатывает граничные случаи. Это просто очень хорошо спроектированный сервис, и эти инкрементальные улучшения стоят того. Если у вас ограниченный бюджет — например, вы учёный и платите только $20/мес за подписку на Codex — определённо не стоит платить за Firecrawl.

Просто используйте один из этих пакетов, а точнее — укажите Claude Code на него и скажите: «Конвертируй это в Markdown и помоги мне использовать OpenAI API для извлечения данных».

Ещё стоит отметить, что для небольших объёмов даже не нужно отправлять Markdown во внешний API. Можно поручить структурированное извлечение самому Claude Code или Codex.

Если же вы работаете с тысячами или десятками тысяч документов, это будет крайне неудобно — такой подход не подойдёт.

Способ 7: yt-dlp

yt-dlp — это инструмент, который позволяет скрапить любое видео на YouTube, его метаданные и субтитры.

Я практически перестал смотреть видео. Я просто скачиваю субтитры и прошу Claude Code или Codex создать персонализированную сводку для меня, применяя содержание видео к тому контексту, который мне действительно важен.

В этом видео я провожу живой эксперимент, используя Claude Code с yt-dlp для реверс-инженеринга успешных видео одного AI-блогера на YouTube.

Я снял это видео между делом, но получившийся продукт я действительно регулярно использую, чтобы продумывать темы для своих видео и генерировать идеи.

В YouTube-видео содержится огромное количество полезных данных, и я считаю, что этот инструмент крайне недооценён.

Способ 8: JSON-endpoint Reddit

У Reddit есть JSON-endpoint, через который можно получить практически любые данные.

Достаточно добавить «.json» в конец URL-адреса Reddit, и ваш агентный инструмент для кодинга получит доступ ко всему содержимому этой части Reddit в виде JSON-документа.

Посмотрите, например, на JSON-endpoint сабреддита Claude Code.

У меня настроены скиллы, которые я использую, чтобы отслеживать обсуждения на большом количестве интересующих меня сабреддитов. Эти скиллы — просто обращения Claude Code или Codex к JSON-endpoint-ам Reddit.

Способ 9: Agent Browser + учётные данные

Множество сайтов защищены той или иной аутентификацией. Чтобы обойти эту аутентификацию, можно использовать два подхода.

Во-первых, можно выполнить обмен аутентификацией. Через этот обмен иногда получается cookie, которое сохраняется на вашем компьютере, и затем Claude Code может использовать этот cookie для аутентификации и доступа к защищённым страницам.

Второй вариант — использовать инструмент от Vercel под названием Agent Browser.

Это CLI для автоматизации браузера, созданный Vercel и оптимизированный для использования агентами.

Для небольших объёмов скрапинга я предпочитаю использовать Agent Browser.

Например, можно хранить учётные данные Facebook в месте, доступном для Claude Code или Codex — в онлайн-хранилище с безопасным механизмом обмена ключами или просто в переменных окружения терминала или в .env-файле.

Затем можно создать скилл, который Claude Code использует для скрапинга групп Facebook, в которых вы состоите: он входит с вашими учётными данными через Agent Browser, переходит в группу, собирает все посты и записывает данные туда, куда вам нужно.

Подпишитесь на канал и каждый день читайте лучшие материалы про AI переведенные на русский!

Нашли интересную статью для перевода? Пришлите нашему боту: @ailongreadsbot

Девять способов скрапить данные с помощью Claude Code

Девять способов скрапить данные с помощью Claude Code

Видеоверсия статьи

Способ 1: Просто попросите Claude Code скрапить сайт

Способ 2: Попросите Claude Code найти эндпоинты

Способ 3: ScrapeCreators

Способ 4: Apify Actor

Способ 5: Firecrawl → Markdown → Структурированное извлечение

Способ 6: DIY HTML → Markdown → Структурированное извлечение

Способ 7: yt-dlp

Способ 8: JSON-endpoint Reddit

Способ 9: Agent Browser + учётные данные

Report Page