Парсинг

Парсинг


Суть бизнес задачи:

Ко мне приходят лиды, лиды указывают свой сайт.

Дальше мне надо скорить эти лиды по сайтам чтобы понимать кого обрабатывать вручную, кого автоматом.

Что мне интересно в принципе:

  • показатели трафика. пока пишу образно, надо понимать что можешь ты и что будет точно нам достаточно. это может быть парсинг similiar web для данных по униками (пока мы не купили API в про версии), количество страниц в индексе гугла, возраст домена, какие-то authority показатели (moz, majestic).
  • скан самого сайта на наличие нужных мне ссылок. есть конфиг, предположим json со списком доменов. Мне надо пропарсить какое-то разумное количество страниц (может все, может не все) этого сайте и понять какое количество вхождений каждого домена есть в целом на этом сайте. потом мб и по ключам посмотреть

Как я это вижу:

  • микросервис в докере. чтобы развернуть в своей инфраструктуре или где-то в облаке
  • api на вход, api на выход, может в БД, но скорее всего лучше асинхронно отдавать нам, чтобы был микросервис только для работа. внутри своя очередь, если надо. или очередь в отдельном докере.
  • если надо обходить каптчи - подключен сервис
  • для прокси подключаем api saas с прокси

Предполагаемые нагрузки:

  • от 150 до 300 сайтов на проверку в сутки. возможно в первый заход будет больше. несколкьо тысяч, если захочу сканить существующую базу. но это планомерно может работать

Это краткая концепция.


Report Page