Парсинг
Суть бизнес задачи:
Ко мне приходят лиды, лиды указывают свой сайт.
Дальше мне надо скорить эти лиды по сайтам чтобы понимать кого обрабатывать вручную, кого автоматом.
Что мне интересно в принципе:
- показатели трафика. пока пишу образно, надо понимать что можешь ты и что будет точно нам достаточно. это может быть парсинг similiar web для данных по униками (пока мы не купили API в про версии), количество страниц в индексе гугла, возраст домена, какие-то authority показатели (moz, majestic).
- скан самого сайта на наличие нужных мне ссылок. есть конфиг, предположим json со списком доменов. Мне надо пропарсить какое-то разумное количество страниц (может все, может не все) этого сайте и понять какое количество вхождений каждого домена есть в целом на этом сайте. потом мб и по ключам посмотреть
Как я это вижу:
- микросервис в докере. чтобы развернуть в своей инфраструктуре или где-то в облаке
- api на вход, api на выход, может в БД, но скорее всего лучше асинхронно отдавать нам, чтобы был микросервис только для работа. внутри своя очередь, если надо. или очередь в отдельном докере.
- если надо обходить каптчи - подключен сервис
- для прокси подключаем api saas с прокси
Предполагаемые нагрузки:
- от 150 до 300 сайтов на проверку в сутки. возможно в первый заход будет больше. несколкьо тысяч, если захочу сканить существующую базу. но это планомерно может работать
Это краткая концепция.