Парсинг c сайтов

Парсинг c сайтов


Victoria P

Парсинг (или скрэйпинг) с сайтов - это автоматизированный сбор открытой информации в интернете по заданным условиям. 


На первый взгляд, это довольно заманчивая технология: быстрый способ сбора нужной информации, но, как и в любой теме, важны детали.


Например:

1. Информация для парсинга должна быть размещена в открытом доступе.

Кажется, рекрутерам, было бы здОрово собрать данные по всем кандидатам с заданными характеристиками: телефонные номера чтобы постучаться в телеграм или mail-ы для таргетированной рекламы и приглашений на свои мероприятия. Но персональные данные защищены законом, и даже если мэйл будет использоваться без привязки к ФИО, то есть этическая дилема, потому что нам, как личностям, вряд ли хотелось бы, чтобы наши данные, даже размещенные в соцсетях, были бы так свободно доступны с помощью простых скриптов любым компаниям. Да и на наше благо, как людей, сайты, которые оперируют персональными данными, особенно соц. сети, job-сайты, очень внимательно относятся к соблюдению требований закона и принципов этики.


2. Данные должны быть структурированы.

Еще один приходящий на ум HR-а пример – спарсить зарплаты, т.е. не покупать дорогостоящие обзоры заработной платы, не тратить время на кропотливый анализ рынка труда, а взять и получить сразу большой объем нужной инфо.

Но если на одном сайте цифра с доходом лежит в ячейке «оклад», в другом «зарплата», а в третьем «оплата труда», то все это нужно учитывать в скрипте. Кроме этого, программа не разбирает указаны суммы оклада или совокупного дохода, net или gross, «от» или «до», поэтому даже если удастся собрать массив данных, то разбирать его дальше все равно придется.


Что было здОрово парсить для HR?

• Любую соц-дем информацию: численность жителей по населенным пунктам, поло-возрастной состав, средние зп, количество рабочих мест и т.п.

• Анализ рынка труда в смысле количества вакансий в аналогичных / смежных областях для понимания уровня конкуренции

• Проверять портфолио кандидатов творческих профессий на уникальность и авторство


Про парсинг и другие области применения языка Python будет много в онлайн-курсе «Python для аналитики» от OTUS, который начинается 25 мая.

🔸За 4 месяца обучения вы научитесь: 

✔️ Получать аналитические данные из БД 

✔️ Наглядно оформлять отчеты и строить дашборды

✔️ Писать скрипты Python

✔️ Получать данные из API сервисов

✔️ Работать с Jupyter Notebook


🔸К концу обучения вы выполните проектную работу, которая закрепит полученные знания и усилит ваше резюме.


📌 Оставьте заявку, чтобы зарезервировать место в группе по спец.цене: https://otus.pw/1xKK/

Report Page