Парсинг

Парсинг

author_name

Парсинг 15 000 руб. за проект Есть микросервис на python, который должен парсить около 17000 rss ссылок. Каждая rss ссылка хранит ссылку на сайт. Нужно парсить сайты Большинство сайтов имеют общую структуру и нужны данные лежат в мета тэгах. На данныи ̆ момент нужно улучшить работу парсера. Задача: Нужно парсить сайт, который указан в rss ссылке и сохранять следующую информацию 1. Название статьи 2. Авторы 3. Дата публикации 4. Ссылка на картинку 5. Абстракт(короткое описание) Вся информация берется только из метатэгов. Основная проблема - иногда метатэг хранит обрезанный абстракт. Нужно брать обрезанный абстракт и искать в остальной странице недостающий кусок текста. Сейчас это уже реализовано, но работает плохо Для понимания концепции можно скачать приложение для android из playmarket - Allpapers Бюджет указан приблизительный В отклике укажите телеграм


Источник: http://freelance.habr.com/rss/tasks
Перейти к оригиналу

Report Page