Парсер

Парсер

Парсер

Парсер

Для проверки мануала можете посмотреть здесь -


https://web.archive.org/web/20160510023758/http://zhenskiyostrov.ru:80/profilaktika-grippa-i-orvi.html/ посмотрите мануал и поймете направление.


Мне периодически пишут, что за пару дней отбили затраты, продав статьи на биржах статей, чего я категорически не советую делать - дело в том, что на всех биржах копирайтинга, типа Текстсале и т..д под видом копирайтинга продаются статьи из Вебархива - уже давно у них стоит внутренняя проверка - статья может показывать 100% уникальность по текст.ру, но при внутренней проверке они её зарубят со снятием рейтинга.


У них своя база - проданная статья заносится в базу и нигде не афишируется.


Насчет статей из вебархива - для примера - портал detkambest.ru. Один из сайтов, который я продал на Телдери. Принят во все биржи и контекстную рекламу РСЯ И Адсенс, плюс прямые рекламодатели. Полностью на текстах из Вебархива. Всё это я писал, читайте топик.


Завтра будет некритичное обновленине - http://zennolab.com/discussion/threads/webarchivemaster-parser-vebarxiva.40540/page-9#post-327349



Восстановление сайтов из Вебархива


За основу был взят wayback-machine-downloader, из его смысла был создан WebArchiveMasters, так-как восстановление сайтов потеряло актуальность 5-6 лет назад, нужно было забирать только тексты.


После этого было решено написать аналог на Зеннопостере, но оказалось, что улучшать нечего, шаблон просто повторял тоже самое, что и wayback-machine-downloader, только гораздо медленней. Поэтому было решено отказаться от доработки шаблона в пользу wayback-machine-downloader, так-как он прекрасно справляется со своими задачами. Программа работает на Руби.


Поэтому я просто покажу установку и принцип работы программы в видео. Для меня предпочтительней забирать текст, почему, я писал здесь.


Видео: https://yadi.sk/i/U-UVD4yz3QMCz9

RailsInstaller: http://railsinstaller.org/ru-RU

wayback-machine-downloader: https://github.com/hartator/wayback-machine-downloader


WebArchiveMaster - парсер Вебархива


1. Устранена проблема с Config.сfg - теперь задаваемое количество минимальных символов отрабатывает корректно.

2. Добавлен новый файл конфигурации - Kategory.сfg (при более чем 2-3 потока Вебархив может считать запросы DDos атакой, т.к. их много, рекомендуется установить "0", лучше увеличить значение в Config.сfg), который отвечает за исключение анонсов статей. Как правило, работает только со стандартными CMS и отсекает около 60% ненужных коротких анонсов. Но за счет чистки ненужных данных снижена скорость. По умолчанию в Kategory.сfg стоит цифра "1", что означает включение, вы можете отключить чистку категорий и ускорить парсинг, поставив "0". Можно при работающем проекте менять значения.

3. Теперь все данные сохраняются в одну папку, без "www"

4. Отрегулирован PHP скрипт, но мусор все равно будет цеплять - если текст небольшой, а данных на странице много (комментарии, рекламные слоганы, которые бывают больше текста), то неизбежно бесшаблонный парсер захватит их. Если текст чистый более-менее, то всё ненужное отсечётся.

5. Новый файл конфигурации - Zapros.сfg. Он отвечает за проверку доменов на работоспособность - если домен работает, то он не проверяется, а берется следующий из списка. По умолчанию стоит цифра "1", если вы считаете, что теряется слишком много доменов, которые отвечают на запрос, что работают, а в действительности отключены и припаркованы (сервер не отдаёт ошибки), то можете поставить "0" и домены проверяться не будут. Но возрастает вероятность парсинга заведомо неуникальных текстов.


Обновление.


1. В очень редких случаях домен не проходил проверку, так-как программа считала текст за картинку, сбрасывала данные и перезаписывала домен для последующей перепроверки

2. Устранена возможная утечка памяти для версий выше 11

3. Удаление рекламы (в связи с изменениями в Вебархиве)


Если шаблон не находит текст, он перезаписывает домен для последующей проверки.


https://yadi.sk/d/l_XkKVER3Qrpwn



https://yadi.sk/d/pcZ6Ov0l3T6hB6



WebArchiveMaster - парсер Вебархива с входными настройками


https://yadi.sk/d/pcZ6Ov0l3T6hB6



Black Widow Spider


Новая версия Black Widow Spider для сбора тематических дропов. Нужен мощный компьютер, так-как программе нужно обработать десятки тысяч ссылок только одного сайта и правильные сайты для поиска дропов - сайты нужны старые, с комментариями не менее 3-4 лет, тогда вероятность нахождения очень сильно повышается.


   Программа ускорена в 3-4 раза

   Изменена логика и убрано лишнее

   Двухсуточное тестирование не выявило падений Зеннопостер

   Множественные запросы к base приводили к её разрастанию до 1,5 ГБ, что приводило к замедлению работы и последующему падению Зеннопостер с выеданием всех ресурсов компьютера\сервера. Теперь base использует максимум 150 Мб, с последующей итерацией инстанс автоматически перезагружается и очищает память компьютера.

   Каждую копию запускать в одном потоке.


   В следующей версии планируется ввести блок для редактирования пользователем, работающим по признакам на пару с главным алгоритмом. Это позволит выцеплять нестандартные домены, которые не может взять никакая программа. Программа будет постоянно дорабатываться.


https://yadi.sk/d/XuG_3uas3QRVtT

    

Антиплагиат


Проверка текста через text.ru, используя прокси.


Примерный алгоритм:

Программа всё делает автоматически, вмешательство не требуется.


   Парсинг русских прокси.

   Проверка этих прокси на работоспособность (чекинг).

   Берем прокси и переходим на проверку текста (берем текст из папки "База статей").

   После проверки переносим файл из папки "База статей" в папки "Уникальные" или "Копипаст" (в зависимости от проверки).

   Перед каждым файлом пишется процент уникальности - например, Уникальность 0_13% - ваш текст.txt или Уникальность 83_04% - ваш текст.txt


Скорость проверки текста зависит от прокси и загруженности сервиса. В моем случае это составляет примерно 50 текстов в час.

Для кого это? Это пригодится копирайтерам, так-как текст.ру самый вменяемый проверяльщик, по моему мнению - я ориентируюсь в своей работе только на него. Новичкам, которые хотят узнать, как зайти на сайт с помощью прокси и где их взять. Также это пригодится тем, кто хочет использовать прокси в своей работе - шаблон позволяет модернизировать логику и сделать на этой базе что угодно, что требует использования прокси - спамер Мой Мир, регистрация почтовых ящиков и т.д.


Также шаблон пригодится как дополнение к парсеру вебархива, так-как для проверки уникальности не требуется капча, а многие стопорятся именно на проверке уникальности.


Обновление


Обновление проверки текста через text.ru. Из-за умершего прокси программа могла войти в бесконечный цикл и вместо надписи "Пожалуйста, подождите, перед вами в очереди 9 текстов" показывать пустоту, так-как данные поступали и ошибкой не считались. Теперь прокси отслеживается на всех этапах. Скорость проверки зависит от качества прокси и загруженности сервиса. Для того, чтобы сменить список прокси, который используют уже все, откройте проект и посмотрите, как сформирована ссылка на взятие прокси.


https://yadi.sk/d/UQOzRRPb3QcJDP



Мануал


Хотел написать многостраничный мануал и сделать видео на 20 - 25 минут, но передумал. Одному, чтобы понять смысл, хватит полуслова, для другого нужно создавать форум, а у меня нет столько времени. Весь мануал напишу здесь и видео сделаю минут на пять. Но, правда, чтобы понять смысл, нужен опыт работы с Вебархивом. Возможно, я не открою Америку, но это мой личный опыт, который показал жизнеспособность этой темы. Прежде чем передавать на аутсорс, хочу сказать, что я пробовал это делать неоднократно, но люди очень быстро исчезали вместе с темой, я их понимаю, это очень муторно - тут нужна своя команда, самому это делать - жизни не хватит. Работа хуже, чем у копирайтера, хотя куда ещё может быть хуже.


Смысл такой: ищем дроп с максимальным количеством комментариев, проверяем каждый сайт на неработоспособность и получаем уник. Комментирует, как правило, узкий круг: строительный сайт - комментируют люди с близкими тематиками, кулинарный сайт - то же самое и т.д. Это не то же самое, что скачать список дропов, за которымы охотятся ещё тысячи таких же. Здесь работа гораздо тоньше.


На первый взгляд, схема покажется примитивной, но она проста. Проста, как и всё гениальное, а потому будет работать вечно. В видео постарался раскрыть основу и ключевые моменты - далее каждый модернизирует для себя. Возможно, я что-то упустил, а вы увидите. Если что-то непонятно, пишите на почту, постараюсь ответить быстро.


Ссылка на видео -  https://yadi.sk/i/4X5wYchY3NsQuZ


Проверка текста через Content-Watch


Проверка текста через Content-Watch, используя прокси. Примерный алгоритм:

Программа всё делает автоматически, вмешательство не требуется.

1.Парсинг русских прокси.

2.Проверка этих прокси на работоспособность (чекинг).

3.Берем прокси и переходим на проверку текста (берем текст из папки "База статей").

4.После проверки переносим файл из папки "База статей" в папки "Уникальные" или "Копипаст" (в зависимости от проверки).

5.Перед каждым файлом пишется процент уникальности - например, Уникальность 0_13% - ваш текст.txt или Уникальность 83_04% - ваш текст.txt

Добавлена возможность использования своих прокси. Для этого в файл My_proxys вставляете свои прокси, шаблон забирает их и работает с этими прокси, а файл очищает. Если прокси не рабочий, он удаляется и берется другой.

Когда все прокси будут отработаны, файл проверяется, и если он пустой, запускается автоматический парсинг и чекинг прокси с hidemy. Как правило, собственные прокси работают на несколько порядков быстрее. Для справки: Зеннопостер использует прокси только HTTP формата (Socks поддерживается, но сервис может его не принимать, нужно отслеживать работу).


https://yadi.sk/d/QivNlNbO3QcJDU


Уроки и помощь:


http://zennolab.com/discussion/attachments/full-text-rss-pdf.24190/

http://zennolab.com/discussion/attachments/proverka-unikalnosti-cherez-text-pdf.24188/

http://zennolab.com/discussion/attachments/webarchivemasters-pdf.24191/

http://zennolab.com/discussion/attachments/black-widow-spider-pdf.24189/


Видео по работе и установке:

https://youtu.be/e0VEUnCAsVU

https://youtu.be/gf5RDWfvtjg

https://youtu.be/k69rVWCWOkY

https://youtu.be/CImiK12D0ls

https://youtu.be/LTZLjpFmYSE

https://youtu.be/e0VEUnCAsVU

https://youtu.be/z9fsoU4ZRwg


Шаблоны рассчитаны на массовую скачку текстов и проверку на плагиат с последующей продажей текстов или использованием для своих сайтов, желательно на сервере.


Вебмейлер "Криворучка"


Может использоваться как конструктор для рассылки. Каждый допиливает для себя сам, чтобы не было совпадений.


https://youtu.be/gX3z9OD547s

https://youtu.be/tDrr3MCnV-c


P.S.


Сейчас разрабатывается парсер всего сайта со всеми данными (картинки, скрипты, css и т.д), что позволит взять сайт со всей структурой - останется только залить его на сервер и прикрепить его домен. Разумеется, он будет в формате HTML.Потом, при желании, можно перенести его на любую CMS.


О всех ошибках прошу писать на footashes@gmail.com, чтобы знать, что нужно исправить.