Парсер
ПарсерПарсер
Для проверки мануала можете посмотреть здесь -
https://web.archive.org/web/20160510023758/http://zhenskiyostrov.ru:80/profilaktika-grippa-i-orvi.html/ посмотрите мануал и поймете направление.
Мне периодически пишут, что за пару дней отбили затраты, продав статьи на биржах статей, чего я категорически не советую делать - дело в том, что на всех биржах копирайтинга, типа Текстсале и т..д под видом копирайтинга продаются статьи из Вебархива - уже давно у них стоит внутренняя проверка - статья может показывать 100% уникальность по текст.ру, но при внутренней проверке они её зарубят со снятием рейтинга.
У них своя база - проданная статья заносится в базу и нигде не афишируется.
Насчет статей из вебархива - для примера - портал detkambest.ru. Один из сайтов, который я продал на Телдери. Принят во все биржи и контекстную рекламу РСЯ И Адсенс, плюс прямые рекламодатели. Полностью на текстах из Вебархива. Всё это я писал, читайте топик.
Завтра будет некритичное обновленине - http://zennolab.com/discussion/threads/webarchivemaster-parser-vebarxiva.40540/page-9#post-327349
Восстановление сайтов из Вебархива
За основу был взят wayback-machine-downloader, из его смысла был создан WebArchiveMasters, так-как восстановление сайтов потеряло актуальность 5-6 лет назад, нужно было забирать только тексты.
После этого было решено написать аналог на Зеннопостере, но оказалось, что улучшать нечего, шаблон просто повторял тоже самое, что и wayback-machine-downloader, только гораздо медленней. Поэтому было решено отказаться от доработки шаблона в пользу wayback-machine-downloader, так-как он прекрасно справляется со своими задачами. Программа работает на Руби.
Поэтому я просто покажу установку и принцип работы программы в видео. Для меня предпочтительней забирать текст, почему, я писал здесь.
Видео: https://yadi.sk/i/U-UVD4yz3QMCz9
RailsInstaller: http://railsinstaller.org/ru-RU
wayback-machine-downloader: https://github.com/hartator/wayback-machine-downloader
WebArchiveMaster - парсер Вебархива
1. Устранена проблема с Config.сfg - теперь задаваемое количество минимальных символов отрабатывает корректно.
2. Добавлен новый файл конфигурации - Kategory.сfg (при более чем 2-3 потока Вебархив может считать запросы DDos атакой, т.к. их много, рекомендуется установить "0", лучше увеличить значение в Config.сfg), который отвечает за исключение анонсов статей. Как правило, работает только со стандартными CMS и отсекает около 60% ненужных коротких анонсов. Но за счет чистки ненужных данных снижена скорость. По умолчанию в Kategory.сfg стоит цифра "1", что означает включение, вы можете отключить чистку категорий и ускорить парсинг, поставив "0". Можно при работающем проекте менять значения.
3. Теперь все данные сохраняются в одну папку, без "www"
4. Отрегулирован PHP скрипт, но мусор все равно будет цеплять - если текст небольшой, а данных на странице много (комментарии, рекламные слоганы, которые бывают больше текста), то неизбежно бесшаблонный парсер захватит их. Если текст чистый более-менее, то всё ненужное отсечётся.
5. Новый файл конфигурации - Zapros.сfg. Он отвечает за проверку доменов на работоспособность - если домен работает, то он не проверяется, а берется следующий из списка. По умолчанию стоит цифра "1", если вы считаете, что теряется слишком много доменов, которые отвечают на запрос, что работают, а в действительности отключены и припаркованы (сервер не отдаёт ошибки), то можете поставить "0" и домены проверяться не будут. Но возрастает вероятность парсинга заведомо неуникальных текстов.
Обновление.
1. В очень редких случаях домен не проходил проверку, так-как программа считала текст за картинку, сбрасывала данные и перезаписывала домен для последующей перепроверки
2. Устранена возможная утечка памяти для версий выше 11
3. Удаление рекламы (в связи с изменениями в Вебархиве)
Если шаблон не находит текст, он перезаписывает домен для последующей проверки.
https://yadi.sk/d/l_XkKVER3Qrpwn
https://yadi.sk/d/pcZ6Ov0l3T6hB6
WebArchiveMaster - парсер Вебархива с входными настройками
https://yadi.sk/d/pcZ6Ov0l3T6hB6
Black Widow Spider
Новая версия Black Widow Spider для сбора тематических дропов. Нужен мощный компьютер, так-как программе нужно обработать десятки тысяч ссылок только одного сайта и правильные сайты для поиска дропов - сайты нужны старые, с комментариями не менее 3-4 лет, тогда вероятность нахождения очень сильно повышается.
Программа ускорена в 3-4 раза
Изменена логика и убрано лишнее
Двухсуточное тестирование не выявило падений Зеннопостер
Множественные запросы к base приводили к её разрастанию до 1,5 ГБ, что приводило к замедлению работы и последующему падению Зеннопостер с выеданием всех ресурсов компьютера\сервера. Теперь base использует максимум 150 Мб, с последующей итерацией инстанс автоматически перезагружается и очищает память компьютера.
Каждую копию запускать в одном потоке.
В следующей версии планируется ввести блок для редактирования пользователем, работающим по признакам на пару с главным алгоритмом. Это позволит выцеплять нестандартные домены, которые не может взять никакая программа. Программа будет постоянно дорабатываться.
https://yadi.sk/d/XuG_3uas3QRVtT
Антиплагиат
Проверка текста через text.ru, используя прокси.
Примерный алгоритм:
Программа всё делает автоматически, вмешательство не требуется.
Парсинг русских прокси.
Проверка этих прокси на работоспособность (чекинг).
Берем прокси и переходим на проверку текста (берем текст из папки "База статей").
После проверки переносим файл из папки "База статей" в папки "Уникальные" или "Копипаст" (в зависимости от проверки).
Перед каждым файлом пишется процент уникальности - например, Уникальность 0_13% - ваш текст.txt или Уникальность 83_04% - ваш текст.txt
Скорость проверки текста зависит от прокси и загруженности сервиса. В моем случае это составляет примерно 50 текстов в час.
Для кого это? Это пригодится копирайтерам, так-как текст.ру самый вменяемый проверяльщик, по моему мнению - я ориентируюсь в своей работе только на него. Новичкам, которые хотят узнать, как зайти на сайт с помощью прокси и где их взять. Также это пригодится тем, кто хочет использовать прокси в своей работе - шаблон позволяет модернизировать логику и сделать на этой базе что угодно, что требует использования прокси - спамер Мой Мир, регистрация почтовых ящиков и т.д.
Также шаблон пригодится как дополнение к парсеру вебархива, так-как для проверки уникальности не требуется капча, а многие стопорятся именно на проверке уникальности.
Обновление
Обновление проверки текста через text.ru. Из-за умершего прокси программа могла войти в бесконечный цикл и вместо надписи "Пожалуйста, подождите, перед вами в очереди 9 текстов" показывать пустоту, так-как данные поступали и ошибкой не считались. Теперь прокси отслеживается на всех этапах. Скорость проверки зависит от качества прокси и загруженности сервиса. Для того, чтобы сменить список прокси, который используют уже все, откройте проект и посмотрите, как сформирована ссылка на взятие прокси.
https://yadi.sk/d/UQOzRRPb3QcJDP
Мануал
Хотел написать многостраничный мануал и сделать видео на 20 - 25 минут, но передумал. Одному, чтобы понять смысл, хватит полуслова, для другого нужно создавать форум, а у меня нет столько времени. Весь мануал напишу здесь и видео сделаю минут на пять. Но, правда, чтобы понять смысл, нужен опыт работы с Вебархивом. Возможно, я не открою Америку, но это мой личный опыт, который показал жизнеспособность этой темы. Прежде чем передавать на аутсорс, хочу сказать, что я пробовал это делать неоднократно, но люди очень быстро исчезали вместе с темой, я их понимаю, это очень муторно - тут нужна своя команда, самому это делать - жизни не хватит. Работа хуже, чем у копирайтера, хотя куда ещё может быть хуже.
Смысл такой: ищем дроп с максимальным количеством комментариев, проверяем каждый сайт на неработоспособность и получаем уник. Комментирует, как правило, узкий круг: строительный сайт - комментируют люди с близкими тематиками, кулинарный сайт - то же самое и т.д. Это не то же самое, что скачать список дропов, за которымы охотятся ещё тысячи таких же. Здесь работа гораздо тоньше.
На первый взгляд, схема покажется примитивной, но она проста. Проста, как и всё гениальное, а потому будет работать вечно. В видео постарался раскрыть основу и ключевые моменты - далее каждый модернизирует для себя. Возможно, я что-то упустил, а вы увидите. Если что-то непонятно, пишите на почту, постараюсь ответить быстро.
Ссылка на видео - https://yadi.sk/i/4X5wYchY3NsQuZ
Проверка текста через Content-Watch
Проверка текста через Content-Watch, используя прокси. Примерный алгоритм:
Программа всё делает автоматически, вмешательство не требуется.
1.Парсинг русских прокси.
2.Проверка этих прокси на работоспособность (чекинг).
3.Берем прокси и переходим на проверку текста (берем текст из папки "База статей").
4.После проверки переносим файл из папки "База статей" в папки "Уникальные" или "Копипаст" (в зависимости от проверки).
5.Перед каждым файлом пишется процент уникальности - например, Уникальность 0_13% - ваш текст.txt или Уникальность 83_04% - ваш текст.txt
Добавлена возможность использования своих прокси. Для этого в файл My_proxys вставляете свои прокси, шаблон забирает их и работает с этими прокси, а файл очищает. Если прокси не рабочий, он удаляется и берется другой.
Когда все прокси будут отработаны, файл проверяется, и если он пустой, запускается автоматический парсинг и чекинг прокси с hidemy. Как правило, собственные прокси работают на несколько порядков быстрее. Для справки: Зеннопостер использует прокси только HTTP формата (Socks поддерживается, но сервис может его не принимать, нужно отслеживать работу).
https://yadi.sk/d/QivNlNbO3QcJDU
Уроки и помощь:
http://zennolab.com/discussion/attachments/full-text-rss-pdf.24190/
http://zennolab.com/discussion/attachments/proverka-unikalnosti-cherez-text-pdf.24188/
http://zennolab.com/discussion/attachments/webarchivemasters-pdf.24191/
http://zennolab.com/discussion/attachments/black-widow-spider-pdf.24189/
Видео по работе и установке:
Шаблоны рассчитаны на массовую скачку текстов и проверку на плагиат с последующей продажей текстов или использованием для своих сайтов, желательно на сервере.
Вебмейлер "Криворучка"
Может использоваться как конструктор для рассылки. Каждый допиливает для себя сам, чтобы не было совпадений.
P.S.
Сейчас разрабатывается парсер всего сайта со всеми данными (картинки, скрипты, css и т.д), что позволит взять сайт со всей структурой - останется только залить его на сервер и прикрепить его домен. Разумеется, он будет в формате HTML.Потом, при желании, можно перенести его на любую CMS.
О всех ошибках прошу писать на footashes@gmail.com, чтобы знать, что нужно исправить.