Антиспам
Изучи инфу по анти спам фильтрам
Антиспам фильтры, как и алгоритмы ранжирования и фильтры поисковых систем учитывают в своей работе множество характерных признаков, которыми обладает массовая почтовая рассылка. Каждый из признаков обладает определенным весом. Если письмо прошло через первичный фильтр по блэк-листу IP или домена в ссылке, происходит следующее: определяются все запрограммированные параметры, результаты суммируются, после анализа фильтр выносит решение – оставить письмо в папке входящие или переместить в папку спам.
Для успешного обхода антиспам фильтров и получения максимального INBOX, в проекте рассылки необходимо обращать внимание на следующие параметры:
1. Цифровая подпись и протоколы DKIM, SPF, DMARK
· Данные протоколы можно подключить только на своем сервере, используются они исключительно при отправке писем через SMTP.
· Использование данных технологий в рассылке повышает уровень доверия рассылки, образно дает + 20% к трасту рассылки, тоесть вероятность фильтрации писем из двух идентичных рассылок будет на несколько дясятков процентов ниже
· Рекомендуется использовать для легальных рассылок по собранным белыми методами рассылочным базам
2. Уникальность тем и текстов в письмах
· Первый признак массовой рассылки – уникальность текстов и других параметров письма. Для обхода семантического анализатора, необходимо тему и текст письма размножить, путем создания формулы [x | y| z]. Подставляем синоним к каждому слову в предложении и после генерации получаем множество уникальных копий текстов.
· Необходимо понимать, что количество слов в теме письма ограничено и на большом массиве писем все чаще встречаются как малоуникальные текстовые конструкции, так и полные дубли. Для более качественной уникализации в теме и в тексте письма желательно обращаться к получателю по имени. Имя + фамилия это высоко уникальные текстовые конструкции и даже в больших базах тезки встречаются крайне редко.
· Дополнительный способ уникализовать тему письма – добавлять в конец предложения случайный набор букв или цифр
· Текст письма анализируется по множеству признаков:
i. Уникальность по шинглам
ii. Уникальность по алгоритму Байеса. Насколько я понял эту теорему, для каждого письма высчитывается вероятность того, что оно является дублем другого письма. Анализируется процентное содержание основных ключевиков и их синонимов в тексте, после анализа получаем некое уникальное числовое значение, которое сравнивается с другими из потока писем. Письма с приблизительно одинаковым коэффициентом Байеса наделяются признаками массовой рассылки
iii. Уникальность по длине текста. Подсчитывается количество слов и символов в письме. Письма с приблизительно одинаковым кол-вом слов также наделяются признаками рассылки
iv. Таким образом, чтобы обойти семантические фильтры, нужно уникализовать текст максимально качественно, использовать в тексте множество рандомных значений разной длины. Например – имена, наборы цифр и букв, вставки рандомного случайного текста. Ранее актуальным способом была замена в текстовых конструкциях для размножения - латинских букв на русские и наоборот. Сейчас это уже не работает, нужно искать более изощренные решения
v. Не забываем, что письмо предназначено для живого человека и письма с нечитабельными или полубессмысленными заголовками и содержанием тутже отправляются юзером в папку спам.
3. Уникальность имени и email отправителя; поля reply-to
· Предыдущее правило относится также и к таким параметрам письма, как имя отправителя, его email, адрес емайл для ответа
· Имя отправителя – еще один из параметров письма, по которому вычисляется нежелательная рассылка. Каждое письмо желательно подписывать уникальным именем, например От Кого: Вася Пупкин; Ваш Вассилий; Васек и тд.
· Если софт позволяет, в качестве email отправителя нужно придумывать либо обезличенные, либо тематичные слова + добавлять в конец случайный набор букв или цифр. Например так – support-1122@mail.ru
· В качестве домена письма отправителя нужно использовать один из популярных почтовых доменов (mail.ru, yandex.ru, gmail.com и тд). Эти домены априори не находятся под фильтрами и использование бигов в качестве емайла отправителя позволяет обойти блокировку рассылки по почтовому домену отправителя
· Спам-фильтры знают IP адреса и домены всех белых рассыльщиков. Если рассылка фишинговая и мимикрирует под рассылку известного сайта, спамфильтр сравнит ваш IP и IP почтового сервера оригинальной рассылки, определит что IP не совпадают и присвоит рассылке некий коэффициент спамности, что может привести к частичной или полной блокировке всей рассылки.
4. Уникальность домена в ссылке письма и уникальность самой ссылки
· Майл.ру (как впрочем и другие почтовики) большое внимание уделяет ссылкам в письме. Одинаковый домен и структура ссылки является очередным характерным признаком массовой рассылки.
· Если рассылка определяется как спамная, домен в ссылке может попасть в блэк лист спам фильтра. Если такое случается, в дальнейшем все письма, в которых встречается ссылка забаненного домена – блокируется либо еще до попадания в почтовый ящик (mail delivery failure), либо перемещается в папку спам.
· В массовых спам рассылках нужно использовать уникальные ссылки и незафильтрованые домены. Частичным решением этой проблемы является использование сервисов шортлинков (tut.by, bit.li и других). Так как эти сервисы всем известны, письма с редиректами известных шортлинков имеют некоторый признак спамности и могут быть причиной частичной фильтрации рассылки.
· Для обхода фильтра по домену, я написал скрипт сервиса шортлинков. После генерации, каждая ссылка имеет уникальную структуру и отличается от других ссылок в массиве рассылки (вид ссылки - http://domain.com/X/XYZ, где X и XYZ 0 уникальная последовательность цифр и букв). Количество доменов для своих шортлинков также увеличивает уникальность рассылки по доменному признаку.
5. Признаки, определяемые регэкспами спамфильтров
· В неавторизованых спам рассылках нельзя в тексте письма использовать одинаковые номер телефона, емайл, адрес или имя отправителя. Это очередные характерные признаки, по которым безошибочно вычисляется весь массив разосланных писем
6. Стоп слова и стоп тематики
· Существует множество стоп-тематик, которые обладают определенным набором стоп-слов. Например, увеличение членов, нигерийские инвесторы, виагра и другая фарма, инвестирование в форекс и прочие. 90+% писем по данным тематикам распространяются с целью спама. Использование в теме и тексте письма характерных ключевиков из стоп-тематик может привести к частичной или полной фильтрации рассылки.
· Также фильтрации подвержены маркетинговые фразы, призывы что-то купить, призывы действовать быстро (покупай быстрее, а то не успеешь|опоздаешь) и тд. Полный список таких тематик и стоп слов неизвестен.
· Для обхода фильтров по стоп-словам, необходимо составлять коммерческое предложение в креативной форме, в тексте не должно быть ярко выраженной рекламы. Такие тексты и людям больше нравятся, что приводит к увеличению % кликабельности по ссылке и фильтры более лояльно к рассылке относятся.
7. IP адреса
· Тут все понятно должно быть. Для максимальной уникализации рассылки и мимикрирования под белую рассылку, нужно стремиться к тому, чтобы с каждого IP отправлялось как можно меньше писем. Если IP засветился в различных спам-сервисах, доверие к айпишке теряется и рассылка с нее подвержена фильтрации. О чем речь идет, можно понять по данным этого сервиса - http://whatismyipaddress.com/blacklist-check
· У разных почтовых сервисов помимо общих баз подозрительных IP, имеются и свои собственные. Разные почтовики уделяют разное внимание трастовости айпи адреса. Например, для высокого пробива Gmail, помимо всех прочих условий, нужно вести рассылку с трастовых пиаристых доменов, не засвеченных в антиспам-организациях.
8. Валидность базы для рассылки
· Очень важный параметр. Со слов Леонида Николаева (один из руководителей почты mail.ru / доклад на конференции ROCK it CON, Tallinn, 2013), если % невалидных почтовых ящиков в рассылке = 10% или более, в этом случае рассылка подвержена казни. Это значит, что большинство писем от скомпрометированного IP адреса будет фильтроваться
· Mail.ru использует почтовые ящики ловушки, которые можно собрать только автоматическими методами и которые априори не подписаны на легальные рассылки и поэтому могут получать исключительно спам. IP адреса, с которых приходят письма на ящики ловушки, заносятся в блэк-листы.
· Также в качестве ящиков-ловушек используются почтовые ящики, которые зареганы людьми, но длительное время не используются. Логично предположить, что заброшенные ящики также не могут быть подписаны на новые легальные рассылки.
9. % нажатия на кнопку SPAM
· Один из фильтров, который срабатывает спустя некоторое время после того, как письмо попадет в inbox почтового ящика. Суть его в следующем. Подсчитывается количество человек, открывших письма и пожаловавшихся на SPAM. Если процент жалоб превышает определенный порог, рассылка из из вычисленного массива разосланных писем фильтруется. Примерные цифры (со слов Леонида Николаева) таковы:
i. 10,000 писем - 3% нажатий на кнопку SPAM
ii. 100,000 писем – 2%
iii. 1,000,000 писем – 1% жалоб на спам
· Таким образом получается ситуация, что чем больше объем рассылки, тем более интересное и неназойливое предложение должно быть.
· Если % жалоб превышает заданные пороги, рассылка подвергается фильтрации
10. Информация о компании и возможность отписки
· Еще один веский аргумент для фильтрации рассылки. Логично, что ни один человек в здравом уме самостоятельно не будет отправлять со своего IP сотни и тысячи писем в день. Поэтому массовые рассылки, как правило, являются информационными, коммерческими и/или легальными/спамными. Легальные рассылки должы предоставлять возможность отписки, желательно в 1 клик. Также легальная рассылка должна содержать информацию о отправителе (телефон, емайл, почтовые адрес)
· Тут получается некоторый парадокс. С одной стороны, по одинаковым телефонам и емайлам вычисляется ВЕСЬ массив рассылок, независимо от ухищрений по уникализации. С другой стороны, данная информация нужна для повышения доверия к рассылке. Выход только один – генерация J Вставляем уникальные емайлы (от крупных почтовых сервисов), рандомные телефонные номера, адреса домов и квартир и уникальная ссылка для отписки.
· С кнопкой отписки от рассылки. Тут сложнее и я до конца еще не разобрался, проверяют ли боты почтовых сервисов страничку для отписки и каким образом они фиксируют (и фиксируют ли вообще?), что страничка отписки не фейковая. Это поле для экспериментов.
11. Время рассылки
· Крайне сложно сделать настолько качественный проект, который не зафильтруется при большом количестве отправленных писем. После рассылки мы имеем несколько часов, в течении которых семантические анализаторы не проведут свои анализы. Если софт позволяет, имеет смысл спамить очень быстро в рабочее время, когда вероятность прочтения письма наибольшая. Если письмо попало в инбокс, но не было открыто пользователем, фильтр может переместить спамное письмо из инбокса в спам. Такое случается регулярно на почтовике майл.ру
Выводы.
Текстовая уникализация писем, разнообразие IP и тд нужны для максимальной маскировки рассылки, нельзя дать вычислить фильтрам весь массив разосланных писем. Наша цель – обмануть фильтры, заставить их видеть 100 разных рассылок вместо одной действительно реальной. Если под фильтры попадет один из IP, вся рассылка не пострадает, в спам улетит только некоторая часть писем.