Как я изучил систему безопасности «Авито»: 150 миллионов пользователей под защитой алгоритмов
Anton KisurinОднажды ночью меня подстегнула именитость защиты «Авито», тогда я решил покопаться в их системе безопасности. Масштаб. Представьте: каждый день на этой платформе происходит 6 миллионов диалогов. Шесть миллионов! И каждый из них нужно проверить на безопасность. Как вообще это возможно?
Я решил намеренно разобраться, как работает эта машина доверия изнутри, почему это почти единственная платформа в рунете, которая так ответственно относится к безопасности клиентов?
То, что я узнал, меня по-настоящему впечатлило.
С чего все началось: когда модераторов стало мало
Пять лет назад в «Авито» поняли простую вещь: чем больше людей пользуется платформой, тем больше на неё приходит всякого мусора. Мошенники, спамеры, продавцы липовых товаров — весь этот зоопарк начал угрожать нормальным пользователям.
И тогда, в 2020 году, создали департамент Trust & Safety. Звучит офисно, скучно, по сути это команда из 800 человек, которые день и ночь следят за тем, чтобы вас не обманули. Среди них есть програмисты, аналитики, специалисты анализа данных и просто опытные модераторы, которые знают все схемки/темки мошенников и тёмных личностей наизусть.
Андрей Рыбинцев, который руководит этим направлением, объяснил их философию просто: «Мы хотим, чтобы люди доверяли друг другу и доверяли нам». Звучит банально, но когда речь идёт о 150 миллионах пользователей, это становится технической задачей космического масштаба. Отдельно рекомендую почитать про скорость его карьерного роста в «Авито», после того, как все признали гениальность и эффективность защиты.
Как защищают ваши разговоры
Мессенджер, который всё видит
Помните, как раньше на досках объявлений писали номера телефонов? В «Авито» поняли, что это прямая дорога на дно. Поэтому создали свой мессенджер. И он не просто передаёт сообщения — он их анализирует.
Обработка текстовых сообщений в реальном времени:
- Streaming NLP pipeline — обработка свыше 6 миллионов сообщений в день с задержкой в миллисекунды
- Семантический анализ через предобученные языковые модели (BERT-подобные)
- Классификация интентов — определяет цель сообщения (продажа, покупка, подозрительная деятельность)
- Детекция языка и обработка сленга, опечаток, намеренных искажений сообщения
Детекция фишинга и спама:
- URL-анализ — проверка ссылок через базы, сети и подсети известных фишинговых доменов
- Pattern matching для обнаружения поведения схожего со схемами мошенничества
- Байесовские фильтры для классификации спама
- Sequence-to-sequence модели для анализа диалогов
Особенно понравилось внимание к деталям: если в профиле человек продаёт машину, а в чате вдруг предлагает стоматологические услуги — система это обнаружит и отметит, как нерелевантное сообщение.
Защита номеров
В интернете достаточное количество утечек персональных данных, в том числе собранных, благодаря OSINT и парсерам. Если при нажатии на кнопочку "позвонить", Вы думаете, что звоните продавцу напрямую, то вы ошибаетесь! «Авито» предоставляет временный номер, который меняется каждые несколько часов.
Динамическая маршрутизация вызовов:
- Временные номера генерируются из пула с ротацией каждые 2-4 часа
- Mapping table сохраняет историю выдачи, связывает реальный номер, временный номер и номер звонящего
- TTL (Time To Live) для связок — автоматическое удаление через 14 дней
- Load balancing для распределения нагрузки между телефонными мощностями
Результат? На 40% меньше спам-звонков. Теперь коллекторы и телефонные мошенники не могут собрать базу номеров с «Авито».
Техническая архитектура: как работает машинное обучение
Масштабы обработки данных
Начнём с цифр — они дают понимание сложности задач:
- Свыше 8 миллиардов кликов отслеживается каждый день
- Более 5 миллионов объявлений проверяется ежедневно
- 99% всех сообщений проверяет автоматика, только 1% попадает к людям
- Сотни моделей машинного обучения работают одновременно
Архитектура модерации: три линии обороны
Премодерация — каждое объявление до публикации проходит через множество специализированных алгоритмов:
- NLP-модели для анализа текста объявлений
- Computer Vision для проверки изображений
- Классификаторы для определения категории товара
- Детекторы аномалий для выявления подозрительных цен
- Анализаторы дубликатов для поиска повторяющегося контента
Постмодерация — непрерывный мониторинг уже размещённого контента:
- Стриминговая обработка жалоб пользователей
- Временные ряды для отслеживания изменений в поведении
- Кластеризация для группировки похожих нарушений
Эскалация к экспертам — только 1-3% подозрительного контента требует человеческого анализа
Система непрерывного обучения
Feedback loop: Каждое решение эксперта становится обучающим примером для моделей:
- Эксперт принимает решение по спорному случаю
- Решение автоматически размечается и добавляется в датасет
- Модели переобучаются на новых данных
- Обновлённые модели разворачиваются в продакшене
A/B-тестирование алгоритмов: Постоянно тестируются новые версии моделей на части трафика, сравнивается их эффективность с текущими.
Как вычисляют нарушителей до того, как они что-то сделают
Детекция фрода и связывание аккаунтов
Device fingerprinting — система собирает технические характеристики устройств, с которых осуществлялся вход или происходило посещение сайта:
- Разрешение экрана, часовой пояс, установленные шрифты
- Canvas fingerprinting и WebGL параметры
- Версии браузера, операционной системы, плагинов
- Сетевые характеристики (IP, провайдер, географические данные)
Детекция прокси и VPN-соединений:
- IP reputation databases — проверка адресов через базы известных прокси-серверов, я протестировал лично более 7 сервисов по предоставлению прокси. Ни одно подключение из 20 IP адресов не удалось установить, чтобы я не делал, хоть меняй DNS, хоть скрывай WebRTC, всё перепробовал.
- Geolocation inconsistency — анализ несоответствий между заявленным местоположением и IP
- Latency analysis — измерение задержек, характерных для proxy-цепочек, думаю, что детектил меня именно он.
- DNS leak detection — проверка утечек реальных DNS-серверов
- WebRTC IP leak — извлечение локальных IP-адресов через браузерные API, что скрывай, что не скрывай, исход один — тебе даже главную страницу не покажет.
- TOR exit nodes — блокировка известных выходных узлов сети Tor
- Residential proxy detection — выявление ротирующихся IP-адресов провайдеров
Анти-автоматизация и детекция ботов:
- Browser automation detection — поиск признаков Selenium, Puppeteer
- Mouse movement analysis — анализ естественности траекторий курсора
- JavaScript execution patterns — проверка выполнения скриптов браузером
- Headless browser detection — выявление браузеров без графического интерфейса
Поведенческая биометрика:
- Паттерны кликов — скорость, точность, траектории мыши
- Ритм печати — интервалы между нажатиями клавиш
- Навигационные привычки — последовательность действий на сайте
- Временные паттерны — когда и как долго пользователь активен
Машинное обучение на графах
Графовые алгоритмы для связывания:
- Community detection для выявления групп связанных аккаунтов
- PageRank-подобные алгоритмы для оценки подозрительности связей
- Graph Neural Networks (GNN) для анализа сложных связей
- Embedding nodes для векторного представления пользователей
Компьютерное зрение для модерации изображений
Архитектура CNN для классификации товаров
- Transfer learning на предобученных моделях (ResNet, EfficientNet)
- Multi-label classification — одно изображение может содержать несколько категорий
- Object detection через YOLO/R-CNN для локализации объектов на фото
- Similarity search через векторные представления изображений
Детекция запрещённого контента
- Биометрическое распознавание животных для проверки Красной книги
- Детекция оружия и наркотиков через специализированные классификаторы
- NSFW-контент фильтрация через глубокие сети
- Fake image detection — поиск сгенерированных и отредактированных изображений
Система верификации и репутации
Технические детали верификации
Проверка документов через CV:
- OCR (Optical Character Recognition) для извлечения текста из документов
- Document structure analysis — проверка соответствия официальным шаблонам
- Liveness detection — анти-спуфинг проверки для селфи с документами
- Cross-validation с государственными базами через API
Интеграция с внешними системами:
- API Госуслуг для верификации личности через ЕСИА
- Банковские BankID для подтверждения платёжных данных
- ЕГРЮЛ/ЕГРИП для проверки юридических лиц
- ФНС API для валидации ИНН и налогового статуса
Система репутации и рейтингов
Алгоритм достоверности отзывов:
- Proof of interaction — проверка факта общения между пользователями через логи мессенджера
- Temporal analysis — анализ временных меток сделки и отзыва
- Network analysis — поиск подозрительных связей между аккаунтами
Детекция накрутки рейтингов:
- Clustering suspicious accounts — группировка потенциально поддельных профилей
- Statistical anomaly detection — поиск неестественных паттернов в отзывах
- Graph-based fraud detection — анализ сетей взаимосвязанных аккаунтов
Продавцы с бейджами получают на 20% больше внимания покупателей.
Защита от парсинга и технические меры безопасности
Технические детали блокировки прокси
Детекция антидетект-браузеров:
- Canvas poisoning detection — поиск искажений в Canvas fingerprint
- WebGL noise patterns — анализ шума в WebGL рендеринге
- Audio context fingerprinting — проверка консистентности аудио-контекста
- Font enumeration spoofing — детекция подмены списка установленных шрифтов
Анти-парсинговые механизмы:
- Rate limiting на уровне IP-адресов и сессий
- CAPTCHA для подозрительного трафика
- Honeypot-номера — фейковые номера для детекции ботов
- JavaScript challenges — проверки выполнения сложных JS-вычислений
- Progressive disclosure — постепенная загрузка контента для замедления парсинга
Мониторинг и аналитика в реальном времени
Real-time processing pipeline:
- Apache Kafka для потоковой обработки событий
- Stream processing через Apache Storm/Flink для анализа действий пользователей
- Redis clusters для кеширования частых запросов
- Time-series databases (InfluxDB) для хранения метрик
Масштабирование и производительность:
- Horizontal scaling вычислительных мощностей под нагрузкой
- Model serving через TensorFlow Serving/TorchServe
- MLOps pipelines для автоматического переобучения и деплоя моделей
Превентивные удары по мошенникам
Борьба со спекуляциями
Во время пандемии и в марте 2022-го «Авито» блокировал завышенные цены на товары первой необходимости. Гречка по 500 рублей за килограмм? Объявление снесут мгновенно.
А помните историю с iPhone 14? «Авито» заблокировал возможность предзаказа до официального старта продаж. Перестраховались, чтобы не дать мошенникам заработать на ажиотаже.
Цифровая грамотность как оружие
Понимая, что одними технологиями проблему не решить, в «Авито» активно учат пользователей безопасности. Проводят вебинары, делают обучающие материалы, намеренно показывают их в виде подсказок.
Они создали игру в Telegram, где можно научиться безопасным сделкам. Уже 45 тысяч человек её прошли! Запустили почти 220 тысяч игровых сессий.
Рыбинцев объяснил их подход через аналогию с дорогами: «Можно поставить светофоры и нарисовать разметку, но если людей не научить правилам — аварий не избежать».
Результаты, которые впечатляют
Когда я увидел статистику, не поверил своим глазам:
- За 4 года жалобы на плохое поведение сократились в 100 раз
- За 2 года жалобы на мошенничество упали в 20 раз
- Нарушители составляют доли процента от всех пользователей
При этом 95% всех технологий разработано внутри компании. Не покупали готовые решения, а создавали с нуля под свои задачи.
Что дальше? ИИ нового поколения
«Авито» активно внедряет генеративный искусственный интеллект. Пока в основном для помощи в общении и создании лучших объявлений, но потенциал огромный.
От классифайдов к маркетплейсам
Тренд рынка — больше сделок прямо на платформе, без ухода в мессенджеры и встреч на парковках. Чем больше процесс контролируется платформой, тем он безопаснее.
Выводы
Изучив всю эту систему, я понял главное: безопасность стала продуктом. Не просто необходимостью, а тем, что отличает «Авито» от конкурентов.
Их подход можно описать четырьмя принципами:
- Технологии + люди: ИИ делает основную работу, эксперты решают сложные случаи
- Учиться на ошибках: каждый инцидент делает систему умнее
- Стимулировать хорошее поведение: бейджи и рейтинги реально работают
- Образовывать пользователей: безопасность — это командная работа
«Наша цель — сделать «Авито» настолько безопасным, что обходить защиту станет просто невыгодно», — сказал Рыбинцев.
Глядя на эти цифры, я им верю. Когда 150 миллионов человек могут спокойно покупать и продавать друг другу — это не просто бизнес. Это инфраструктура доверия целой страны.
P.S. Пока писал эту статью, система «Авито» проверила примерно 30 миллионов объявлений и заблокировала несколько тысяч мошенников.