Как я изучил систему безопасности «Авито»: 150 миллионов пользователей под защитой алгоритмов

Как я изучил систему безопасности «Авито»: 150 миллионов пользователей под защитой алгоритмов

Anton Kisurin

Однажды ночью меня подстегнула именитость защиты «Авито», тогда я решил покопаться в их системе безопасности. Масштаб. Представьте: каждый день на этой платформе происходит 6 миллионов диалогов. Шесть миллионов! И каждый из них нужно проверить на безопасность. Как вообще это возможно?

Я решил намеренно разобраться, как работает эта машина доверия изнутри, почему это почти единственная платформа в рунете, которая так ответственно относится к безопасности клиентов?
То, что я узнал, меня по-настоящему впечатлило.

С чего все началось: когда модераторов стало мало

Пять лет назад в «Авито» поняли простую вещь: чем больше людей пользуется платформой, тем больше на неё приходит всякого мусора. Мошенники, спамеры, продавцы липовых товаров — весь этот зоопарк начал угрожать нормальным пользователям.

И тогда, в 2020 году, создали департамент Trust & Safety. Звучит офисно, скучно, по сути это команда из 800 человек, которые день и ночь следят за тем, чтобы вас не обманули. Среди них есть програмисты, аналитики, специалисты анализа данных и просто опытные модераторы, которые знают все схемки/темки мошенников и тёмных личностей наизусть.

Андрей Рыбинцев, который руководит этим направлением, объяснил их философию просто: «Мы хотим, чтобы люди доверяли друг другу и доверяли нам». Звучит банально, но когда речь идёт о 150 миллионах пользователей, это становится технической задачей космического масштаба. Отдельно рекомендую почитать про скорость его карьерного роста в «Авито», после того, как все признали гениальность и эффективность защиты.

Как защищают ваши разговоры

Мессенджер, который всё видит

Помните, как раньше на досках объявлений писали номера телефонов? В «Авито» поняли, что это прямая дорога на дно. Поэтому создали свой мессенджер. И он не просто передаёт сообщения — он их анализирует.

Обработка текстовых сообщений в реальном времени:

  • Streaming NLP pipeline — обработка свыше 6 миллионов сообщений в день с задержкой в миллисекунды
  • Семантический анализ через предобученные языковые модели (BERT-подобные)
  • Классификация интентов — определяет цель сообщения (продажа, покупка, подозрительная деятельность)
  • Детекция языка и обработка сленга, опечаток, намеренных искажений сообщения

Детекция фишинга и спама:

  • URL-анализ — проверка ссылок через базы, сети и подсети известных фишинговых доменов
  • Pattern matching для обнаружения поведения схожего со схемами мошенничества
  • Байесовские фильтры для классификации спама
  • Sequence-to-sequence модели для анализа диалогов

Особенно понравилось внимание к деталям: если в профиле человек продаёт машину, а в чате вдруг предлагает стоматологические услуги — система это обнаружит и отметит, как нерелевантное сообщение.

Защита номеров

В интернете достаточное количество утечек персональных данных, в том числе собранных, благодаря OSINT и парсерам. Если при нажатии на кнопочку "позвонить", Вы думаете, что звоните продавцу напрямую, то вы ошибаетесь! «Авито» предоставляет временный номер, который меняется каждые несколько часов.

Динамическая маршрутизация вызовов:

  • Временные номера генерируются из пула с ротацией каждые 2-4 часа
  • Mapping table сохраняет историю выдачи, связывает реальный номер, временный номер и номер звонящего
  • TTL (Time To Live) для связок — автоматическое удаление через 14 дней
  • Load balancing для распределения нагрузки между телефонными мощностями

Результат? На 40% меньше спам-звонков. Теперь коллекторы и телефонные мошенники не могут собрать базу номеров с «Авито».

Техническая архитектура: как работает машинное обучение

Масштабы обработки данных

Начнём с цифр — они дают понимание сложности задач:

  • Свыше 8 миллиардов кликов отслеживается каждый день
  • Более 5 миллионов объявлений проверяется ежедневно
  • 99% всех сообщений проверяет автоматика, только 1% попадает к людям
  • Сотни моделей машинного обучения работают одновременно

Архитектура модерации: три линии обороны

Премодерация — каждое объявление до публикации проходит через множество специализированных алгоритмов:

  • NLP-модели для анализа текста объявлений
  • Computer Vision для проверки изображений
  • Классификаторы для определения категории товара
  • Детекторы аномалий для выявления подозрительных цен
  • Анализаторы дубликатов для поиска повторяющегося контента

Постмодерация — непрерывный мониторинг уже размещённого контента:

  • Стриминговая обработка жалоб пользователей
  • Временные ряды для отслеживания изменений в поведении
  • Кластеризация для группировки похожих нарушений

Эскалация к экспертам — только 1-3% подозрительного контента требует человеческого анализа

Система непрерывного обучения

Feedback loop: Каждое решение эксперта становится обучающим примером для моделей:

  1. Эксперт принимает решение по спорному случаю
  2. Решение автоматически размечается и добавляется в датасет
  3. Модели переобучаются на новых данных
  4. Обновлённые модели разворачиваются в продакшене

A/B-тестирование алгоритмов: Постоянно тестируются новые версии моделей на части трафика, сравнивается их эффективность с текущими.

Как вычисляют нарушителей до того, как они что-то сделают

Детекция фрода и связывание аккаунтов

Device fingerprinting — система собирает технические характеристики устройств, с которых осуществлялся вход или происходило посещение сайта:

  • Разрешение экрана, часовой пояс, установленные шрифты
  • Canvas fingerprinting и WebGL параметры
  • Версии браузера, операционной системы, плагинов
  • Сетевые характеристики (IP, провайдер, географические данные)

Детекция прокси и VPN-соединений:

  • IP reputation databases — проверка адресов через базы известных прокси-серверов, я протестировал лично более 7 сервисов по предоставлению прокси. Ни одно подключение из 20 IP адресов не удалось установить, чтобы я не делал, хоть меняй DNS, хоть скрывай WebRTC, всё перепробовал.
  • Geolocation inconsistency — анализ несоответствий между заявленным местоположением и IP
  • Latency analysis — измерение задержек, характерных для proxy-цепочек, думаю, что детектил меня именно он.
  • DNS leak detection — проверка утечек реальных DNS-серверов
  • WebRTC IP leak — извлечение локальных IP-адресов через браузерные API, что скрывай, что не скрывай, исход один — тебе даже главную страницу не покажет.
  • TOR exit nodes — блокировка известных выходных узлов сети Tor
  • Residential proxy detection — выявление ротирующихся IP-адресов провайдеров

Анти-автоматизация и детекция ботов:

  • Browser automation detection — поиск признаков Selenium, Puppeteer
  • Mouse movement analysis — анализ естественности траекторий курсора
  • JavaScript execution patterns — проверка выполнения скриптов браузером
  • Headless browser detection — выявление браузеров без графического интерфейса

Поведенческая биометрика:

  • Паттерны кликов — скорость, точность, траектории мыши
  • Ритм печати — интервалы между нажатиями клавиш
  • Навигационные привычки — последовательность действий на сайте
  • Временные паттерны — когда и как долго пользователь активен

Машинное обучение на графах

Графовые алгоритмы для связывания:

  • Community detection для выявления групп связанных аккаунтов
  • PageRank-подобные алгоритмы для оценки подозрительности связей
  • Graph Neural Networks (GNN) для анализа сложных связей
  • Embedding nodes для векторного представления пользователей

Компьютерное зрение для модерации изображений

Архитектура CNN для классификации товаров

  • Transfer learning на предобученных моделях (ResNet, EfficientNet)
  • Multi-label classification — одно изображение может содержать несколько категорий
  • Object detection через YOLO/R-CNN для локализации объектов на фото
  • Similarity search через векторные представления изображений

Детекция запрещённого контента

  • Биометрическое распознавание животных для проверки Красной книги
  • Детекция оружия и наркотиков через специализированные классификаторы
  • NSFW-контент фильтрация через глубокие сети
  • Fake image detection — поиск сгенерированных и отредактированных изображений

Система верификации и репутации

Технические детали верификации

Проверка документов через CV:

  • OCR (Optical Character Recognition) для извлечения текста из документов
  • Document structure analysis — проверка соответствия официальным шаблонам
  • Liveness detection — анти-спуфинг проверки для селфи с документами
  • Cross-validation с государственными базами через API

Интеграция с внешними системами:

  • API Госуслуг для верификации личности через ЕСИА
  • Банковские BankID для подтверждения платёжных данных
  • ЕГРЮЛ/ЕГРИП для проверки юридических лиц
  • ФНС API для валидации ИНН и налогового статуса

Система репутации и рейтингов

Алгоритм достоверности отзывов:

  • Proof of interaction — проверка факта общения между пользователями через логи мессенджера
  • Temporal analysis — анализ временных меток сделки и отзыва
  • Network analysis — поиск подозрительных связей между аккаунтами

Детекция накрутки рейтингов:

  • Clustering suspicious accounts — группировка потенциально поддельных профилей
  • Statistical anomaly detection — поиск неестественных паттернов в отзывах
  • Graph-based fraud detection — анализ сетей взаимосвязанных аккаунтов

Продавцы с бейджами получают на 20% больше внимания покупателей.

Защита от парсинга и технические меры безопасности

Технические детали блокировки прокси

Детекция антидетект-браузеров:

  • Canvas poisoning detection — поиск искажений в Canvas fingerprint
  • WebGL noise patterns — анализ шума в WebGL рендеринге
  • Audio context fingerprinting — проверка консистентности аудио-контекста
  • Font enumeration spoofing — детекция подмены списка установленных шрифтов

Анти-парсинговые механизмы:

  • Rate limiting на уровне IP-адресов и сессий
  • CAPTCHA для подозрительного трафика
  • Honeypot-номера — фейковые номера для детекции ботов
  • JavaScript challenges — проверки выполнения сложных JS-вычислений
  • Progressive disclosure — постепенная загрузка контента для замедления парсинга

Мониторинг и аналитика в реальном времени

Real-time processing pipeline:

  • Apache Kafka для потоковой обработки событий
  • Stream processing через Apache Storm/Flink для анализа действий пользователей
  • Redis clusters для кеширования частых запросов
  • Time-series databases (InfluxDB) для хранения метрик

Масштабирование и производительность:

  • Horizontal scaling вычислительных мощностей под нагрузкой
  • Model serving через TensorFlow Serving/TorchServe
  • MLOps pipelines для автоматического переобучения и деплоя моделей

Превентивные удары по мошенникам

Борьба со спекуляциями

Во время пандемии и в марте 2022-го «Авито» блокировал завышенные цены на товары первой необходимости. Гречка по 500 рублей за килограмм? Объявление снесут мгновенно.

А помните историю с iPhone 14? «Авито» заблокировал возможность предзаказа до официального старта продаж. Перестраховались, чтобы не дать мошенникам заработать на ажиотаже.

Цифровая грамотность как оружие

Понимая, что одними технологиями проблему не решить, в «Авито» активно учат пользователей безопасности. Проводят вебинары, делают обучающие материалы, намеренно показывают их в виде подсказок.

Они создали игру в Telegram, где можно научиться безопасным сделкам. Уже 45 тысяч человек её прошли! Запустили почти 220 тысяч игровых сессий.

Рыбинцев объяснил их подход через аналогию с дорогами: «Можно поставить светофоры и нарисовать разметку, но если людей не научить правилам — аварий не избежать».

Результаты, которые впечатляют

Когда я увидел статистику, не поверил своим глазам:

  • За 4 года жалобы на плохое поведение сократились в 100 раз
  • За 2 года жалобы на мошенничество упали в 20 раз
  • Нарушители составляют доли процента от всех пользователей

При этом 95% всех технологий разработано внутри компании. Не покупали готовые решения, а создавали с нуля под свои задачи.

Что дальше? ИИ нового поколения

«Авито» активно внедряет генеративный искусственный интеллект. Пока в основном для помощи в общении и создании лучших объявлений, но потенциал огромный.

От классифайдов к маркетплейсам

Тренд рынка — больше сделок прямо на платформе, без ухода в мессенджеры и встреч на парковках. Чем больше процесс контролируется платформой, тем он безопаснее.

Выводы

Изучив всю эту систему, я понял главное: безопасность стала продуктом. Не просто необходимостью, а тем, что отличает «Авито» от конкурентов.

Их подход можно описать четырьмя принципами:

  1. Технологии + люди: ИИ делает основную работу, эксперты решают сложные случаи
  2. Учиться на ошибках: каждый инцидент делает систему умнее
  3. Стимулировать хорошее поведение: бейджи и рейтинги реально работают
  4. Образовывать пользователей: безопасность — это командная работа

«Наша цель — сделать «Авито» настолько безопасным, что обходить защиту станет просто невыгодно», — сказал Рыбинцев.

Глядя на эти цифры, я им верю. Когда 150 миллионов человек могут спокойно покупать и продавать друг другу — это не просто бизнес. Это инфраструктура доверия целой страны.


P.S. Пока писал эту статью, система «Авито» проверила примерно 30 миллионов объявлений и заблокировала несколько тысяч мошенников.

Report Page