А/B - тестирование

Pm c 0 до Junior за 9 месяцев

Тема А/Б очень не простая. Поэтому посмотрим на нее с разных сторон, кто как проводит А/Б-тестирование, какая роль у продакта, что можно проверять с помощью А/Б-тестов и какие могут возникнуть трудности.

А/Б-тестирование — это серебряная пуля в мире продуктовой разработки, так как это единственный способ узнать что-то достоверно и точно. Это очень точный и дорогостоящий инструмент и применять его нужно не всегда.

Для того, чтобы протестировать гипотезу нужно проанализировать все возможные метрики, понять, что именно вы хотите получить в результате проведения А/Б-теста.

Кому нужно A/B-тестирование

— Продакт-менеджеры могут тестировать изменения ценовых моделей, направленные на повышение доходов, или оптимизацию части воронки продаж для увеличения конверсии.

— Маркетологи могут тестировать изображения, призывы к действию (call-to-action) или практически любые другие элементы маркетинговой кампании или рекламы с точки зрения улучшения метрик.

— Продуктовые дизайнеры могут тестировать дизайнерские решения (например, цвет кнопки оформления заказа) или использовать результаты тестирования для того, чтобы перед внедрением определить, будет ли удобно пользоваться новой функцией.

Вот шесть шагов, которые нужно пройти, чтобы провести тестирование. В некоторые из пунктов включены примеры тестирования страницы регистрации выдуманного стартапа.

1. Определите цели

Определите основные бизнес-задачи вашей компании и убедитесь, что цели A/B-тестирования с ними совпадают.

Пример: Допустим, вы менеджер продукта в «компании X» на стадии стартапа. Руководству нужно добиться роста количества пользователей. В частности, компания стремится к росту количества активных пользователей (метрика DAU), определяемых как среднее количество зарегистрированных пользователей сайта в день за последние 30 дней. Вы предполагаете, что этого можно добиться либо путем улучшения показателей удержания (процент пользователей, возвращающихся для повторного использования продукта), либо путем увеличения числа новых регистрирующихся пользователей.

В процессе исследования воронки вы замечаете, что 60% пользователей уходят до завершения регистрации. Это означает, что можно повысить количество регистраций, изменив страницу регистрации, что, в свою очередь, должно помочь увеличить количество активных пользователей.

2. Определите метрику

Затем вам нужно определить метрику, на которую вы будете смотреть, чтобы понять, является ли новая версия сайта более успешной, чем изначальная. Обычно в качестве такой метрики берут коэффициент конверсии, но можно выбрать и промежуточную метрику вроде показателя кликабельности (CTR).

Пример: В нашем примере в качестве метрики вы выбираете долю зарегистрированных пользователей (registration rate), определяемую как количество новых пользователей, которые регистрируются, поделенное на общее количество новых посетителей сайта.

3. Разработайте гипотезу

Затем нужно разработать гипотезу о том, что именно поменяется, и, соответственно, что вы хотите проверить. Нужно понять, каких результатов вы ожидаете и какие у них могут быть обоснования.

Пример: Допустим, на текущей странице регистрации есть баннер и форма регистрации. Есть несколько пунктов, которые вы можете протестировать: поля формы, позиционирование, размер текста, но баннер на главной странице визуально наиболее заметен, поэтому сначала надо узнать, увеличится ли доля регистраций, если изменить изображение на нём.

Общая гипотеза заключается в следующем: «Если изменить главную страницу регистрации, то больше новых пользователей будут регистрироваться внутри продукта, потому что новое изображение лучше передает его ценности».

Нужно определить две гипотезы, которые помогут понять, является ли наблюдаемая разница между версией A (изначальной) и версией B (новой, которую вы хотите проверить) случайностью или результатом изменений, которые вы произвели.

— Нулевая гипотеза предполагает, что результаты, А и В на самом деле не отличаются и что наблюдаемые различия случайны. Мы надеемся опровергнуть эту гипотезу.

— Альтернативная гипотеза — это гипотеза о том, что B отличается от A, и вы хотите сделать вывод об её истинности.

Решите, будет ли это односторонний или двусторонний тест. Односторонний тест позволяет обнаружить изменение в одном направлении, в то время как двусторонний тест позволяет обнаружить изменение по двум направлениям (как положительное, так и отрицательное).

4. Подготовьте эксперимент

Для того, чтобы тест выдавал корректные результаты сделайте следующее:

— Создайте новую версию (B), отражающую изменения, которые вы хотите протестировать.

— Определите контрольную и экспериментальную группы. Каких пользователей вы хотите протестировать: всех пользователей на всех платформах или только пользователей из одной страны? Определите группу испытуемых, отобрав их по типам пользователей, платформе, географическим показателям и т. п. Затем определите, какой процент исследуемой группы составляет контрольная группа (группа, видящая версию A), а какой процент — экспериментальная группа (группа, видящая версию B). Обычно эти группы одинакового размера.

— Убедитесь, что пользователи будут видеть версии A и B в случайном порядке. Это значит, у каждого пользователя будет равный шанс получить ту или иную версию.

— Определите уровень статистической значимости (α). Это уровень риска, который вы принимаете при ошибках первого рода (отклонение нулевой гипотезы, если она верна), обычно α = 0.05. Это означает, что в 5% случаев вы будете обнаруживать разницу между A и B, которая на самом деле обусловлена случайностью. Чем ниже выбранный вами уровень значимости, тем ниже риск того, что вы обнаружите разницу, вызванную случайностью.

— Определите минимальный размер выборки. Калькуляторы есть здесь и здесь, они рассчитывают размер выборки, необходимый для каждой версии. На размер выборки влияют разные параметры и ваши предпочтения. Наличие достаточно большого размера выборки важно для обеспечения статистически значимых результатов.

— Определите временные рамки. Возьмите общий размер выборки, необходимый вам для тестирования каждой версии, и разделите его на ваш ежедневный трафик, так вы получите количество дней, необходимое для проведения теста. Как правило, это одна или две недели.

Пример: На существующем сайте в разделе регистрации мы изменим главную страницу — это и будет нашей версией B. Мы решаем, что в эксперименте будут участвовать только новые пользователи, заходящие на страницу регистрации. Мы также обеспечиваем случайную выборку, то есть каждый пользователь будет иметь равные шансы получить A или B, распределенные случайным образом.

Важно определить временные рамки. Допустим, ежедневно на нашу страницу регистрации в среднем приходит трафик от 10 000 новых пользователей, это означает, что только 5000 пользователей могут увидеть каждую версию. Тогда минимальный размер выборки составляет около 100 000 просмотров каждой версии. 100 000/ 5000 = 20 дней — столько должен продлиться эксперимент.

5. Проведите эксперимент

Помните о важных шагах, которые необходимо выполнить:

— Обсудите параметры эксперимента с исполнителями.

— Выполните запрос на тестовой закрытой площадке, если она у вас есть. Это поможет проверить данные. Если ее нет, проверьте данные, полученные в первый день эксперимента.

— В самом начале проведения тестирования проверьте, действительно ли оно работает.

— И, наконец, не смотрите на результаты! Преждевременный просмотр результатов может испортить статистическую значимость.

6. Анализируйте результаты. Наконец-то самое интересное

Вам нужно получить данные и рассчитать значения выбранной ранее метрики успеха для обеих версий (A и B) и разницу между этими значениями. Если не было никакой разницы в целом, вы также можете сегментировать выборку по платформам, типам источников, географическим параметрам и т. п., если это применимо. Вы можете обнаружить, что версия B работает лучше или хуже для определенных сегментов.

Проверьте статистическую значимость. Основная идея в том, чтобы выяснить, была ли разница в результатах между A и B связана с изменениями или это результат случайности или естественных изменений. Это определяется путем сравнения тестовых статистических данных (и полученного p-значения) с вашим уровнем значимости.

Если p-значение меньше уровня значимости, то можно отвергнуть нулевую гипотезу, имея доказательства для альтернативы.

Если p-значение больше или равно уровню значимости, мы не можем отвергнуть нулевую гипотезу о том, что A и B не отличаются друг от друга.

A/B-тестирование может дать следующие результаты:

— Контрольная версия, А выигрывает или между версиями нет разницы. Если исключить причины, которые могут привести к недействительному тестированию, то проигрыш новой версии может быть вызван, например, плохим сообщением и брендингом конкурентного предложения или плохим клиентским опытом.

В этом сценарии вы можете углубиться в данные или провести исследование пользователей, чтобы понять, почему новая версия не работает так, как ожидалось. Это, в свою очередь, поможет собрать информацию для следующих тестов.

— Версия B выигрывает. A/B-тест подтвердил вашу гипотезу о лучшей производительности версии B по сравнению с версией A. Отлично! Опубликовав результаты, вы можете провести эксперимент на всей аудитории и получить новые результаты.

Реальный пример A/B-теста на OZON:

Плюсы A/B-тестов очевидны:

Во-первых, тестируется очень много всего и есть соответствующая база знаний. Если вам приходит «гениальная» идея, вы можете за 15 секунд узнать, что ваша гениальная идея, оказывается, уже приходила в голову одному из продактов года два назад, причём он её успел проверить, и она провалилась с треском. Как тут не вспомнить классиков:

«Слушайте, что я накропал вчера ночью при колеблющемся свете электрической лампы: «Я помню чудное мгновенье, передо мной явилась ты, как мимолетное виденье, как гений чистой красоты». Правда, хорошо? Талантливо? И только на рассвете, когда дописаны были последние строки, я вспомнил, что этот стих уже написал А. Пушкин. Такой удар со стороны классика! А?»

Цитата Остапа Бендера из романа «Золотой телёнок», И. Ильф, Е. Петров

Во-вторых, в такой культуре комфортно работать, т. к. почти нет соревнования мнений. Решения по продукту, что называется, выкристаллизовываются, в том числе и путём тестирования. И не важно, кто ты, сеньор или джуниор — пока у тебя нет хорошего теста, никакое изменение ты никуда не выкатишь.
В-третьих, сейчас очень популярно машинное обучение и умные машинные алгоритмы. А Machine learning и A/B-тесты — это просто гремучая смесь, которая будет определять развитие продукта в самом ближайшем будущем.

Инструменты

Для организации теста необходим инструмент, позволяющий разметить аудиторию по сегментам и посчитать значения ключевых показателей отдельно в каждом сегменте.

Если ваши ресурсы позволяют, то такой инструмент можно реализовать самостоятельно на основе анализа логов действий пользователей. Если ресурсы ограничены, то стоит воспользоваться сторонним инструментом.

Google Marketing Platform (Google Optimize)

Как подключить: добавить код в шапку сайта.

Самый популярный инструмент для проведения А/Б тестов. Он полностью бесплатный и может использоваться как на лендингах, так и на отдельной странице обычного сайта. Для подключения понадобится аккаунт Google Analytics.

Преимущества Google Marketing Platform

Бесплатный.
Понятный интерфейс.
Уведомления о важных изменениях приходят на привязанный адрес электронной почты.
Можно одновременно проводить несколько тестов.
Выбор процента трафика, который будет участвовать в исследовании.
Выбор целей из списка стандартных или настройка собственной.

Недостатки Google Marketing Platform

Не работает с рекламными объявлениями.
Не поддерживает анализ трафика.
Нет анализа конкурентов.
Нет многофакторной авторизации.

Optimizely

Разработчики Optimizely пошли по пути улучшения одного продукта, а не расширения возможностей в разных направлениях. Поэтому эта программа подходит только для А/Б тестирования. Но у нее настолько простой и понятный интерфейс, что самым сложным будет добавить код в шапку сайта. Визуально он похож на графический редактор, в котором можно изменить любой элемент — цвет, текст, размер, расположение.

Преимущества Optimizely

Работа с сайтами, рассылками, платформами данных.
Подробные отчеты в личном кабинете.
Точная сегментация аудитории.
Индивидуальные тарифы под потребности каждого отдельного бизнеса.

Недостатки Optimizely

Англоязычный интерфейс.
Нет двухфакторной аутентификации.

Распространенные ошибки в проведении исследования

Исследование нескольких изменений. Если нужно повысить конверсию формы обратной связи и при этом вносятся изменения в содержание, цвет кнопок, текст, количество полей — как определить, что из этого сработало? Один элемент вызывает положительную динамику, а другой, наоборот, отрицательную. Результаты смазываются, тестирование получается недостоверным.
Использование чужих гипотез. Учитывайте особенности каждого отдельного бизнеса, функционал сайта и т. д. На ресурсах отличается оптимизация, трафик, ЦА, а потому не все гипотезы будут работать одинаково.
Неправильная продолжительность. Мы уже говорили, что нельзя заканчивать эксперимент раньше времени. Но и слишком надолго растягивать его тоже нельзя. Оптимально — 14 дней.
Разовое проведение теста. Исследование может проводиться несколько раз подряд — тестировать новые гипотезы на основании предыдущих, дополнять изменения на сайте и проверять, какое из них лучше работает.
Игнорирование внешних факторов. Поведение пользователей зависит от многих причин: сезонность, периоды распродаж, праздники и т.д. Из-за этого исследование может давать недостоверные показатели. Проводите тесты нейтральные периоды.
Неправильный подбор инструментария. Большинство программ требует добавления стороннего кода на страницу. Это может замедлить загрузку и негативно сказаться на поведенческих факторах. Поэтому старайтесь выбирать те программы, которые не настолько сказываются на скорости загрузки страниц, и убирайте код после окончания эксперимента.
Недостаточно полное отслеживание метрик. Если отслеживать только основной показатель, не учитывая при этом дополнительные, результат будет неполным. Учитывайте связанные показатели — их изменение может дополнить начальную гипотезу и дать материал для построения следующих.

Заключение

Независимо от того, был ли ваш тест успешным или нет, относитесь к каждому эксперименту как к возможности для обучения. Используйте то, чему вы научились, для выработки вашей следующей гипотезы. Вы можете, например, использовать предыдущий тест или сконцентрироваться на другой области, требующей оптимизации. Возможности бесконечны.

Домашнее задание:

Приходилось ли вам в своей профессиональной деятельности сталкиваться с А/B тестами?

Опубликуйте свой ответ в комментариях под постом.

Не боимся делать ошибки, т.к мы только учимся.

😱 Дедлайн ДЗ: Пятница (16.09) до 12:00