Как определить репрезентативность данных

Сергей Заврин

Привет! На связи Серёжа, UX-исследователь в Контуре.

От наших читателей поступил вопрос:

Я работаю в региональном банке. Мы хотим запустить триггерный сбор CES — Customer Effort Score — в мобильном приложении (авторизация, подключение доп. услуг, переводы по СБП и т.д.). Есть вопрос по поводу репрезентативности: правильно ли брать за генеральную совокупность ретро данные, а сам опрос делать для новых клиентов?

Для ответа на вопрос давайте сначала разберёмся с понятием репрезентативность.

Репрезентативность — это обеспечение в выборочной совокупности наличия всех видов единиц генеральной совокупности в достаточном количестве.

Она имеет качественное выражение — в выборке должны присутствовать все значимые категории пользователей. И количественное — значимые категории должны присутствовать в тех же пропорциях, что и в генеральной совокупности.

Разберём на примере. Предположим, мы хотим узнать, насколько пользователи удовлетворены нашим продуктом. Допустим, сервисом пользуется 30 000 бухгалтеров и 70 000 кадровиков. Это значит, что, во-первых, в нашей выборке должны быть и бухгалтеры, и кадровики. Во-вторых, в нашей выборке должно быть 30% бухгалтеров и 70% кадровиков.

Например, выборка из 100 человек, где 30 бухгалтеров и 70 кадровиков, будет репрезентативной для наших пользователей, а выборка из 1000 человек, где 500 бухгалтеров и 500 кадровиков репрезентативной не будет.

Однако это верно только в случае, если профессия пользователя — единственная характеристика, которая влияет на удовлетворённость. Если мы считаем, что, например, сфера деятельности компании тоже влияет на пользовательский опыт, то мы должны обеспечить репрезентативность и в этом разрезе. И наоборот: если мы считаем, что пол никак не влияет на удовлетворённость, мы можем его игнорировать. Нашим продуктом пользуются и мужчины, и женщины, но не будет ошибкой собрать выборку только из женщин или только из мужчин. Или включить их в выборку в соотношении, отличающемся от соотношения в генеральной совокупности.

Таким образом, когда мы думаем о репрезентативности, мы задаём себе два вопроса:

Про каких людей мы хотим что-то знать?
Мы провели опрос на тех же самых людях или на каких-то других?

Теперь перейдём к ответу на поставленный вопрос. Можно ли считать за генеральную совокупность старых пользователей, а показывать опросник только новым? Это зависит от того, является ли наша выборка отражением той генеральной совокупности, которую мы хотим исследовать.

Например, если недавно мы ввели в продукт систему онбординга, которая повлияла на сложность пользовательского пути, то новые пользователи будут не теми же самыми, что и старые.

Если раньше маркетинг привлекал к нам пользователей с высокими цифровыми компетенциями, а сейчас почему-то начал привлекать с низкими — это тоже будут не те же самые люди.

Однако если мы выпустили какую-то функциональность, которая никак напрямую не влияет на сложность прохождения сценария, то выборка из новых пользователей вполне себе может быть репрезентативной для группы «новые пользователи за всё время». Но, конечно, она будет нерепрезентативной для всех пользователей на текущий момент, потому что очевидно, что пользователь, который уже много раз пользовался фичей, будет отличаться от пользователя, который воспользовался ей в первый раз.

Т.е. на основе только новых пользователей нельзя сделать вывод вроде: «CES переводов по СБП равен 37% для всех наших пользователей».

Однако мы можем сделать вывод «CES переводов по СБП равен 37% у новых пользователей». И если изменений, касающихся опыта использования этой фичи не было, мы можем обоснованно предположить, что таким он был и раньше.

Таким образом, одна и та же выборка может репрезентировать сразу несколько генеральных совокупностей. Мы проводим опрос на новых пользователях, но о ком мы узнаём? Безусловно, узнаём про текущих новых пользователей. С определенными условиями мы также узнаём про новых пользователей на всём протяжении жизни продукта. Однако мы можем рассматривать эту выборку и как выборку из генеральной совокупности вообще всех потенциальных новых пользователей, даже тех, которых ещё нет в нашем продукте.

Следовательно, для ответа на исходный вопрос нужно подумать: «О ком мы хотим сделать вывод на основе нашей выборки?» О всех пользователях? О всех новых пользователях? О текущих новых пользователях? О всех потенциальных новых пользователях? От ответа на этот вопрос будет зависеть размер и другие характеристики генеральной совокупности, которые нужно будет учесть для обеспечения репрезентативности выборки.

Написано для телеграм-канала с вкусным названием «Сдоба» 🥨

Как определить репрезентативность данных

Report Page