Могут ли пользователи контролировать и понимать интерфейс, управляемый машинным обучением?

https://t.me/uxidesign

Аннотация: В исследовании людей, взаимодействующих с системами, построенными на алгоритмах машинного обучения, у пользователей были слабые ментальные модели и возникали затруднения, заставляя пользовательский интерфейс делать то, что они хотят.

Мы живем в мире, переполненном информацией. Становится труднее отслеживать её или вручную подбирать для других; К счастью, современная наука о данных может сортировать огромное количество информации и показывать ту, которая имеет отношение к нам.

Алгоритмы машинного обучения опираются на знания пользователей и закономерности, наблюдаемые в данных, чтобы делать выводы и предложения о том, что нам может понравиться или заинтересовать.

Технологии машинного обучения становятся все более и более доступными для разработчиков, поэтому компании стремятся использовать преимущества этих алгоритмов для улучшения своих продуктов и опыта своих пользователей.

Типичные области применения таких технологий искусственного интеллекта (ИИ) для целей UX включают:

Рекомендации (например, список фильмов для просмотра или продуктов для покупки)
Выбор того, какую рекламу или контент (например, заголовки новостей) отображать
Предложения и специальные предложения, персонализированные для обращения к текущему пользователю
Персонализированные ярлыки с доступом в один в щелчок мыши к тому, что пользователь, вероятно, захочет делать дальше

К сожалению, эти алгоритмы обычно не понятны для пользователей. Люди не уверены, какие из их действий учитываются этими алгоритмами, и их результаты не всегда легко понять. Предложения и рекомендации могут быть прямо на месте или по-видимому случайными и бессмысленными. Часто эти алгоритмы сортируют свои выходные данные в соответствии с невидимыми критериями или группируют их в специальные категории, которые не являются взаимоисключающими. Хотя эти решения имеют смысл с алгоритмической точки зрения, они часто слишком непонятны для непрофессионала и идут вразрез с традиционными способами структурирования контента.

В этой статье мы рассмотрим некоторые проблемы, с которыми сталкиваются пользователи при взаимодействии с алгоритмами машинного обучения в Facebook, Instagram, Google News, Netflix и Uber Driver. Наша дискуссия основана на недельном исследовании дневника, в котором 14 существующих пользователей этих систем записывали на видео свои взаимодействия с ними.

Модель "Черного ящика"

Для того, чтобы успешно взаимодействовать с любой системой, пользователи должны создать ментальную модель системы. Большинство людей не являются специалистами в области компьютерных технологий и не имеют представления о том, как реализовано программное обеспечение, но они могут сформировать достойные ментальные модели, основанные на предварительных знаниях об артефактах программного обеспечения, интерфейсах или даже мире в целом. Во многих ситуациях они рассматривают систему как черный ящик и определяют, как они могут изменить выход системы, играя с возможными входами.

Алгоритмы машинного обучения являются одним из таких типов систем черного ящика для пользователей. Они знают, что алгоритм использует в качестве входных данных некоторые из своих действий, и могут видеть, каковы выходные данные. Чтобы успешно взаимодействовать с алгоритмом, пользователи должны сформировать ментальную модель того, как он работает, и выяснить, как выходные данные могут измениться в соответствии с их потребностями. Есть две большие проблемы в создании этой модели:

Нечеткие входные данные: неясно, какие из действий пользователей принимаются во внимание для получения выходных данных.

Отсутствие контроля над выходными данными: Даже когда люди знают, какие из их действий рассматриваются как входные данные алгоритма, неясно, были ли эти входные данные эффективными для получения желаемого выходного сигнала.

Мы разберем каждую из этих причин отдельно.

Нечеткие входные данные

Отсутствие ясности во входных данных создает проблему создания точной ментальной модели черного ящика. Есть несколько причин, по которым статус входных данных может быть неясен:

Алгоритм не понятен - он явно не говорит людям, какие из их действий имеют значение.

Пользователь не знает о совокупности возможных входных данных, например, потому что они не ограничиваются действиями внутри системы или платформы, а поступают из других данных о поведении (например, посещая сторонние сайты).

Существует задержка между вводом и выводом: определенное действие может не сразу влиять на вывод, который пользователь видит в том же сеансе.

Среди систем машинного обучения, которые мы рассмотрели, Netflix наилучшим образом помог пользователям понять, какие из их действий были приняты во внимание системой рекомендаций. Домашняя страница Netflix (а также целевые страницы основной категории) обычно представляют собой один длинный набор списков; у многих из этих списков есть ярлыки, объясняющие, как они были созданы - потому что вы смотрели «Любопытные творения» Кристины Макконнелл, потому что вы добавили 22 июля в свой список и так далее.

Netflix объясняет некоторые из входных сигналов, используемых его рекомендательной системы.

Люди были очень благодарны за такие указания, не только потому, что они чувствовали себя под контролем, но и потому, что они давали им ценную информацию об отображаемом контенте.

Тем не менее, даже Netflix не совсем успешен в создании хорошего понимания того, как действия пользователя учитываются при создании рекомендаций - также потому, что эти действия не были немедленно отражены в выходных данных алгоритма. Например, одна участница была озадачена тем, что в ее Топ-подборке, не были указаны комедийные шоу, которые она смотрела в последний раз при использовании Netflix. Она сказала: «Топ-подборки изменились - Должно быть, они основываются на том, что я смотрела, но здесь это всё не имеет никакого отношения к тому, что я смотрела, здесь не так уж и много комедий». Пользователь Facebook потратил время, чтобы скрыть рекламу в своей ленте новостей, чтобы увидеть это же объявление, повторяющееся на странице. Другой человек поинтересовался, почему Топ-подборки так сильно совпадает с его историей просмотров Netflix: «Топ-подборки - я не знаю, как они их получают, я уверен, что есть какой-то алгоритм или что-то в этом роде, но я бы хотел, чтобы он был немного лучше, потому что они предлагают то, что я смотрел много лет назад, или то, что было в моем списке, или то, что меня абсолютно не интересует, так что я, хм, удивляюсь, почему они рекомендуют это».

Пользователям Facebook и Instagram было сложнее понять, какое из их действий действительно имело значение для контента, отображаемого в их ленте новостей. Они предполагали, что посты в их новостной ленте, с которыми они взаимодействовали (через кнопку «Нравится» и подобные), учитываются алгоритмом для определения того, какой контент им показывается. Но некоторые теории относительно возможных исходов были явно надуманными (иногда технологическими мифами) и отражали отсутствие ясности в алгоритме. Например, один пользователь отметил: «Это интересно и жутко - вчера я говорил о страстном желании фо (Фо - блюдо вьетнамской кухни, суп с лапшой - Ред.) которое я обычно не ем, и теперь я вижу это (объявление фо буррито); Интересно, записывают ли они ваши разговоры? «Увидев рекламу Hawaiian Airlines, участник сказал, наполовину шутя и наполовину серьезно: «Может, они знают, что мне нужен отпуск ». И еще один: «С тех пор, как я забеременела, я получаю объявления о беременности, детских вещах и страховании жизни». Таким образом, отсутствие ясности во входных данных делает пользователей настороженными - они предполагают, что почти каждое их действие (будь то онлайн или в реальном мире) учитывается алгоритмом, и они в конечном итоге считают, что системы более «жуткие» и навязчивы, чем они есть на самом деле. Такое восприятие сопровождается растущей обеспокоенностью по поводу конфиденциальности и осознанием огромного количества данных, которые контролируют такие компании, как Google и Facebook.

Пользователи Новостей Google в целом были довольны успешной персонализацией, которую им оказало приложение, но они также не могли понять, на каких данных оно основано. Один из участников сказал: «Это [приложение Новостей Google], кажется, удовлетворяет меня и мои интересы […] - тот факт, что есть три статьи, связанные с автомобилями, и эта тема […] мне интересна. Было бы интересно узнать, как создается страница Для вас. […] У меня есть мои местные истории, так что они, очевидно, знают мое местоположение, это очень удобно ».

Хотя Uber не дает рекомендаций как таковых, он по общему мнению использует машинное обучение для прогнозирования спроса и создания стимулов для водителей в виде скачков цен, рекламных акций и геймификации (например, водители Uber могут воспользоваться «квестами», которые дают им дополнительную прибыль когда они водят определенное количество поездок в течение определенного периода времени). Алгоритм Uber не основан на действиях драйвера как таковых; вместо этого его входные данные, скорее всего, в основном внешние данные, такие как история трафика.

Тем не менее, даже в этом случае четкое понимание входных данных имело определенное значение в том, были ли водители убеждены в некоторых поощрениях или нет. Например, один водитель был уведомлен о том, что ему нужно проехать 15 минут, чтобы забрать пассажира, находящегося в 2,3 милях, и что премия возможна. Он сказал: «Это новая раздражающая функция. Я думаю, что раньше у вас было всего 5 минут езды [чтобы забрать пассажиров], но здесь сообщается, что расстояние 15 минут и премия возможна. У меня уже была такая ситуация и премии не было. Я предполагаю, что это просто способ соблазнить водителей на дальние расстояния без получения платы за проезд. […] Мне не нравится эта возможная премия ». Не понимание, почему была предложена премия и на чем она основывалась, вызвало у водителя подозрение о намерениях Убер.

Отсутствие контроля над выходными данными

Во всех системах, на которые мы смотрели, результат зависел не только от действий пользователей, но и от внешних событий, таких как публикации других людей, новости, новые выпуски фильмов или трафик. Такое широкое разнообразие данных еще больше затруднило понимание того, как можно управлять алгоритмом, и изолировать последствия собственных действий пользователя от действий сторонних разработчиков.

Когда набор релевантных элементов был определен на основе некоторого автоматического предсказания, часто порядок, в котором эти элементы отображаются и отображаются ли они вообще, определяется метрикой релевантности: сначала отображаются элементы с высокой релевантностью, а затем - меньше. соответствующие предметы. Если релевантность ниже определенного порога, элемент может вообще не отображаться. (Netflix отображал эту метрику релевантности явно в форме оценки соответствия. Сама метрика не представляла прямого интереса для пользователей - люди в нашем исследовании полностью игнорировали эту оценку).

Хотя можно утверждать, что хороший показатель релевантности не должен размещать важные элементы в списке, правда состоит в том, что эти системы собирают только фрагментарную информацию о пользователях, которые являются индивидуальностями, чьи потребности зависят не только от привычек, но также от контекста и настроения (Например, один из участников сказал: «Хотелось бы, чтобы можно было скрыть все печальные посты в Facebook». И некоторые объявления могут быть очень интересными, но очень редко, поэтому система может быть не в состоянии собрать достаточно данных об их релевантности. Таким образом, вполне возможно, что даже хорошие метрики релевантности не смогут правильно предсказать релевантность - по крайней мере, иногда.

Из-за несовершенных метрик релевантности возникает несколько проблем:

Некоторые предметы интереса не учтены. (С точки зрения поиска информации это означает низкий уровень отзыва.

Исключение элемента с высокой релевантностью может быть дорогостоящим для пользователей. На сайтах, таких как Facebook и Instagram, пропуск сообщения одного из ваших ближайших друзей может вызвать раздражение и ухудшить восприятие. Тот факт, что новостные ленты на этих сайтах содержат только подмножество новых сообщений является одним из основных неудобств для наших участников. Один участник сказал: "Мне нужно бороться с алгоритмом, чтобы получить доступ к аккаунтам, которые я хочу видеть."Люди пытались управлять алгоритмом в соответствии со своей (часто неверной или фрагментарной) мысленной моделью работы системы. Некоторые увлекались (через кнопку «Мне нравится») всеми сообщениями с тех страниц, которые их интересовали, с надеждой убедить алгоритм не пропустить эти сообщения снова. Таким образом, значение «Лайк» вышло за пределы его первоначальных буквальных и социальных коннотаций («лайкать» что-то, что указывало на оценку содержания или поста) и стало восприниматься как способ установить некоторый контроль над алгоритмом.

Даже те, кто считал, что могут манипулировать алгоритмом, часто сомневались в их эффективности. Они постоянно посещали новостные ленты тех людей или организаций, которые их интересовали, чтобы убедиться, что они не пропустили контент.

Оставить предмет с высокой релевантностью не всегда так дорого. Например, в Netflix или Spotify есть тысячи элементов, которые потенциально представляют большой интерес для пользователей; оставляя одного из них, вы вряд ли заставите людей жаловаться.

Порядок пунктов не предсказуем или легко понятен.

Пропуск элемента, который важен для пользователя, может произойти не только потому, что алгоритм не включил его в список результатов, но и потому, что он не включил его достаточно высоко в список. В конечном счете, эта проблема связана с экономией внимания: если у людей ограниченное количество времени, которое они могут потратить в новостях или социальных сетях, то важные для них элементы могут быть упущены просто потому, что они были помещены слишком низко в выходной список.

В некоторых из рекомендательных систем, которые мы видели, упорядочение рекомендаций не имело значения для пользователя: люди не понимали, почему какой-то пост в их фиде Facebook показывался раньше другого, и они не знали, почему фильм показывался раньше другого в карусели Netflix.

Распространенная жалоба на Facebook, Instagram и Google News заключалась в том, что порядок историй не был хронологическим. Из-за этого было нелегко предсказать, видели ли вы все от человека или, возможно, пропустили некоторые посты. Точно так же, с новостями, участники были обеспокоены тем, что интересные для них истории меньшей важности (такие как статьи, связанные с автомобилями) могут быть первыми в длинном списке и могут заставить их пропускать последние новости общего характера.

В случае Netflix, специальные категории, в которых были структурированы рекомендации (например, потому что вы смотрели ..., топ подборка), скрывали естественные категории, которые люди уже сформировали из домена. Например, для видеоконтента общей проблемой является время (например, пользователи могут знать, что у них есть только 1 час на просмотр) или тип шоу. Тем не менее, в категориях, созданных Netflix, телешоу смешиваются с полнометражными фильмами и представляются в неузнаваемом порядке без разграничения маркеров, и у людей нет простого способа их отфильтровать.

Некоторые рекомендации с низкими процентами представлены пользователям. (С точки зрения поиска информации это означает низкую точность.)

Плохие предложения дорогостоящие для внимания пользователей - они должны их проверять, идентифицировать как несущественные и пропускать их. Однако цена плохого предложения не всегда одинакова для разных типов систем. Благодаря макету списка каруселей в Netflix, плохое предложение может быть относительно легче игнорировать - неинтересный фильм не занимает слишком много места на странице, и люди могут легко перемещаться по ней.

Netflix: плохая рекомендация занимает относительно мало места в макете списка; люди могут легко игнорировать это.

В таких системах, как Spotify или StichFix (служба доставки одежды), пользователи не могут игнорировать плохое предложение - они не могут просто сидеть и слушать песню, которая им не нравится, или носить брюки, которые не в их стиле. Facebook находится где-то посередине: нерелевантная запись или реклама занимают место на странице и требуют, чтобы люди прокручивали ее.

Нерелевантная реклама в Facebook может занимать всю область просмотра и требует больше усилий, чтобы ее игнорировать, чем плохое предложение фильма на Netflix.

Стоимость игнорирования плохого предложения будет определять, насколько вероятно, что люди напрямую предоставят отзыв о товаре. Например, в Spotify они будут взаимодействовать с системой и оценивать плохой предмет не только для настройки алгоритма, но и для того, чтобы уберечь себя от прослушивания песни, которая им не нравится. На Facebook мы заметили, что пользователи время от времени задействовали кнопку «Скрыть рекламу», но, поскольку она была скрыта в меню, некоторые понимали, что делать это не стоит. Вместо того, чтобы занижать плохие рекомендации, люди сосредоточились на том, чтобы понравиться хорошим предложениям.

Facebook: немногие пользователи воспользовались опцией Скрыть рекламу, которая была скрыта под кнопкой «Еще».

Чем больше места (или времени для обработки) занимает часть рекомендуемого контента, тем более заметной должна быть кнопка обратной связи. Если рекомендуемое содержание может быть легко проигнорировано, метод обеспечения обратной связи может быть вторичным.

Персонализация не должна затруднять пользователя

Выше мы видели, что в пользовательском опыте наиболее успешные алгоритмы рекомендаций были те, которые смогли донести до пользователей разумную ментальную модель использованных ими данных.

В частности, участникам нашего исследования понравился Netflix, потому что вы (просмотрели / добавили в список и т. Д.)… Списки предложений.

Однако проблема с такими подходами заключается в том, что один и тот же элемент может оказаться рекомендованным несколько раз. Например, фильм, включенный в список «Потому что вы смотрели…», также может отображаться в «Моем списке» или в списке «Топ- подборки». Люди тратят дополнительные усилия, когда сталкиваются с этими дублирующимися предметами, потому что, как минимум, они должны признать, что они видели их раньше, и двигаться дальше. Один пользователь прокомментировал: «Зачем нужны разные списки и показывать дубликаты? Я ненавижу эти двойные списки. Я листаю и вижу то же, что видел раньше, и это меня раздражает, потому что я чувствую, что это пустая трата времени… »

Netflix: один и тот же фильм («Что случилось, мисс Симона?») Появился как в разделе «Предложения для вас», так и в списках «Джаз и легкое прослушивание».

Но дополнительные усилия не ограничивается только повторяющимися элементами. Netflix позволяет выходить за рамки персонализации контента и создавать индивидуальный (и даже специфичный для сеанса) макет домашней страницы и персонализированные обложки для видео.

Оба эти типа персонализации могут увеличить стоимость взаимодействия:

Миниатюры, описания и заголовки для конкретных сеансов

Персонализация того, как часть контента представляется конкретному пользователю, может иметь большое значение для привлечения внимания. Участникам нашего исследования было предложено множество контента, и они быстро просмотрели его, взглянув на миниатюры и прочитав 1-2 слова текста здесь и там. Пользователь Facebook сказал: «Обычно я даже не читаю того, что пишут люди; Я просто просматриваю это», в то время как пользователь Netflix прокомментировал, что «я ищу вещи, которые отличаются и интересны, и обложка привлекает мое внимание».

В Netflix не только два разных пользователя будут видеть разные миниатюры для одного и того же фильма (например, «Империя игр»), но и один и тот же пользователь может видеть разные миниатюры для одного и того же фильма в двух разных сеансах.

Netflix: один и тот же пользователь видел разные миниатюры фильма Chappaquiddick в разных сеансах

Теоретически, эта практика может увеличить вероятность того, что человеку понравится фильм и он будет смотреть его - поскольку различные аспекты фильма будут выделяться на разных сеансах, один из них может привлечь внимание пользователя. К сожалению, это несоответствие также делает фильм менее запоминающимся и тратит время пользователя: люди могут в конечном итоге посетить страницу с подробностями фильма и несколько раз проверить описание, только чтобы обнаружить, что они все еще не заинтересованы или уже добавили этот фильм в их список наблюдения.

Сеансовый макет

Netflix также персонализирует макет домашней страницы в соответствии с пользователем, сессией и устройством. Таким образом, «Продолжить просмотр» может отображаться очень близко к верхней части страницы для одного пользователя в одном сеансе или может быть ниже на странице в следующем сеансе. Эта практика является примером адаптивного интерфейса и ограничивает изучение макета страницы. Таким образом, пользователям, которые предпочитают начать свой просмотр с проверки новых дополнений, возможно, потребуется активно искать список недавно добавленных, и им будет не выгодно размещать этот список в предыдущих сеансах. Поскольку Netflix является таким интерфейсом, требующим интенсивного просмотра, изменение порядка списков предложений не оказало существенного влияния на наш пул пользователей; однако, в целом, эта практика, как было показано, значительно снижает пользовательский опыт.