Люди в голосе: как вырастить аудиторию «Маруси» в 25 раз?

Люди в голосе: как вырастить аудиторию «Маруси» в 25 раз?

Интервью с Анатолием Кульбацким

Сегодня мы публикуем вторую часть интервью с Анатолием Кульбацким, экс-директором департамента умных продуктов VK (в 2020-2023) и одним из авторов Маруси.

Давай вспомним клиентские кейсы, которые тяжело давались?

У нас был пример из жизни – МакДрайв: к стойке на автомобиле подъезжает человек, говорит свой заказ в микрофон, ему отвечают, а потом он забирает свой заказ. Выглядело так, как будто бы в жизни уже есть готовый голосовой кейс взаимодействия, и можно его повторить. Но всё не так просто. Обычные модели распознавания речи довольно плохо работали с «наггетсами», «чикен роллами», «макфишами» и прочими штуками, потому что в обычной речи с ассистентами они не встречаются. Мы дообучили модель, выпустили навык, а пользователи дали понять, что им это не надо. И есть пара гипотез, почему.

  1. Интерфейсы Delivery Club более удобны для того, чтобы сделать заказ. У пользователя перед глазами есть 7-10 элементов, и за несколько секунд он может определиться, чего чему хочется.
  2. В МакДрайве было меню перед глазами, а в колонке нет. Если запросить меню у колонки, то после третьего наименования у пользователя «взрывается» голова.
Большое значение имеет мотивация пользователя. Что он получит, если обучится этому кейсу?

Например, в приложении «Самокат» ты обучаешься заказывать продукты, чтобы потом не ходить в магазин, а в такси – вызывать машину кнопкой, без звонка. С наггетсами так не получилось.

Голосовые интерфейсы – половина дела. А как собрать саму колонку?

На железе сложно зарабатывать. Мы запустили Мини, Яндекс запустил Лайт. У Лайта были хорошие продажи в сегменте недорогих устройств. Наша задача заключалась в том, чтобы выпустить недорогую колонку с дифференциацией и преемственностью семейству наших колонок, а также перенастроить логистику в условиях 2022 года.

Мне очень повезло, потому что ребята, с которыми я работал в VK – потрясающие специалисты, перед которыми можно ставить самые амбициозные задачи. Например, Борис Каганович. Он смог сделать недорогую колонку высокого качества, с экраном, и чтобы она звучала лучше, чем Лайт.

В Neo мы чуть лучше сфокусировались на детях. Мы не хотели, чтобы это был детский продукт, при этом знали, что среди пользователей будет много детей (дорабатывали семейный и детский режимы). Один из наших дифференциаторов и отстройка от Алисы заключается в том, Маруся – добрая. Алиса – классная, дерзкая, она может резко ответить.

Мы сознательно всё это убрали в Марусе. И доброта сработала, потому что покупатели обращали на это внимание.

Что самое сложное в производстве таких продуктов? С чем точно встретишься, и, если не преодолеешь, то ничего не получится?

Толщина голосового канала. Когда появился голос, казалось, что это новый способ взаимодействия с компьютером, и через какое-то время он станет доминирующим. Но с продуктами так не работает: в реальности существует очень много разных вариантов интерфейсов, и есть интерфейсы, которые в том или ином кейсе гораздо эффективнее, чем голос.

Например, если нужно выбирать из 6-7 вариантов и иметь возможность легко вернуться на предыдущий шаг, то визуальный интерфейс будет более удобным. Голосовое взаимодействие линейно, в нём сложнее возвращаться на предыдущие шаги. Возможно, LLM смогут решить эту задачу и будут давать быстрые полные ответы, но давайте вспомним, когда был запуск Google Assistant и Siri: прошло больше десяти лет.

Существует пропасть между понятными короткими кейсами (голосовой поиск, погода, умный дом) и длинными диалогами с поддержкой контекста. Все вкладываются в развитие таких естественных диалогов, а на практике я видел, что здорово работают именно короткие кейсы (найти трек или фильм, включить музыку). Получается, чтобы сделать хороший кейс, нужно решить три задачи: 1) найти этот кейс 2) учесть контекст 3) реализовать его грамотно с точки зрения клиентского пути и технологического качества (точность, действия ассистента).

Как набирать людей в такие проекты? Как развивать команду?

Я не отношу себя к тем людям, которые считают, что для этой сферы нужны какие-то специальные навыки. Умные устройства – довольно сложные продукты, поэтому нужны senior-ребята. Такие специалисты лучше всего подходят для продуктов с высокой степенью неопределенности. И с ними интереснее работать. А дальше смотрим по типу продукта. Например, для Музыки мне было важно найти senior-продакта, который мог работать и с технологиями, и с контентом, а для поиска и базового качества – с опытом в ML. VUI и голосовым технологиям мы обучали в команде, потому что я знал, что готовых специалистов очень мало, и нужно вкладываться в новых.

Кто проектирует голосовые интерфейсы? Дизайнер?

Мы сознательно отказались от роли голосовых дизайнеров. Навык проектировался продактом, который понимает технологию и клиентский путь, и редактором, который хорошо разбирается в написании диалогов. Когда у навыка есть визуал, там появляется дизайнер.

Какое будущее у индустрии умных устройств?

Я верю, что такие продукты будут распространяться линейно (больше колонок, ассистенты будут проникать в телевизоры), но я не верю в экспоненту. То количество ограничений, которое есть в голосовом интерфейсе, не даст ему стать новым айфоном. Плюс те ограничения, которые наложили Goggle и Apple на свои доминирующие платформы, не дадут другим ассистентам хорошо вырасти в Android и iOS.

Пользователю придётся продираться к вашему ассистенту, и тогда клиентский кейс должен быть такой сильный, чтобы пользователь нашел мотивацию это сделать. Среди таких сильных кейсов – Навигатор с голосом.

Умные устройства – не товар первой необходимости, поэтому кризисы будут влиять на продажи.

При этом, я вижу большой потенциал в автоматизации с помощью голосовых технологий (сервисные коммуникации, продажи в колл-центрах). Сейчас она строится на простых технологиях и древовидных структурах, но с появлением LLM решения могут стать более сложными и дать движение по качеству обслуживания.

Какие рекомендации ты можешь дать ребятам, которые хотят заниматься такими продуктами?

Меня радует, что постепенно продакт-менеджмент превращается в профессию, а не остается просто набором эмпирических знаний. Например, хорошо бы владеть фреймворками от простых типа RICE до Onboarding от Reforge.

При переходе в новую доменную область человеку придется погрузиться в специфику: текущий стек технологий, наработки, ожидания и боли пользователей, за счёт чего можно сделать следующий «прыжок» в продукте, и нужно ли его делать. Возможно, придётся двигаться маленькими шагами по одному проценту вперед.

В умных устройствах и ассистентах на первом этапе придётся довольно быстро «занырнуть» в другой способ взаимодействия с пользователем и начинать работу с учётом интерфейсных и технологических ограничений. Специфика есть, но её можно освоить. Не могу сказать, что только выпускники «Лиги голосового плюща» могут работать в таких продуктах, такой Лиги не существует, поэтому у всех есть шанс.

⚡️В комментариях задавайте вопросы Анатолию, мы обязательно их передадим.

Report Page