Profitable Retail Customer Identification Based on a Combined Prediction Strategy of Customer Lifetime Value

Profitable Retail Customer Identification Based on a Combined Prediction Strategy of Customer Lifetime Value

Artem Erokhin

Начнем разговор про применение ML к прогнозированию LTV с короткой заметки про статью 2021 года. Интересна статья тем, что авторы решили сравнить типичные для табличных данных ML алгоритмы (GBDT, Random Forest) c классическими Pareto/NBD (HB), Pareto/GGG подходами. Учитывая, что это я работаю в retail, а также, что это тематически хорошо продолжает цепочку (разобрали Pareto/NBD, пойдем уж и в ML), решил статью разобрать.


Авторы долго подводят к простой мысли: ML модели - это индуктивный вывод (то есть из частного мы строим общее), а разного рода эконометрические и иные модели с предположениями о распределениях (как Pareto/NBD) - дедуктивный (то есть мы идем от общего к частному). При этом, ничего не мешает нам сравнить эти подходы. Что, собственно, авторы и делают. Общие сведения с плюсами и минусами подходов авторы приводят в сравнительной таблице.


Сравнение методов


В итоге, сюрприз-сюрприз, ML модели выигрывают у статистических методов в качестве моделирования. 


Результаты моделирования


Но тут стоит заметить, что такого рода моделирование хорошо работает, когда у вас есть достаточно большой набор данных. При малом объеме данных более логичным кажется положиться на предположения о виде распределения, т.к. они достаточно неплохой prior knowledge. Плюс, продукт должен быть относительно стабильным (смешно говорить об этом после 2020-2022 годов, но уж как есть). Например, постоянно растущие счетчики будут ограничивать применимость наших моделей, т.к. деревья экстраполировать не умеют особо, так что при постоянном росте LTV у нас будут проблемки с использованием моделей. Но, конечно, при большом объеме данных и относительной стабильности сервиса, это скорее неудобства, а не серьезные проблемы, не дающие применять ML модели.


В конце приведу реализацию такого рода моделирования (не из статьи, но тематически близко).

Report Page