Моделирование LTV в SQL
⏱ Время чтения текста – 13 минутУ большинства игровых и мобильных компаний имеется кривая Retention, ранее мы писали о том, что такое Retention и как его посчитать. Вкратце — это метрика, которая позволяет понять насколько хорошо продукт вовлекает пользователей в ежедневное использование. А ещё при помощи Retention и ARPDAU можно посчитать LTV (Lifetime Value), пожизненный доход с одного пользователя. Зная средний доход с пользователя за день и кривую Retention мы можем смоделировать ее и спрогнозировать LTV.
Для материала были взяты данные из одного реального игрового проекта. Нулевой день не отображен для того, чтобы видеть динамику в деталях
В сегодняшнем материале мы подробно разберём, как смоделировать LTV для 180 дней при помощи SQL и просто линейной регрессии.
Как посчитать LTV?
В общем случае формула LTV выглядит как ARPDAU умноженное на Lifetime — время жизни пользователя в проекте.

Посмотрим на классический график Retention:

Lifetime — это площадь фигуры под Retention:

Откуда взялись интегралы и площади можно подробнее узнать в этом материале
Значит, чтобы посчитать Lifetime, нужно взять интеграл от функции удержания по времени. Формула приобретает следующий вид:

Для описания кривой Retention лучше всего подходит степенная функция a*x^b. Вот как она выглядит в сравнении с кривой Retention:

При этом x — номер дня, a и b — параметры функции, которую мы построим при помощи линейной регрессии. Регрессия появилась неслучайно — эту степенную функцию можно привести к виду линейной функции, логарифмируя:



ln(a) — intercept, b — slope. Остаётся найти эти параметры — в линейной регрессии для этого используют метод наименьших квадратов. Lifetime — кумулятивная сумма прогноза за 180 дней. Посчитав её, остаётся умножить Lifetime на ARPDAU и получим LTV за 180 дней.
Строим LTV
Перейдём к практике. Для всех расчётов мы использовали данные одной игровой компании и СУБД PostgreSQL — в ней уже реализованы функции поиска параметров для линейной регрессии. Начнём с построения Retention: соберём общее количество пользователей в период с 1 марта по 1 апреля 2021 года — мы изучаем активность за один месяц:
--общее количество юзеров в когорте
with cohort as (
select count(distinct id) as total_users_of_cohort
from users
where date(registration) between date '2021-03-01' and date '2021-03-30'
),
Теперь посмотрим, как ведут себя эти пользователи в последующие 90 дней:
--количество активных юзеров на 1ый день, 2ой, 3ий и тд. из когорты
active_users as (
select date_part('day', activity.date - users.registration) as activity_day,
count(distinct users.id) as active_users_of_day
from activity
join users on activity.user_id = users.id
where date(registration) between date '2021-03-01' and date '2021-03-30'
group by 1
having date_part('day', activity.date - users.registration) between 1 and 90 --берем только первые 90 дней, остальные дни предсказываем.
),
Кривая Retention — отношение количества активных пользователей к размеру когорты текущего дня. В нашем случае она выглядит так:

По данным кривой посчитаем параметры для линейной регрессии. regr_slope(x, y) — функция для вычисления наклона регрессии, regr_intercept(x, y) — функция для вычисления перехвата по оси Y. Эти функции являются стандартными агрегатными функциями в PostgreSQL и для известных X и Y по методу наименьших квадратов.
Вернёмся к нашей формуле — мы получили линейное уравнение, и хотим найти коэффициенты линейной регрессии. Перехват по оси Y и коэффициент наклона можем найти по дефолтным для PostgreSQL функциям. Получается:
Подробнее о том, как работают функции intercept(x, y) и slope(x, y) можно почитать в этом мануале


Из свойства натурального логарифма следует, что:

Наклон считаем аналогичным образом:

Эти же вычисления запишем в подзапрос для расчёта коэффициентов регрессии:
--рассчитываем коэффициенты регрессии
coef as (
select exp(regr_intercept(ln(activity), ln(activity_day))) as a,
regr_slope(ln(activity), ln(activity_day)) as b
from(
select activity_day,
active_users_of_day::real / total_users_of_cohort as activity
from active_users
cross join cohort order by activity_day
)
),
И получим прогноз на 180 дней, подставив параметры в степенную функцию, описанную ранее. Заодно посчитаем Lifetime — кумулятивную сумму спрогнозированных данных. В подзапросе coef мы получим только два числа — параметр наклона и перехвата. Чтобы эти параметры были доступны каждой строке подзапроса lt, делаем cross join к coef:
lt as(
select generate_series as activity_day,
active_users_of_day::real/total_users_of_cohort as real_data,
a*power(generate_series,b) as pred_data,
sum(a*power(generate_series,b)) over(order by generate_series) as cumulative_lt
from generate_series(1,180,1)
cross join coef
join active_users on generate_series = activity_day::int
),
Сравним прогноз на 180 дней с Retention:

Наконец, считаем сам LTV — Lifetime, умноженный на ARPDAU. В нашем случае ARPDAU равняется $83.7:
select cumulative_lt as LT,
cumulative_lt * 83.7 as LTV
from lt
Наконец, построим график LTV на 180 дней:

Весь запрос:
--общее количество юзеров в когорте
with cohort as (
select count(*) as total_users_of_cohort
from users
where date(registration) between date '2021-03-01' and date '2021-03-30'
),
--количество активных юзеров на 1ый день, 2ой, 3ий и тд. из когорты
active_users as (
select date_part('day', activity.date - users.registration) as activity_day,
count(distinct users.id) as active_users_of_day
from activity
join users on activity.user_id = users.id
where date(registration) between date '2021-03-01' and date '2021-03-30'
group by 1
having date_part('day', activity.date - users.registration) between 1 and 90 --берем только первые 90 дней, остальные дни предсказываем.
),
--рассчитываем коэффициенты регрессии
coef as (
select exp(regr_intercept(ln(activity), ln(activity_day))) as a,
regr_slope(ln(activity), ln(activity_day)) as b
from(
select activity_day,
active_users_of_day::real / total_users_of_cohort as activity
from active_users
cross join cohort order by activity_day
)
),
lt as(
select generate_series as activity_day,
active_users_of_day::real/total_users_of_cohort as real_data,
a*power(generate_series,b) as pred_data,
sum(a*power(generate_series,b)) over(order by generate_series) as cumulative_lt
from generate_series(1,180,1)
cross join coef
join active_users on generate_series = activity_day::int
),
select cumulative_lt as LT,
cumulative_lt * 83.7 as LTV
from lt