当前位置：首页 > article >正文

LTV预估 | 大R挖掘器ExpLTV

article 2025/1/30 23:03:35

😄 说到大R用户挖掘，那不得不提ExpLTV，它可是一把pltv利器。

文章目录

1 精简总结
2 背景&挑战
3 方法
4 实验：
5 思考：

✅【CIKM-2023 腾讯 ExpLTV】《Out of the Box Thinking: Improving Customer Lifetime Value Modelling via Expert Routing and Game Whale Detection》
论文链接： https://arxiv.org/pdf/2308.12729

1 精简总结

结合ltv预估任务与大R识别任务。内含专家多任务框架，大R识别作为门控网络分配不同用户进入恰当的学习模式。缓解了Sample Selection Bias (SSB) and Data Sparsity (DS)问题（不直接建模判断一个付费用户是否是大R，而是在全部用户（包含非付费）的空间内做预测，在全域空间内对用户进行训练和预测，确保训练空间与预测空间一致），从游戏用户“转化-付费-大R”的时序行为出发，通过辅助任务和中间变量完成大R识别任务。

2 背景&挑战

鲸鱼用户（Game Whale，大R用户）：具有高消费能力的用户。以游戏为例，用户的消费情况基本符合二八定律，即20%的大R用户提供了80%的成交收益。该论文发现大R用户和普通用户的分布是存在明显差异的。

大R数量非常稀疏，大部分游戏的大R数量占比不到1%。
大R消费金额大，与普通付费用户分布有差异。

3 方法

在这里插入图片描述

【Game Whale Detector】
为缓解了Sample Selection Bias (SSB) and Data Sparsity (DS) 问题（SSB：不直接建模判断一个付费用户是否是大R，而是在全部用户（包含非付费）的空间内做预测，在全域空间内对用户进行训练和预测，确保训练空间与预测空间一致（类似ESMM的思路）。DS：大R用户远比普通用户稀疏），从游戏用户“转化-付费-大R”的时序行为出发，通过辅助任务和中间变量完成大R识别任务。

1、付费且是大R概率（Su=1为付费，gu=1为大R）：
在这里插入图片描述

注：这里没有直接通过阈值R将用户分为高价值用户和低价值用户，因为如果直接这么分，我们只能知道这个用户是高价值用户的概率有多大，但是无法和ltv结合起来，而上述的方式，用户的ltv (i.e. label) 越大，大R概率就越大，所以作者把这个任务做成了回归任务。

2、付费条件下为大R的概率（大R网络的输出pgw, pngw）：
在这里插入图片描述

3、付费概率：
在这里插入图片描述

4、付费且是大R概率，可通过贝叶斯公式转换为：付费概率*条件概率
在这里插入图片描述

5、非大R概率，等价：无付费概率+付费但不是大R的概率
在这里插入图片描述

大R检测网络的loss如下：

第一项：交叉熵loss。预测用户是否付费。
第二项：KL散度loss。约束GWD的预测分布与真实数据分布的差异。其中，y为[pgwptr, pngwptr]的拼接（上述1），p^为[pgwptr, p^ngwptr]的拼接（上述4、5）。

【LTV Predictor】
ltv预测部分和ZILN类似。不同点在于，网络分为了大R专家网络（输出：μ0和 σ0）和普通专家网络（输出：μ1和 σ1），然后利用GWD网络输出的大R概率和非大R概率进行点乘，得到聚合的μ和 σ，以此进行pltv的计算。【注：此处包含了是否付费的分类loss，上面GWD的loss也包含了是否付费的分类loss】
在这里插入图片描述