当前位置: 首页 > article >正文

LTV预估 | 大R挖掘器ExpLTV

😄 说到大R用户挖掘,那不得不提ExpLTV,它可是一把pltv利器。

文章目录

  • 1 精简总结
  • 2 背景&挑战
  • 3 方法
  • 4 实验:
  • 5 思考:

✅【CIKM-2023 腾讯 ExpLTV】《Out of the Box Thinking: Improving Customer Lifetime Value Modelling via Expert Routing and Game Whale Detection》
论文链接: https://arxiv.org/pdf/2308.12729

1 精简总结

结合ltv预估任务与大R识别任务。内含专家多任务框架,大R识别作为门控网络分配不同用户进入恰当的学习模式。缓解了Sample Selection Bias (SSB) and Data Sparsity (DS)问题(不直接建模判断一个付费用户是否是大R,而是在全部用户(包含非付费)的空间内做预测,在全域空间内对用户进行训练和预测,确保训练空间与预测空间一致),从游戏用户“转化-付费-大R”的时序行为出发,通过辅助任务和中间变量完成大R识别任务。

2 背景&挑战

鲸鱼用户(Game Whale,大R用户):具有高消费能力的用户。以游戏为例,用户的消费情况基本符合二八定律,即20%的大R用户提供了80%的成交收益。该论文发现大R用户和普通用户的分布是存在明显差异的。

  • 大R数量非常稀疏,大部分游戏的大R数量占比不到1%。
  • 大R消费金额大,与普通付费用户分布有差异。
    在这里插入图片描述

3 方法

在这里插入图片描述

【Game Whale Detector】
为缓解了Sample Selection Bias (SSB) and Data Sparsity (DS) 问题(SSB:不直接建模判断一个付费用户是否是大R,而是在全部用户(包含非付费)的空间内做预测,在全域空间内对用户进行训练和预测,确保训练空间与预测空间一致(类似ESMM的思路)。DS:大R用户远比普通用户稀疏),从游戏用户“转化-付费-大R”的时序行为出发,通过辅助任务和中间变量完成大R识别任务。

1、付费且是大R概率(Su=1为付费,gu=1为大R):
在这里插入图片描述

注:这里没有直接通过阈值R将用户分为高价值用户和低价值用户,因为如果直接这么分,我们只能知道这个用户是高价值用户的概率有多大,但是无法和ltv结合起来,而上述的方式,用户的ltv (i.e. label) 越大,大R概率就越大,所以作者把这个任务做成了回归任务。

2、付费条件下为大R的概率(大R网络的输出pgw, pngw):
在这里插入图片描述

3、付费概率:
在这里插入图片描述

4、付费且是大R概率,可通过贝叶斯公式转换为:付费概率*条件概率
在这里插入图片描述

5、非大R概率,等价:无付费概率+付费但不是大R的概率
在这里插入图片描述

大R检测网络的loss如下:

  • 第一项:交叉熵loss。预测用户是否付费。
  • 第二项:KL散度loss。约束GWD的预测分布与真实数据分布的差异。其中,y为[pgwptr, pngwptr]的拼接(上述1),p为[pgwptr, p^ngwptr]的拼接(上述4、5)。
    在这里插入图片描述

【LTV Predictor】
ltv预测部分和ZILN类似。不同点在于,网络分为了大R专家网络(输出:μ0和 σ0)和普通专家网络(输出:μ1和 σ1),然后利用GWD网络输出的大R概率和非大R概率进行点乘,得到聚合的μ和 σ,以此进行pltv的计算。【注:此处包含了是否付费的分类loss,上面GWD的loss也包含了是否付费的分类loss】
在这里插入图片描述
在这里插入图片描述

最终的损失为两者相加:
在这里插入图片描述

注:论文对GAMEA设置𝜆=15,GAMEB、GAMEC设置𝜆=10。

4 实验:

在三款腾讯手游上实验(ltv7),auc、gini、recall@topk优于其他模型。
在这里插入图片描述
在这里插入图片描述

5 思考:

pltv更多是需要结合不同的业务场景,不同的业务场景的数据分布会存在自身的一些特性,翻阅了一些文章,并没有发现统一的benchmark,大多数都是基于自身场景存在的问题提出对应的解决方法,可见ltv是具有较强场景属性的问题,不同的方法只能参考。


http://www.kler.cn/a/523943.html

相关文章:

  • 【每日一A】2015NOIP真题 (二分+贪心) python
  • 团体程序设计天梯赛-练习集——L1-022 奇偶分家
  • C语言初阶力扣刷题——349. 两个数组的交集【难度:简单】
  • 构建 QA 系统:基于文档和模型的问答
  • (开源)基于Django+Yolov8+Tensorflow的智能鸟类识别平台
  • 相互作用感知的蛋白-小分子对接模型 - Interformer 评测
  • LeetCode-3433. 统计用户被提及情况
  • OpenBMC:简介
  • Controller 层优化四步曲
  • 探索现代前端微前端架构的最佳实践
  • MySQL知识点总结(十)
  • 2748. 美丽下标对的数目(Beautiful Pairs)
  • 【Python】 使用pygame库实现新年烟花
  • 支持selenium的chrome driver更新到132.0.6834.110
  • 彻底理解Flink的多种部署方式
  • 人工智能丨基于机器学习的视觉 CV 处理技术
  • 开发第一个安卓页面
  • 长尾关键词优化对提升SEO和网站访客流量的实用影响与策略
  • C语言深入解析 printf的底层源码实现
  • 【前端】Hexo 部署指南_hexo-deploy-git·GitHub Actions·Git Hooks
  • 接口 V2 完善:分布式环境下的 WebSocket 实现与 Token 校验
  • docker desktop使用ollama在GPU上运行deepseek r1大模型
  • ACL-2024 | 具身智能空间理解能力几何?EmbSpatial-Bench:视觉语言大模型在具身任务中空间理解水平测试基准
  • 如何获取svg图标中的路径 (漫反射图标效果实现)
  • 算法随笔_29:最大宽度坡_方法3
  • 澳洲硕士毕业论文写作中如何把握主题