当前位置: 首页 > article >正文

大语言模型增强推荐系统:分类、趋势、应用与未来

论文地址:https://arxiv.org/pdf/2412.13432v1

1. 引言

大语言模型(LLM)在语言理解和推理方面展现出了前所未有的能力【3, 69, 87】。传统的推荐系统(RS)主要依赖于协同信号【2, 65, 66】,而通过LLM补充语义信息以增强RS的能力则显得非常有吸引力。因此,许多研究工作致力于填补自然语言与推荐之间的鸿沟,从而构建更强大的推荐系统。

尽管在将LLM应用于RS方面取得了一定的成功,但对话系统与推荐系统之间存在一个显著差异,即推理延迟。RS通常需要低延迟来处理大量请求,而像LLaMA-7B这样的LLM只能实现秒级的响应延迟【13】。然而,随着越来越多的研究关注于将LLM集成到在线系统中,特别是避免在推理过程中使用LLM,LLM增强推荐系统(LLMERS)领域正迅速发展。

2. LLM增强推荐系统的分类

根据LLM增强RS的组件,我们将现有的LLMERS方法分为三大类:知识增强交互增强模型增强。以下是对每个类别的详细分析。

LLM增强推荐系统的分类

2.1 知识增强

知识增强利用LLM的推理能力和世界知识,为用户或项目生成文本描述。这些描述作为额外的特征来补充推理和理解知识,从而应对传统RS面临的挑战1。

2.1.1 摘要文本

  • 用户侧和项目侧:例如,LANE【85】和LLM-BRec【22】通过构建提示来捕捉用户的多重偏好。ONCE【37】利用LLM作为新闻推荐的内容摘要器,而Yada等人【76】使用LLM生成类别描述以增强新闻内容。
  • 用户和项目:一些研究为用户和项目生成摘要文本以增强RS。KAR【71】是这一领域的先驱,它以文本形式获取用户的推理知识和项目的客观知识。

知识增强的图示

2.1.2 知识图谱

  • 生成:LLMRG【62】是第一个探索为RS生成知识图谱(KG)的。它通过LLM推导出可能的交互序列,并使用验证提示过滤掉不合逻辑的序列。
  • 补全与融合:LLMKERec【86】采用LLM来识别项目KG内的互补关系,从而增强实体关系。

2.1.3 组合

一些研究结合了摘要文本和知识图谱的优势。例如,KELLMRec【46】集成了KG来构建提示,以避免从LLM获取摘要文本时出现幻觉问题。

2.2 交互增强

为了解决传统推荐系统中的数据稀疏性问题,数据增强是一种直接的方法【27】,其目标是生成新的交互。增强的交互仅用于训练传统RS模型,因此不会带来额外的推理负担。

2.2.1 基于文本的

ONCE【37】是第一个使用LLM进行RS数据增强的研究。它提示LLM根据用户的历史记录推荐新闻。生成的新闻作为增强交互添加到数据集中。

2.2.2 基于评分的

LLM-InS【21】是这一类别的典型工作。它首先使用LLM推导出用户和项目的语义嵌入,然后通过计算它们之间的相似性来生成增强数据。

交互增强的图示

2.3 模型增强

除了数据级增强之外,LLM的强大能力和语义也可以直接注入到传统的推荐模型中。RS模型通常由两个主要部分组成,即嵌入层和隐藏层。前者通常捕捉项目之间的关系,而后者提取更复杂的用户偏好。

2.3.1 模型初始化

CTRL【30】和FLIP【59】是这一领域的代表。CTRL首先将LLM提取的语义表示和传统RS模型派生的协同表示视为两种不同的模态,并通过对比任务对齐这两种“模态”。

2.3.2 模型蒸馏

知识蒸馏(KD)是一种压缩技术【15】,它也有望将LLM的强大能力带到小型RS模型中。LEADER【41】是这一领域的先驱,它使用LLM最后一层的隐藏状态通过可训练的适配器来蒸馏RS模型。

2.3.3 嵌入利用

LLM-CF【53】是这一类别的典型例子。它首先设计了一种数据混合方法以微调LLM以获得推荐能力。然后,经过良好训练的LLM可以生成链式思维(CoT)推理以增强用户偏好。

2.3.4 嵌入指导

LLM4SBR【48】通过识别代表性项目来增强基于会话的推荐模型的短期和长期偏好。LLM-ESR【40】通过LLM嵌入检索相似用户以增强长尾用户。

模型增强的图示

3. 趋势

为了调查LLMERS的趋势,我们根据LLM的类型和语义对当前的研究工作进行了可视化。

LLM增强推荐系统的趋势

  • 从显式语义到隐式语义:早期的许多研究【71, 86】提示LLM推导出包含知识和语义的自然语言以进行增强。由于其可读性和可理解性,我们将其称为显式语义。相比之下,隐式语义集群意味着LLM用于增强的中介是非语言的,例如LLM的隐藏状态。
  • 开源LLM的普及:图中显示,越来越多的LLMERS研究工作倾向于使用开源LLM。一个原因是它可以节省调用API的费用。更重要的是,开源LLM可以微调以适应推荐任务【39】。
  • 模型增强的兴起:最近,模型增强受到了更多关注,因为它可以更好地与隐式语义和微调LLM结合。

4. 应用与资源

传统的推荐系统已被广泛应用于各种应用,如新闻推荐。尽管LLMERS也基于传统RS,但它通常需要丰富的辅助信息,特别是信息丰富的文本,以充分利用LLM的推理和理解能力。

4.1 应用

  • 电子商务:用户拥有许多配置文件特征,商品具有属性【40, 62】。
  • 新闻推荐:典型的应用是利用LLM来总结丰富的新闻文本【37】。

4.2 数据集

我们列出了根据应用可用的公共数据集及其访问链接,以促进进一步的研究。

特征应用数据集链接
特征电子商务Amazonhttps://bit.ly/4ibCNY1
Alibabahttps://bit.ly/4itdGjq
电影MovieLenshttps://bit.ly/3B6pV4J
Netflixhttps://bitly.is/3ZrfWyT
POIYelphttps://bit.ly/4gfqvfd
视频KuaiSARhttps://bit.ly/3Vv7TzY
文本新闻MINDhttps://bit.ly/3ZzU9Xq
书籍GoodReadshttps://bit.ly/4f3Vjio

5. 未来方向

  • 探索更多推荐任务:现有LLME工作主要集中在几个基本的推荐任务上,如协同过滤【53】和序列推荐【40】。因此,将它们在某些其他推荐任务上的成功复制也是很有前景的。
  • 多模态RS:由于更多多媒体服务的出现,多模态RS【38】最近变得越来越流行。然而,现有的多模态RS通常面临不同模态特征的提取和融合挑战。采纳多模态LLM【80】可能是增强现有多模态RS甚至消除提取和融合程序的一种可行方法。
  • 用户侧增强:许多LLMERS工作都集中在项目侧,但很少有用户侧的工作。原因是用户的交互历史通常以文本形式有序地组织。然而,这样的提示通常面临超长问题【14】。此外,文本交互通常对LLM来说难以理解。这个问题因此严重阻碍了用户侧的增强,需要加以解决。
  • 可解释性:可解释性是构建值得信赖的RS的一个重要方面。传统的RS通常在这方面有所欠缺,因为它们只采用无意义的身份。LLM通过从语义角度理解用户和项目来增强RS,这有望得出解释。
  • 基准:由于LLMERS是一个新兴的方向,因此该领域没有基准。因此,开发一个全面且可用的基准是一个迫切的需求,因为它可以促进新鲜研究人员为这一领域做出贡献,并加速这一方向的进展。

6. 结论

大语言模型增强推荐系统(LLMERS)因其有效性和实用性而备受关注。在本文中,我们总结了当前在该领域的研究工作。根据LLMERS所针对的传统RS组件,我们将论文分为知识、交互和模型增强三大类。此外,为了方便和激励研究人员,我们总结了可用的资源,并提出了几个未来方向。


希望这篇文章对你有所帮助!如果你有任何问题或需要进一步的解释,请随时告诉我。


http://www.kler.cn/a/512396.html

相关文章:

  • 3D Vision--计算点到平面的距离
  • vulnhub靶机(ReconForce)
  • STL--list(双向链表)
  • AI守护煤矿安全生产:基于视频智能的煤矿管理系统架构全解析
  • 口令攻击和钓鱼攻击
  • 在21世纪的我用C语言探寻世界本质——字符函数和字符串函数(2)
  • c# PDF文件合并工具
  • python milvus及curl命令进行query请求
  • Java工程结构:服务器规约(JVM 碰到 OOM 场景时输出 dump 信息、设置tomcat的 JVM 的内存参数、了解服务平均耗时)
  • STM32更新程序OTA
  • 为AI聊天工具添加一个知识系统 之54 为事务处理 设计 基于DDD的一个 AI操作系统 来处理维度
  • npm配置electron专属的淘宝镜像进行安装
  • 2、ansible的playbook
  • MongoDB文档查询
  • PyTorch使用教程(11)-cuda的使用方法
  • Skeleton 骨架屏
  • 【漫话机器学习系列】051.错误类型(Error Type)
  • kafka 学习笔记3-传统部署Kraft模式集群——筑梦之路
  • git 常见问题
  • MYSQL 5.7数据库,关于1067报错 invalid default value for,解决方法!
  • 微服务学习-快速搭建
  • c#实现当捕获异常时自动重启程序
  • 抖音小程序一键获取手机号
  • 博客搭建 — Algolia DocSearch 实现站点搜索
  • IS-IS 知识点回顾 | 数据包泛洪控制 | SRM SSN
  • 文本摘要研究:从统计方法到大型语言模型