当前位置：首页 > article >正文

【文献阅读】SPRec：用自我博弈打破大语言模型推荐的“同质化”困境

article 2025/3/14 18:05:08

📜研究背景

在如今的信息洪流中，推荐系统已经成为了我们生活中的“贴心小助手”，无论是看电影、听音乐还是购物，推荐系统都在努力为我们提供个性化的内容。但这些看似贴心的推荐背后，其实隐藏着一个严重的问题——同质化。🔥

大语言模型（LLM）在推荐系统中的应用越来越广泛，它们通过学习用户的历史行为和偏好来生成推荐内容。然而，现有的方法如监督微调（SFT）和直接偏好优化（DPO），虽然能够提升推荐的准确性，但却会不自觉地偏向于热门项目，导致推荐结果变得单一化，甚至让用户陷入“过滤气泡”中，只能看到那些被广泛推荐的内容。👇

🔗相关工作

在LLM推荐系统的研究中，已经有多种方法被提出。早期的研究主要集中在如何将LLM作为推荐的核心，通过SFT让模型学习用户的历史行为。后来，DPO被引入来进一步优化用户偏好。但这些方法都有一个共同的缺点——它们会加剧推荐结果的**“同质化”**问题。🚫

🎯SPRec方法介绍

这篇论文提出了一个全新的框架——SPRec（Self-Play to Debias LLM-based Recommendation），它的核心思想是通过自我博弈（Self-Play）机制来打破这种同质化的困境。🚀

SPRec的框架非常巧妙，它包含两个主要步骤：

监督微调（SFT）：首先使用正样本（用户实际交互过的项目）来训练模型，让模型学习用户的偏好。
直接偏好优化（DPO）：然后，将SFT阶段的正样本作为正样本，将模型上一次迭代的预测结果作为负样本，重新训练模型。这样做的目的是让模型在学习用户偏好时，能够动态地抑制那些过于热门的项目，从而增加推荐的多样性和公平性。💡