当前位置：首页 > article >正文

2.协同过滤算法

article 2025/2/12 5:23:50

接下来我们将深入探讨协同过滤算法的实现与优化。我们将从以下几个方面展开：

用户-用户协同过滤的实现
项目-项目协同过滤的实现
数据稀疏性问题的处理
推荐系统的评价指标

1. 用户-用户协同过滤的实现

用户-用户协同过滤的核心思想是通过找到与目标用户兴趣相似的其他用户，来推荐这些相似用户喜欢的项目。我们可以使用相似度度量（如余弦相似度、皮尔逊相关系数）来找到相似用户。

实现步骤：

计算用户之间的相似度：
- 使用余弦相似度或皮尔逊相关系数计算用户之间的相似度。
找到相似用户：
- 根据相似度，找到与目标用户最相似的K个用户。
进行评分预测：
- 根据相似用户的评分来预测目标用户对未评分项目的评分。

示例代码：

import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# 用户-项目评分矩阵（示例）
ratings = np.array([
    [5, 3, 4, 0],
    [4, 2, 3, 5],
    [1, 5, 2, 4],
    [2, 4, 3, 3]
])

# 计算用户之间的余弦相似度
user_similarity = cosine_similarity(ratings)

# 找到与目标用户（用户1）最相似的K个用户
K = 2
target_user = 0
similar_users = np.argsort(user_similarity[target_user])[-K-1:-1]

# 进行评分预测
def predict_rating(user, item):
    similar_ratings = ratings[similar_users, item]
    similar_similarities = user_similarity[target_user, similar_users]
    return np.dot(similar_ratings, similar_similarities) / np.sum(similar_similarities)

# 预测用户1对项目D的评分
predicted_rating = predict_rating(target_user, 3)
print(f"Predicted rating for user {target_user+1} on item D: {predicted_rating}")

2. 项目-项目协同过滤的实现

项目-项目协同过滤通过找到与目标项目相似的其他项目，来推荐这些相似项目给用户。

实现步骤：

计算项目之间的相似度：
- 使用余弦相似度或皮尔逊相关系数计算项目之间的相似度。
找到相似项目：
- 根据相似度，找到与目标项目最相似的K个项目。
进行评分预测：
- 根据用户对相似项目的评分来预测用户对目标项目的评分。

示例代码：

# 计算项目之间的余弦相似度
item_similarity = cosine_similarity(ratings.T)

# 找到与目标项目（项目D）最相似的K个项目
K = 2
target_item = 3
similar_items = np.argsort(item_similarity[target_item])[-K-1:-1]

# 进行评分预测
def predict_item_rating(user, item):
    similar_ratings = ratings[user, similar_items]
    similar_similarities = item_similarity[target_item, similar_items]
    return np.dot(similar_ratings, similar_similarities) / np.sum(similar_similarities)

# 预测用户1对项目D的评分
predicted_item_rating = predict_item_rating(target_user, target_item)
print(f"Predicted rating for user {target_user+1} on item D: {predicted_item_rating}")

3. 数据稀疏性问题的处理

在实际应用中，用户-项目评分矩阵通常非常稀疏，即大部分项目没有评分。这会导致相似度计算和评分预测不准确。以下是一些处理数据稀疏性问题的方法：

矩阵分解：
- 使用矩阵分解技术（如SVD、NMF）将用户-项目评分矩阵分解为低维矩阵，从而填补缺失值。
填充缺失值：
- 使用平均值、KNN等方法填充缺失的评分值。
降维：
- 使用PCA等降维技术减少数据的维度，从而缓解数据稀疏性问题。

4. 推荐系统的评价指标

推荐系统的效果评价是一个重要环节，常用的评价指标包括：

准确率（Precision）：
- 推荐结果中相关项目的比例。
召回率（Recall）：
- 所有相关项目中被推荐出来的比例。
F1分数（F1 Score）：
- 准确率和召回率的调和平均数。
均方根误差（RMSE）：
- 预测评分与实际评分之间的均方根误差。
平均绝对误差（MAE）：
- 预测评分与实际评分之间的平均绝对误差。

示例代码：

from sklearn.metrics import mean_squared_error, mean_absolute_error

# 实际评分和预测评分（示例）
actual_ratings = np.array([5, 3, 4, 0])
predicted_ratings = np.array([4.8, 3.2, 3.9, 4.5])

# 计算RMSE和MAE
rmse = np.sqrt(mean_squared_error(actual_ratings, predicted_ratings))
mae = mean_absolute_error(actual_ratings, predicted_ratings)

print(f"RMSE: {rmse}")
print(f"MAE: {mae}")