当前位置：首页 > article >正文

某快餐店用户市场数据挖掘与可视化

article 2025/3/13 9:13:06

1、必要库的载入

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

2、加载并清洗数据

# 2.1 加载数据
df = pd.read_csv('/home/mw/input/survey6263/mcdonalds.csv')

# 2.2 数据清洗
# 2.2.1 检查缺失值
print('缺失值情况：')
print(df.isnull().sum())
# 2.2.2 处理异常值（年龄范围在18 - 100岁为合理范围）
df = df[(df['Age'] >= 18) & (df['Age'] <= 100)]

# 查看数据集行数和列数
rows, columns = df.shape

if rows < 100 and columns < 20:
    # 短表数据（行数少于100且列数少于20）查看全量数据信息
    print('数据全部内容信息：')
    print(df.to_csv(sep='\t', na_rep='nan'))
else:
    # 长表数据查看数据前几行信息
    print('数据前几行内容信息：')
    print(df.head().to_csv(sep='\t', na_rep='nan'))

在这里插入图片描述

3、可视化设置

# 3.1 设置图片清晰度
plt.rcParams['figure.dpi'] = 300
# 3.2 设置中文字体
plt.rcParams['font.sans-serif'] = ['WenQuanYi Zen Hei']
# 3.3 解决负号显示问题
plt.rcParams['axes.unicode_minus'] = False

4、顾客基础特征分析

4.1 顾客年龄分布和性别分布

import matplotlib.pyplot as plt
import seaborn as sns

# 年龄分布
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
sns.histplot(df['Age'], bins=20, kde=False)
plt.title('Age distribution')

# 性别分布
plt.subplot(1, 2, 2)
gender_counts = df['Gender'].value_counts()
sns.barplot(x=gender_counts.index, y=gender_counts.values)
plt.title('Gender distribution')

plt.tight_layout()
plt.show()

print('顾客年龄分布：')
print(df['Age'].describe())
print('\n顾客性别分布：')
print(df['Gender'].value_counts())

在这里插入图片描述

4.1.1 年龄分布

4.2 顾客光顾频率与年龄、性别的关系

plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
sns.boxplot(x='VisitFrequency', y='Age', data=df)
plt.title('Frequency VS Age')
plt.xticks(rotation=45)

plt.subplot(1, 2, 2)
sns.countplot(x='VisitFrequency', hue='Gender', data=df)
plt.title('Frequency VS Gender')
plt.xticks(rotation=45)

plt.tight_layout()
plt.show()

print('光顾频率与年龄的关系：')
print(df.groupby('VisitFrequency')['Age'].describe())
print('\n光顾频率与性别的关系：')
print(pd.crosstab(df['VisitFrequency'], df['Gender']))

在这里插入图片描述

4.2.1 光顾频率与年龄的关系

4.3 顾客对某快餐店各方面评价的分布

# 提取评价列
evaluation_columns = ['yummy', 'convenient', 'spicy', 'fattening', 'greasy', 'fast', 'cheap', 'tasty', 'expensive', 'healthy', 'disgusting']

# 创建画布
plt.figure(figsize=(15, 10))

# 绘制每个评价的分布柱状图
for i, column in enumerate(evaluation_columns):
    plt.subplot(3, 4, i + 1)
    value_counts = df[column].value_counts()
    sns.barplot(x=value_counts.index, y=value_counts.values)
    plt.title(f'{column} distribution')

plt.tight_layout()
plt.show()

# 查看每个评价的分布情况
for column in evaluation_columns:
    print(f'{column}评价分布：')
    print(df[column].value_counts())

在这里插入图片描述

4.4 顾客喜好与各评价之间的相关性

import re

# 使用正则表达式提取 Like 列中的数字部分并转换为数值型
df['Like'] = df['Like'].apply(lambda x: int(re.findall(r'\d+', x)[0]))

# 将评价列进行编码
for column in evaluation_columns:
    df[column] = df[column].map({'Yes': 1, 'No': 0})

# 计算相关系数矩阵
correlation_matrix = df[evaluation_columns + ['Like']].corr()

# 绘制热力图
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', vmin=-1, vmax=1)
plt.title('Customer preferences VS Reviews')
plt.show()

print('顾客喜好与各评价之间的相关系数矩阵：')
print(correlation_matrix.round(2))

在这里插入图片描述

5、顾客口味偏好分析

import matplotlib.pyplot as plt

# 统计口味相关特征的分布（选取 spicy, yummy, tasty, greasy 作为口味相关特征）
taste_features = ['spicy', 'yummy', 'tasty', 'greasy']
fig, axes = plt.subplots(2, 2, figsize=(12, 8))
axes = axes.ravel()

for i, feature in enumerate(taste_features):
    value_counts = df[feature].value_counts()
    axes[i].pie(value_counts, labels=value_counts.index, autopct='%1.1f%%', startangle=90)
    axes[i].set_title(f'{feature} distribution')

plt.tight_layout()
plt.show()

# 查看具体比例
for feature in taste_features:
    print(df[feature].value_counts(normalize=True))

在这里插入图片描述

6、价格敏感性分析

# 统计认为便宜和昂贵的比例
cheap_counts = df['cheap'].value_counts(normalize=True)
expensive_counts = df['expensive'].value_counts(normalize=True)

# 绘制柱状图
fig, axes = plt.subplots(1, 2, figsize=(10, 5))

axes[0].bar(cheap_counts.index, cheap_counts)
axes[0].set_title('Thinking cheap')
axes[0].set_xlabel('cheap or not')
axes[0].set_ylabel('scale')

axes[1].bar(expensive_counts.index, expensive_counts)
axes[1].set_title('Thinking expensive')
axes[1].set_xlabel('expensive or not')
axes[1].set_ylabel('scale')

plt.tight_layout()
plt.show()

print("认为便宜的比例：")
print(cheap_counts)
print("认为昂贵的比例：")
print(expensive_counts)

在这里插入图片描述

7、消费频率预测

from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# 对 object 类型数据进行编码
label_encoders = {}
for column in df.columns:
    if df[column].dtype == 'object':
        le = LabelEncoder()
        df[column] = le.fit_transform(df[column])
        label_encoders[column] = le

# 准备特征和目标变量
X = df.drop(['VisitFrequency', 'Index'], axis=1)
y = df['VisitFrequency']

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report

# 定义不同的模型
models = {
    'Logistic Regression': LogisticRegression(max_iter=1000),
    'Decision Tree': DecisionTreeClassifier(),
    'Random Forest': RandomForestClassifier(),
    'Support Vector Machine': SVC()
}

# 训练和评估每个模型
for name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    print(f'{name} 准确率: {accuracy:.4f}')
    print(f'{name} 分类报告:\n', classification_report(y_test, y_pred))
    print('-' * 50)

在这里插入图片描述

8、顾客画像分类

8.1 确定最佳簇数

from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

# 尝试不同的簇数
silhouette_scores = []
for k in range(2, 11):
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(X)
    labels = kmeans.labels_
    score = silhouette_score(X, labels)
    silhouette_scores.append((k, score))

# 找到最高轮廓系数对应的簇数
best_k, _ = max(silhouette_scores, key=lambda x: x[1])
print(f'最佳簇数: {best_k}')

在这里插入图片描述

8.2 不同簇的特征分析

# 使用最佳簇数进行 KMeans 聚类
kmeans = KMeans(n_clusters=best_k, random_state=42)
df['Cluster'] = kmeans.fit_predict(X)

# 分析不同簇的特征（以年龄和喜欢程度为例）
cluster_analysis = df.groupby('Cluster').agg({
    'Age': 'mean',
    'Like': 'mean'
}).reset_index()

print(cluster_analysis)

在这里插入图片描述
从年龄均值来看，簇 0 的顾客相对年轻，平均年龄约为 31 岁，而簇 1 的顾客平均年龄约为 56 岁，两者存在明显的年龄差异。在喜欢程度方面，两个簇的均值都比较高且较为接近，不过簇 1 的喜欢程度均值略高于簇 0，这可能暗示年龄较大的顾客对相关事物的喜欢程度稍高一些，但差异并不是非常显著。

8.3 不同簇的年龄和喜欢程度分布可视化

# 绘制不同簇的年龄和喜欢程度分布
plt.scatter(df['Age'], df['Like'], c=df['Cluster'])
plt.xlabel('Age')
plt.xticks(rotation=45)
plt.ylabel('Liking degree')
plt.title('Age VS liking of different clusters')
plt.show()

在这里插入图片描述

# 若需要完整数据集以及代码请点击以下链接
# https://mbd.pub/o/bread/mbd-aJaUlJpt

查看全文

http://www.kler.cn/a/582548.html

c++ enum使用笔记

RocketMQ 集群架构与部署实践（一）

Flutter_学习记录_device_info_plus 插件获取设备信息

Java糊涂包（Hutool）的安装教程并进行网络爬虫

FreeBSD下安装npm Node.js的22版本并简单测试js服务器

【Golang】第三弹----运算符

Python多版本环境管理UV

Linux上位机开发实战（qt编译之谜）

Spring 框架面试题集：常见问题解析

mysql安装与使用

2024年广州市智能网联汽车创新实践年度报告

文件上传漏洞 upload-labs靶场

upload-labs-靶场（1-19关）通关攻略

一次解决Andriod Studio Build Gradle很慢或报错下载失败等问题

蓝桥杯第二天：2023省赛C 1题分糖果

数字电子技术基础（二十七）——输入端电阻的负载特性

微商模式的演进与开源链动2+1模式、AI智能名片及S2B2C商城小程序源码的应用探索

游戏开发商 Nimblebites 携 Super-B 在 Sui 上推动游戏创新

蓝桥杯备考：数据结构堆之序列合并

【Pandas】pandas Series shift

1、必要库的载入

2、加载并清洗数据

3、可视化设置

4、顾客基础特征分析

4.1 顾客年龄分布和性别分布

4.1.1 年龄分布

4.2 顾客光顾频率与年龄、性别的关系

4.2.1 光顾频率与年龄的关系

4.3 顾客对某快餐店各方面评价的分布

4.4 顾客喜好与各评价之间的相关性

5、顾客口味偏好分析

6、价格敏感性分析

7、消费频率预测

8、顾客画像分类

8.1 确定最佳簇数

8.2 不同簇的特征分析

8.3 不同簇的年龄和喜欢程度分布可视化

相关文章：