当前位置：首页 > article >正文

【机器学习案列】基于朴素贝叶斯的垃圾短信分类

article 2025/3/1 13:43:27

🧑 博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）

💬 博主粉丝群介绍：① 群内初中生、高中生、本科生、研究生、博士生遍布，可互相学习，交流困惑。② 热榜top10的常客也在群里，也有数不清的万粉大佬，可以交流写作技巧，上榜经验，涨粉秘籍。③ 群内也有职场精英，大厂大佬，可交流技术、面试、找工作的经验。④ 进群免费赠送写作秘籍一份，助你由写作小白晋升为创作大佬。⑤ 进群赠送CSDN评论防封脚本，送真活跃粉丝，助你提升文章热度。有兴趣的加文末联系方式，备注自己的CSDN昵称，拉你进群，互相学习共同进步。

在这里插入图片描述

【机器学习案列】基于朴素贝叶斯的垃圾短信分类

一、引言
二、准备工作
三、数据准备
- 3.1 导入需要的库
- 3.2 下载nltk数据包
- 3.3 读取数据
- 3.4 修改训练标签
- 3.5 清洗数据
- 3.6 特征转化并生成数据集
四、训练模型
五、模型评估
六、完整代码
总结

一、引言

在现代社会中，垃圾短信已经成为一个普遍的问题。为了有效地过滤这些垃圾短信，我们可以使用机器学习技术。朴素贝叶斯分类器是一种简单而有效的分类算法，特别适合处理文本分类问题，如垃圾邮件检测。本文将介绍如何使用Python和朴素贝叶斯分类器来检测垃圾短信。

二、准备工作

在开始之前，你需要确保安装了以下Python库：

pandas：用于数据处理。
scikit-learn：包含朴素贝叶斯分类器。
nltk：用于文本处理。

你可以使用以下命令安装这些库：

pip install pandas scikit-learn nltk

三、数据准备

为了训练朴素贝叶斯分类器，我们需要一个包含短信内容和标签（垃圾或正常）的数据集。这里我们假设你有一个CSV文件，名为SMSSpamCollection，包含两列：message（短信内容）和label（标签，0表示正常短信，1表示垃圾短信）。

在训练模型之前，我们需要对数据进行预处理，包括分词、去除停用词等。

3.1 导入需要的库

import pandas as pd
import nltk
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

3.2 下载nltk数据包

# 下载nltk数据包（只需运行一次）
nltk.download('punkt')
nltk.download('stopwords')

3.3 读取数据

# 读取数据
df = pd.read_csv('SMSSpamCollection', sep = '\t', names=['label', 'message'])

# 查看数据的前几行
print(df.head())

3.4 修改训练标签

df['label'] = df.label.map({'ham':0, 'spam':1})

3.5 清洗数据

# 分词函数
def preprocess_text(text):
    words = nltk.word_tokenize(text.lower())  # 将文本转换为小写并分词
    words = [word for word in words if word.isalnum()]  # 去除标点符号
    words = [word for word in words if word not in stopwords.words('english')]  # 去除停用词
    return ' '.join(words)

# 对短信内容进行预处理
df['processed_message'] = df['message'].apply(preprocess_text)

3.6 特征转化并生成数据集

# 特征和标签
X = df['processed_message']
y = df['label']

# 将文本转换为特征向量
vectorizer = CountVectorizer()
X_transformed = vectorizer.fit_transform(X)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X_transformed, y, test_size=0.2, random_state=42)

四、训练模型

使用朴素贝叶斯分类器进行训练。

# 创建并训练朴素贝叶斯分类器
model = MultinomialNB()
model.fit(X_train, y_train)

五、模型评估

使用测试集评估模型性能。

# 在测试集上进行预测
y_pred = model.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')

# 打印分类报告
print(classification_report(y_test, y_pred, target_names=['Ham', 'Spam']))

六、完整代码

以下是完整的代码示例：

import pandas as pd
import nltk
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

# 下载nltk数据包（只需运行一次）
nltk.download('punkt')
nltk.download('stopwords')

# 读取数据
df = pd.read_csv('SMSSpamCollection', sep = '\t', names=['label', 'message'])

df['label'] = df.label.map({'ham':0, 'spam':1})

# 分词函数
def preprocess_text(text):
    words = nltk.word_tokenize(text.lower())  # 将文本转换为小写并分词
    words = [word for word in words if word.isalnum()]  # 去除标点符号
    words = [word for word in words if word not in stopwords.words('english')]  # 去除停用词
    return ' '.join(words)

# 对短信内容进行预处理
df['processed_message'] = df['message'].apply(preprocess_text)

# 特征和标签
X = df['processed_message']
y = df['label']

# 将文本转换为特征向量
vectorizer = CountVectorizer()
X_transformed = vectorizer.fit_transform(X)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X_transformed, y, test_size=0.2, random_state=42)

# 创建并训练朴素贝叶斯分类器
model = MultinomialNB()
model.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = model.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')

# 打印分类报告
print(classification_report(y_test, y_pred, target_names=['Ham', 'Spam']))