当前位置: 首页 > article >正文

【机器学习案列】基于朴素贝叶斯的垃圾短信分类

🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者,提供AI相关的技术咨询、项目开发和个性化解决方案等服务,如有需要请站内私信或者联系任意文章底部的的VX名片(ID:xf982831907

💬 博主粉丝群介绍:① 群内初中生、高中生、本科生、研究生、博士生遍布,可互相学习,交流困惑。② 热榜top10的常客也在群里,也有数不清的万粉大佬,可以交流写作技巧,上榜经验,涨粉秘籍。③ 群内也有职场精英,大厂大佬,可交流技术、面试、找工作的经验。④ 进群免费赠送写作秘籍一份,助你由写作小白晋升为创作大佬。⑤ 进群赠送CSDN评论防封脚本,送真活跃粉丝,助你提升文章热度。有兴趣的加文末联系方式,备注自己的CSDN昵称,拉你进群,互相学习共同进步。

在这里插入图片描述

【机器学习案列】基于朴素贝叶斯的垃圾短信分类

  • 一、引言
  • 二、 准备工作
  • 三、 数据准备
    • 3.1 导入需要的库
    • 3.2 下载nltk数据包
    • 3.3 读取数据
    • 3.4 修改训练标签
    • 3.5 清洗数据
    • 3.6 特征转化并生成数据集
  • 四、训练模型
  • 五、模型评估
  • 六、完整代码
  • 总结

一、引言

  在现代社会中,垃圾短信已经成为一个普遍的问题。为了有效地过滤这些垃圾短信,我们可以使用机器学习技术。朴素贝叶斯分类器是一种简单而有效的分类算法,特别适合处理文本分类问题,如垃圾邮件检测。本文将介绍如何使用Python和朴素贝叶斯分类器来检测垃圾短信。

二、 准备工作

在开始之前,你需要确保安装了以下Python库:

  • pandas:用于数据处理。
  • scikit-learn:包含朴素贝叶斯分类器。
  • nltk:用于文本处理。

你可以使用以下命令安装这些库:

pip install pandas scikit-learn nltk

三、 数据准备

为了训练朴素贝叶斯分类器,我们需要一个包含短信内容和标签(垃圾或正常)的数据集。这里我们假设你有一个CSV文件,名为SMSSpamCollection,包含两列:message(短信内容)和label(标签,0表示正常短信,1表示垃圾短信)。

在训练模型之前,我们需要对数据进行预处理,包括分词、去除停用词等。

3.1 导入需要的库

import pandas as pd
import nltk
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

3.2 下载nltk数据包

# 下载nltk数据包(只需运行一次)
nltk.download('punkt')
nltk.download('stopwords')

3.3 读取数据

# 读取数据
df = pd.read_csv('SMSSpamCollection', sep = '\t', names=['label', 'message'])

# 查看数据的前几行
print(df.head())

3.4 修改训练标签

df['label'] = df.label.map({'ham':0, 'spam':1})

3.5 清洗数据

# 分词函数
def preprocess_text(text):
    words = nltk.word_tokenize(text.lower())  # 将文本转换为小写并分词
    words = [word for word in words if word.isalnum()]  # 去除标点符号
    words = [word for word in words if word not in stopwords.words('english')]  # 去除停用词
    return ' '.join(words)

# 对短信内容进行预处理
df['processed_message'] = df['message'].apply(preprocess_text)

3.6 特征转化并生成数据集

# 特征和标签
X = df['processed_message']
y = df['label']

# 将文本转换为特征向量
vectorizer = CountVectorizer()
X_transformed = vectorizer.fit_transform(X)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X_transformed, y, test_size=0.2, random_state=42)

四、训练模型

使用朴素贝叶斯分类器进行训练。

# 创建并训练朴素贝叶斯分类器
model = MultinomialNB()
model.fit(X_train, y_train)

五、模型评估

使用测试集评估模型性能。

# 在测试集上进行预测
y_pred = model.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')

# 打印分类报告
print(classification_report(y_test, y_pred, target_names=['Ham', 'Spam']))

六、完整代码

以下是完整的代码示例:

import pandas as pd
import nltk
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

# 下载nltk数据包(只需运行一次)
nltk.download('punkt')
nltk.download('stopwords')

# 读取数据
df = pd.read_csv('SMSSpamCollection', sep = '\t', names=['label', 'message'])

df['label'] = df.label.map({'ham':0, 'spam':1})

# 分词函数
def preprocess_text(text):
    words = nltk.word_tokenize(text.lower())  # 将文本转换为小写并分词
    words = [word for word in words if word.isalnum()]  # 去除标点符号
    words = [word for word in words if word not in stopwords.words('english')]  # 去除停用词
    return ' '.join(words)

# 对短信内容进行预处理
df['processed_message'] = df['message'].apply(preprocess_text)

# 特征和标签
X = df['processed_message']
y = df['label']

# 将文本转换为特征向量
vectorizer = CountVectorizer()
X_transformed = vectorizer.fit_transform(X)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X_transformed, y, test_size=0.2, random_state=42)

# 创建并训练朴素贝叶斯分类器
model = MultinomialNB()
model.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = model.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')

# 打印分类报告
print(classification_report(y_test, y_pred, target_names=['Ham', 'Spam']))

总结

朴素贝叶斯优点

  • 可以处理特征数量巨大的情况
  • 不易过拟合
  • 训练时间短
    朴素贝叶斯缺点
  • 朴素贝叶斯假设所有特征都是独立的,某些情况下可能会出现问题
  • 需要足够多的数据才能获得特征比较准确的概率分布

通过上述步骤,我们成功地使用朴素贝叶斯分类器来检测垃圾短信。尽管朴素贝叶斯分类器相对简单,但在许多文本分类任务中表现良好。你可以尝试使用其他特征提取方法和分类算法来进一步提高模型的性能。


http://www.kler.cn/a/503443.html

相关文章:

  • E12.【C语言】练习:求两个数的最大公约数
  • 如何将原来使用cmakelist编译的qt工程转换为可使用Visual Studio编译的项目
  • WPF 如何添加系统托盘
  • 在 Ubuntu 上安装和配置 Redis
  • LeetCode 2270: 分割数组的方案数
  • Spring bean的生命周期和扩展
  • 55_OpenResty开发入门
  • boot文件与main文件(esp32)
  • 3Hive数据抽样
  • 网络安全基础以及概念
  • unity学习17:unity里的旋转学习,欧拉角,四元数等
  • 登录、注册、忘记密码、首页HTML模板
  • 【Linux】9.Linux第一个小程序进度条
  • Ubuntu安装K8S
  • 【Uniapp-Vue3】组件中emit的声明触发事件
  • 华为数通-访问控制列表
  • 网络安全的几种攻击方法
  • 【数据仓库】— 5分钟浅谈数据仓库(适合新手)从理论到实践
  • IOday6互斥和同步
  • 《拉依达的嵌入式\驱动面试宝典》—操作系统篇(七)
  • 完全二叉树的顺序存储【堆】
  • [c#] 度分秒和度的转换
  • 轨迹优化 | 基于贝塞尔曲线的无约束路径平滑与粗轨迹生成(附ROS C++/Python仿真)
  • 嵌入式系统中的 OpenCV 与 OpenGLES 协同应用
  • 【C】初阶数据结构3 -- 单链表
  • maven高级(day15)