当前位置: 首页 > article >正文

使用朴素贝叶斯对自定义数据集进行分类

 准备自定义数据集

首先,需要一个自定义数据集来进行分类。创建一个简单的二维数据集,其中每个样本有两个特征,并且属于两个类别之一。

import numpy as np
import pandas as pd

# 创建自定义数据集
np.random.seed(42)
num_samples = 100

# 生成特征数据
X = np.random.rand(num_samples, 2)

# 生成标签数据(0或1)
y = np.where(X[:, 0] + X[:, 1] > 1, 1, 0)

# 将数据转换为DataFrame以便查看
data = pd.DataFrame(X, columns=['Feature1', 'Feature2'])
data['Label'] = y

print(data.head())

在这个数据集中,Feature1Feature2是特征,Label是类别标签(0或1)。

使用朴素贝叶斯进行分类

接下来,将使用scikit-learn库中的朴素贝叶斯分类器来对数据集进行分类。这里使用高斯朴素贝叶斯,因为它适用于连续特征。

from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 初始化高斯朴素贝叶斯分类器
gnb = GaussianNB()

# 训练模型
gnb.fit(X_train, y_train)

# 进行预测
y_pred = gnb.predict(X_test)

# 评估模型性能
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.4f}')

# 打印分类报告
print(classification_report(y_test, y_pred))

4. 结果分析

运行上述代码后,将得到模型的准确率和分类报告。分类报告包括精确度(precision)、召回率(recall)、F1分数(F1-score)等指标。

  • 准确率:正确预测的样本数占总样本数的比例。
  • 精确度:被预测为正类的样本中实际为正类的比例。
  • 召回率:实际为正类的样本中被正确预测为正类的比例。
  • F1分数:精确度和召回率的调和平均数,用于综合评估模型性能。

http://www.kler.cn/a/531561.html

相关文章:

  • doris:导入时实现数据转换
  • 基于STM32景区环境监测系统的设计与实现(论文+源码)
  • 海思ISP开发说明
  • Linux网络 HTTPS 协议原理
  • 基于UKF-IMM无迹卡尔曼滤波与交互式多模型的轨迹跟踪算法matlab仿真,对比EKF-IMM和UKF
  • 如何构建ObjC语言编译环境?构建无比简洁的clang编译ObjC环境?Windows搭建Swift语言编译环境?
  • 2024联想春招硬件嵌入式开发真题及答案解析
  • Unity-编译构建Android的问题记录
  • 跨平台文件互传工具
  • 3.[羊城杯2020]easyphp
  • RESTful 架构原则及其在 API 设计中的应用
  • 2024第十五届蓝桥杯网安赛道省赛题目rc4
  • Spring Boot 2 快速教程:WebFlux优缺点及性能分析(四)
  • ICCV2025会议时间线及要求
  • vscode无法使用open in broswer插件从默认浏览器打开
  • LeetCode 3105. Longest Strictly Increasing or Strictly Decreasing Subarray
  • 算法竞赛(Python)-堆栈
  • 【Cadence仿真技巧学习笔记】求解65nm库晶体管参数un, e0, Cox
  • Windows图形界面(GUI)-QT-C/C++ - QT Tab Widget
  • UE5 蓝图学习计划 - Day 8:触发器与交互事件
  • frida 入门
  • 【JavaScript】Web API事件流、事件委托
  • K8S集群部署--亲测好用
  • 使用 Elastic Cloud Hosted 优化长期数据保留:确保政府合规性和效率
  • 33.Word:国家中长期人才发展规划纲要【33】
  • Turing Complete-全加器