当前位置: 首页 > article >正文

生物信息与机器学习6 - 有监督学习算法和无监督学习算法

1.有监督学习算法

有监督学习算法推荐:
决策树分类器 - 适合处理分类问题,容易理解和可视化;
KNN分类器 - 对于简单的单特征分类也很有效;
逻辑回归 (多分类) - 使用one-vs-all策略处理多类别。

有监督学习的选择:
如果数据分布比较简单,建议使用KNN;
如果需要清晰的决策边界,使用决策树;
如果数据呈现线性可分的特征,可以使用逻辑回归。

import matplotlib.pyplot as plt
import numpy as np
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

# 生成示例数据
X = np.random.rand(100, 1) * 10  # 单特征数据
y = np.where(X < 2.5, 0,
        np.where(X < 5, 1,
            np.where(X < 7.5, 2, 3)))  # 4个类别

# 分割数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# 1. 决策树
dt_clf = DecisionTreeClassifier()
dt_clf.fit(X_train, y_train)
dt_score = dt_clf.score(X_test, y_test)

# 2. KNN
knn_clf = KNeighborsClassifier(n_neighbors=3)
knn_clf.fit(X_train, y_train)
knn_score = knn_clf.score(X_test, y_test)

# 3. 逻辑回归
lr_clf = LogisticRegression(multi_class='ovr')
lr_clf.fit(X_train, y_train)
lr_score = lr_clf.score(X_test, y_test)

print(f"决策树准确率: {dt_score:.3f}")
print(f"KNN准确率: {knn_score:.3f}")
print(f"逻辑回归准确率: {lr_score:.3f}")

2. 无监督学习算法

无监督学习算法推荐:
K-means聚类 - 最常用的聚类算法;
DBSCAN - 基于密度的聚类。

无监督学习选择:
如果类别数量已知(本例中是4个),推荐使用K-means;
如果类别数量未知,可以尝试使用DBSCAN。

from sklearn.cluster import KMeans, DBSCAN
from sklearn.metrics import silhouette_score

# 使用数据为上述生成数据
# K-means聚类
kmeans = KMeans(n_clusters=4, random_state=42)
kmeans_labels = kmeans.fit_predict(X)

# DBSCAN聚类
dbscan = DBSCAN(eps=0.5, min_samples=5)
dbscan_labels = dbscan.fit_predict(X)

# 计算轮廓系数
kmeans_silhouette = silhouette_score(X, kmeans_labels)
print(f"K-means轮廓系数: {kmeans_silhouette:.3f}")

# 可视化结果
plt.figure(figsize=(12, 4))

plt.subplot(121)
plt.scatter(X, np.zeros_like(X), c=kmeans_labels)
plt.title('K-means聚类结果')

plt.subplot(122)
plt.scatter(X, np.zeros_like(X), c=dbscan_labels)
plt.title('DBSCAN聚类结果')

plt.tight_layout()
plt.show()


http://www.kler.cn/a/375658.html

相关文章:

  • C语言内幕--全局变量(结合内存分区、汇编视角看类型、连接器)
  • C++ 文件操作详解
  • 12. 线性规划的单纯形法
  • 互斥量的使用
  • 探索 ONLYOFFICE:开源办公套件的魅力
  • js动态修改样式(:root)
  • 强势改进!TCN-Transformer时间序列预测
  • 新能源汽车充电桩安装限流式保护器如何选配-安科瑞黄安南
  • 网络安全战略论文学习笔记day2
  • 013:开发软件Visual Studio 2012安装教程
  • 动态规划 - 编辑距离
  • PHP面试题总结
  • 三大专项计划助力教育公平,你准备好了吗?
  • 数字ic/FPGA,Windows/Linux系统,其他相关领域,软件安装包(matlab、vivado、modelsim。。。)
  • MacOS/Macbook用户自定义字体安装教程
  • T级别DDoS攻击与大型DDoS防御
  • 保持HTTP会话状态:缓存策略与实践
  • mint-ui Picker 显示异常
  • 数字信号处理:自动增益控制(AGC)
  • 高频谐振功放电路
  • C语言 | Leetcode C语言题解之第526题优美的排列
  • C++基本语法
  • 如何在Linux系统中使用Ansible进行自动化部署
  • 手机玩潜水员戴夫?GameViewer远程如何随时随地玩潜水员戴夫教程
  • node.js模块化分析
  • C++ 文件操作详解