当前位置：首页 > article >正文

Python的秘密基地--[章节8] Python 数据科学与机器学习

article 2025/3/1 10:17:45

第8章：Python 数据科学与机器学习

随着大数据和人工智能的飞速发展，Python 已成为数据科学和机器学习领域的首选编程语言。本章将深入探讨 Python 在数据科学和机器学习中的核心工具和技术，包括数据处理、可视化以及机器学习模型的构建。

8.1 数据科学简介

8.1.1 什么是数据科学？

数据科学（Data Science） 是一种结合统计学、数据分析和机器学习的学科，旨在从数据中提取有价值的信息和知识。

数据科学的关键步骤：

数据收集：从各种渠道获取数据（传感器、日志、API等）。
数据清洗：处理缺失值、异常值等问题。
数据分析：使用统计学和机器学习技术分析数据。
数据可视化：用图表展示数据分析结果。
模型构建：使用机器学习算法构建预测模型。
模型评估与优化：评估模型性能，进行优化。

8.2 Python 数据科学工具

8.2.1 NumPy：数值计算库

NumPy 是 Python 的科学计算库，支持多维数组（ndarray）和各种数学运算。

示例：NumPy 基础操作

import numpy as np

# 创建数组
a = np.array([1, 2, 3, 4])
print(a)

# 数组运算
print(a + 1)
print(a * 2)

# 多维数组
b = np.array([[1, 2], [3, 4]])
print(np.sum(b, axis=0))  # 按列求和

8.2.2 Pandas：数据处理库

Pandas 提供了强大的数据结构，如 Series 和 DataFrame，用于数据的存储、清洗和分析。

示例：Pandas 数据分析

import pandas as pd

# 创建 DataFrame
data = {'Name': ['Alice', 'Bob'], 'Age': [25, 30]}
df = pd.DataFrame(data)
print(df)

# 数据操作
print(df['Age'].mean())  # 计算平均年龄
print(df[df['Age'] > 25])  # 筛选年龄大于25的行

8.2.3 Matplotlib & Seaborn：数据可视化

Matplotlib：基础绘图库，提供高度自定义的图表。
Seaborn：基于 Matplotlib，提供美观的统计图表。

示例：绘制折线图

import matplotlib.pyplot as plt

x = [1, 2, 3, 4, 5]
y = [2, 3, 5, 7, 11]

plt.plot(x, y, marker='o')
plt.title("Simple Line Plot")
plt.xlabel("X-axis")
plt.ylabel("Y-axis")
plt.show()

示例：Seaborn 热力图

import seaborn as sns
import numpy as np

data = np.random.rand(5, 5)
sns.heatmap(data, annot=True)
plt.show()

8.3 数据预处理

8.3.1 缺失值处理

import pandas as pd
import numpy as np

df = pd.DataFrame({
    'A': [1, 2, np.nan],
    'B': [4, np.nan, 6]
})

# 填充缺失值
df.fillna(0, inplace=True)
print(df)

8.3.2 特征缩放

特征缩放使数据保持在相同的尺度范围内。

from sklearn.preprocessing import StandardScaler
import numpy as np

data = np.array([[1, 2], [3, 4], [5, 6]])
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)
print(scaled_data)

8.4 机器学习简介

8.4.1 什么是机器学习？

机器学习（Machine Learning） 是一种通过算法从数据中学习经验，并使用经验进行预测或决策的技术。

机器学习的主要类型：

监督学习（Supervised Learning）：有标签数据进行训练（回归、分类）。
无监督学习（Unsupervised Learning）：无标签数据进行训练（聚类）。
强化学习（Reinforcement Learning）：通过奖励和惩罚学习最优策略。

8.5 使用 scikit-learn 进行机器学习

scikit-learn 是 Python 中最流行的机器学习库，提供了丰富的算法和工具。

8.5.1 线性回归

from sklearn.linear_model import LinearRegression
import numpy as np

# 数据准备
X = np.array([[1], [2], [3]])
y = np.array([2, 4, 6])

# 模型训练
model = LinearRegression()
model.fit(X, y)

# 预测
print(model.predict([[4]]))  # 预测结果: [8]

8.5.2 逻辑回归

from sklearn.linear_model import LogisticRegression

# 数据准备
X = np.array([[1], [2], [3], [4]])
y = np.array([0, 0, 1, 1])

# 模型训练
model = LogisticRegression()
model.fit(X, y)

# 预测
print(model.predict([[2.5]]))  # 预测类别

8.5.3 K-Means 聚类

from sklearn.cluster import KMeans

data = np.array([[1, 2], [1, 4], [1, 0],
                 [10, 2], [10, 4], [10, 0]])

kmeans = KMeans(n_clusters=2)
kmeans.fit(data)

print(kmeans.labels_)

8.6 实战项目：房价预测

步骤1：导入库

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

# 加载数据
df = pd.read_csv('house_prices.csv')
X = df[['Size', 'Rooms']]
y = df['Price']

# 分割数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# 训练模型
model = LinearRegression()
model.fit(X_train, y_train)

# 预测
predictions = model.predict(X_test)
print(predictions)