当前位置：首页 > article >正文

深度学习基础知识-02 数据预处理

article 2024/10/20 20:11:56

深度学习的数据预处理通常包括：
1.数据清洗：去除错误或不完整的数据。
2.归一化：调整数据范围，如将像素值缩放到0-1。
3.数据增强：通过旋转、缩放等方法增加数据多样性。
4.数据划分：将数据分为训练集、验证集和测试集。
5.编码：将分类数据转换为机器学习模型可以处理的形式，如独热编码。

CSV文件预处理：
写入csv文件

import os  # 导入os模块，用于操作文件和目录

# 创建一个名为'data'的目录，该目录位于当前工作目录的上一级目录中
# 如果目录已存在，exist_ok=True参数确保不会抛出错误
os.makedirs(os.path.join('..','data'),exist_ok=True)

# 定义一个变量data_file，存储文件的完整路径
# 文件名为'home_tiny.txt'，位于上一级目录中的'data'文件夹内
data_file=os.path.join('..','data','home_tiny.txt')

# 使用with语句打开文件，确保文件操作完成后自动关闭文件
# 'w'模式表示写入模式，如果文件已存在，则覆盖原有内容
with open(data_file,'w') as f:
    f.write('NumRooms,Ally,price\n')
    f.write('NA,PAve,127500\n')
    f.write('2,NA,197500\n')
    f.write('5,NA,177500\n')
    f.write('NA,NA,165500\n')

读csv文件

import pandas as pd

data =pd.read_csv('../data/home_tiny.txt') # 使用pandas的read_csv函数读取位于上一级目录中'data'文件夹内的'home.tiny.txt'文件
print(data)

数据补全：注意，“NaN”项代表缺失值。为了处理缺失的数据，典型的方法包括插值法和删除法，其中插值法用一个替代值弥补缺失值，而删除法则直接忽略缺失值。

通过位置索引iloc，我们将data分成inputs和outputs，其中前者为data的前两列，而后者为data的最后一列。对于inputs中缺少的数值，我们用同一列的均值替换“NaN”项。

# 使用iloc选择器从data中提取前两列作为输入特征（inputs）
# 即选择第0列和第1列（注意Python是从0开始计数的）
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]

# 对inputs中的缺失值进行填充
# 使用fillna方法，将缺失值替换为每列的平均值
inputs = inputs.fillna(inputs.mean())

对于inputs中的类别值或离散值，我们将“NaN”视为一个类别。由于“巷子类型”（“Alley”）列只接受两种类型的类别值“Pave”和“NaN”， pandas可以自动将此列转换为两列“Alley_Pave”和“Alley_nan”。巷子类型为“Pave”的行会将“Alley_Pave”的值设置为1，“Alley_nan”的值设置为0。缺少巷子类型的行会将“Alley_Pave”和“Alley_nan”分别设置为0和1。

# 使用get_dummies函数对inputs进行独热编码
# dummy_na=True表示将缺失值也作为一个类别进行编码
inputs = pd.get_dummies(inputs, dummy_na=True)

  NumRooms  Alley_Pave  Alley_nan
0       3.0           1          0
1       2.0           0          1
2       4.0           0          1
3       3.0           0          1

现在inputs和outputs中的所有条目都是数值类型，它们可以转换为张量格式。当数据采用张量格式后，可以在后续进一步操作。

# 将输入特征inputs转换为NumPy数组，并指定数据类型为float
# to_numpy()函数将DataFrame转换为数组，dtype=float确保数据类型为浮点数
X = np.array(inputs.to_numpy(dtype=float))

# 将输出标签outputs转换为NumPy数组，并指定数据类型为float
# to_numpy()函数将DataFrame转换为数组，dtype=float确保数据类型为浮点数
y = np.array(outputs.to_numpy(dtype=float))

(array([[3., 1., 0.],
        [2., 0., 1.],
        [4., 0., 1.],
        [3., 0., 1.]], dtype=float64),
 array([127500., 106000., 178100., 140000.], dtype=float64))