深度学习之图像回归(一)
前言
图像回归任务主要是理解一个最简单的深度学习相关项目的结构,整体的思路,数据集的处理,模型的训练过程和优化处理。
因为深度学习的项目思路是差不多的,主要的区别是对于数据集的处理阶段,之后模型训练有一些小的差异。
现在以回归项目进行切入点来理解模型训练的流程。
一 关于整体流程
模型训练的目的是通过训练集进行模型训练 最终得到一个优化后的最佳的模型 帮我们完成对数据的预测 比如根据一个数据的多个描述维度 最终得到标签对应的预测值
整体步骤如下:
-
准备数据(输入 x 和目标 y)。
-
初始化模型参数。
-
用模型预测输出 y^。
-
计算损失值(比如MSE)。
-
用梯度下降更新参数。
-
重复步骤3-5,直到损失值不再下降。
-
用测试数据评估模型性能。
简而言之 就是通过对数据集训练 输入x 然后经过模型训练 得到对应的y 计算loss 梯度回传更新模型 直到算出最好的一项
二 关于数据集处理
代码
class Covid_dataset(Dataset):
def __init__(self, file_path, mode): # mode说明数据集是什么类型 训练集还是测试集
with open(file_path, "r") as f:
csv_data = list(csv.reader(f))
data = np.array(csv_data[1:])
if mode == "train":
indices = [i for i in range(len(data)) if i % 5 != 0]
elif mode == "val":
indices = [i for i in range(len(data)) if i % 5 == 0]
if mode == "test":
x = data[:, 1:].astype(float)
x = torch.tensor(x)
else:
x = data[indices, 1:-1].astype(float)
x = torch.tensor(x)
y = data[indices, -1].astype(float)
self.y = torch.tensor(y)
self.x = x - x.mean(dim=0, keepdim=True) / x.std(dim=0, keepdim=True)
self.mode = mode
def __getitem__(self, item):
if self.mode == "test":
return self.x[item].float() # 测试集没标签。 注意data要转为模型需要的float32型
else: # 否则要返回带标签数据
return self.x[item].float(), self.y[item].float()
def __len__(self):
return len(self.x)
实现思路
这个类有三个功能函数 分别对应初始化 取出特定的一个元素 计算数据集长度
需要注意的是,数据的处理需要根据训练集 测试集 测试集三个不同的部分进行对应处理
Index | Feature1 | Feature2 | ... | FeatureN | Label |
---|---|---|---|---|---|
1 | 0.1 | 0.2 | ... | 0.3 | 10 |
2 | 0.4 | 0.5 | ... | 0.6 | 20 |
... | ... | ... | ... | ... | ... |
-
特征部分:从第二列到倒数第二列(
Feature1
到FeatureN
)。 -
标签部分:最后一列(
Label
)。
如图是一个csv格式的数据
注意事项
1 测试集 训练集 验证集如何划分
对于训练集和验证集 按照4:1的比例进行划分
训练集需要的数据体量比较大 主要是为了保证训练的准确性 验证集比较小
2 测试集 训练集 验证集的特征值和标签
对于测试集
由于测试集主要是在模型训练完成之后评估模型性能的 因此特征值需要提取第二列到最后一列,此时最后一列也作为特征被提取
不需要带标签 因为测试集用来测试模型对未知数据的预测能力 标签是未知的
对于验证集和训练集
需要提取第二列到倒数第二列作为特征值
同时需要提取对应的标签
是否需要标签可以类比成做练习题 训练集是平时训练的题目 验证集是自己做的小测试 都是有答案的 这样可以方便调整 而测试集不带标签可以理解成最后的大考是没有答案的
3 数据的处理
为什么特征值和标签需要处理成张量的形式还需要转换成浮点数
-
转换为张量:是为了与 PyTorch 模型兼容,支持 GPU 加速和自动求导。
-
转换为浮点数:是为了确保数据在数学运算中的精度,支持梯度下降和数据标准化。
4 归一化的原因和方式
归一化(Normalization)是数据预处理中非常重要的一步,尤其是在机器学习和深度学习中。它的目的是将特征值调整到一个统一的范围内,例如 [0, 1] 或 [-1, 1],或者使其符合某种分布(如均值为 0、标准差为 1 的正态分布)。归一化的处理可以显著提高模型的训练效率和性能。
以下是归一化处理的几个主要原因:
1. 加速模型收敛
-
原因:不同的特征可能有不同的量纲和数值范围。例如,一个特征的范围可能是 [0, 1],而另一个特征的范围可能是 [0, 1000]。如果不对这些特征进行归一化,模型在训练时可能会因为特征的数值差异而难以收敛。
-
解释:在梯度下降过程中,数值范围大的特征可能会主导梯度的方向,导致模型的更新方向不准确。通过归一化,所有特征的数值范围被统一,梯度下降的方向更加均衡,从而加速模型的收敛。
2. 提高模型性能
-
原因:归一化可以减少特征之间的数值差异,使模型更容易学习到数据中的模式。
-
解释:对于许多机器学习算法(如线性回归、支持向量机、神经网络等),特征的数值范围会影响模型的权重更新。如果特征的数值范围差异过大,模型可能会对某些特征过于敏感,而忽略其他特征。归一化可以避免这种情况,从而提高模型的性能。
3. 防止数值计算问题
-
原因:在深度学习中,模型的训练过程涉及大量的矩阵运算和梯度计算。如果特征的数值范围过大,可能会导致数值计算问题,如梯度爆炸(Gradient Explosion)或梯度消失(Gradient Vanishing)。
-
解释:
-
梯度爆炸:当数值范围过大时,梯度可能会变得非常大,导致模型的权重更新过大,从而使模型的训练不稳定。
-
梯度消失:当数值范围过小时,梯度可能会变得非常小,导致模型的权重更新过慢,从而使模型难以收敛。
-
通过归一化,可以将特征值调整到一个合理的范围内,避免这些数值计算问题。
4. 提高模型的泛化能力
-
原因:归一化可以减少模型对数据的依赖,使模型更加鲁棒。
-
解释:如果特征的数值范围差异过大,模型可能会过度拟合训练数据中的数值差异,而无法泛化到新的数据。通过归一化,模型可以更好地学习数据中的模式,而不是数值差异,从而提高模型的泛化能力。
5. 常见的归一化方法
-
(1) Min-Max 归一化:
-
将特征值调整到 [0, 1] 范围内:
x_normalized = (x - x_min) / (x_max - x_min)
-
优点:简单直观,适用于特征值范围已知的情况。
-
缺点:对异常值敏感,如果数据中存在极端值,可能会导致归一化后的数据范围不均匀。
-
-
(2) Z-Score 标准化:
-
将特征值调整到均值为 0、标准差为 1 的分布:
x_normalized = (x - x_mean) / x_std
-
优点:对异常值不敏感,适用于特征值呈正态分布的情况。
-
缺点:如果数据不符合正态分布,归一化后的数据可能仍然存在数值范围差异。
-
-
(3) MaxAbs 归一化:
-
将特征值调整到 [-1, 1] 范围内:
x_normalized = x / max(abs(x))
-
优点:适用于稀疏数据,能够保留数据的稀疏性。
-
缺点:对异常值敏感。
-
6. 总结
归一化处理是机器学习和深度学习中非常重要的一步,它可以帮助:
-
加速模型的收敛。
-
提高模型的性能。
-
防止数值计算问题。
-
提高模型的泛化能力。
归一化的方法选择取决于数据的特性和任务的需求。常见的归一化方法包括 Min-Max 归一化、Z-Score 标准化和 MaxAbs 归一化。
三 关于自定义的神经网络模型
class myModel(nn.Module):
def __init__(self, dim):
super(myModel, self).__init__()
self.fc1 = nn.Linear(dim, 100)
self.relu = nn.ReLU()
self.fc2 = nn.Linear(100, 1)
def forward(self, x):
x = self.fc1(x)
x = self.relu(x)
x = self.fc2(x)
if len(x.size()) > 1:
return x.squeeze(1)
else:
return x
关注的问题:
1 模型结构
输入层、隐藏层(带 ReLU 激活函数)、输出层。
参数的计算 以便于帮我们更好地理解模型
维度变化
层级 | 维度变化 | 参数计算式 | 参数量 |
---|---|---|---|
fc1 | dim → 100 | (dim × 100) + 100 | 10100 |
fc2 | 100 → 1 | (100 × 1) + 1 | 101 |
总计 | 10201 |
本质上是y=wx+b的线性计算
dim对应的是对应的特征值 需要先进行线性运算 映射到一个隐藏层 隐藏层经过ReLU的激活 改变数值的分布 最后ReLU到fc2 继续线性变换后输出 由于是回归任务 因此是预测一个连续值 需要注意的是输出的维度需要统一成一维的
2 激活函数
引入激活函数的原因
-
引入非线性
- 使神经网络能够拟合任意复杂函数
- 无激活函数时多层网络等价于单层线性变换
-
特征空间映射
- 将输入分布映射到特定输出范围(如(0,1)、(-1,1)等)在这个范围内 模型表现比较好
-
梯度调控
- 通过导数控制反向传播的梯度流动
选择ReLU的核心原因
优势维度 | 具体表现 | 对比其他激活函数 |
---|---|---|
梯度传导 | 正区间梯度恒为1,避免梯度消失 | Sigmoid最大梯度仅0.25 |
计算效率 | 无需指数运算,速度提升约6倍 | Tanh需计算双曲函数 |
稀疏激活 | 约50%神经元被抑制,提升特征选择性 | Leaky ReLU保持全激活 |
生物学合理 | 近似神经元"全或无"的放电特性 | 更符合生物神经元工作机制 |
3 为什么要这样设计输出层?
-
统一输出形状:
-
在回归任务中,我们希望模型的输出是一个一维张量
[batch_size]
,而不是二维张量[batch_size, 1]
。这样可以方便后续的计算,例如计算损失函数时,损失函数通常期望输入是一维张量。
-
-
兼容不同批量大小:
-
当批量大小为 1 时,模型的输出可能是
[1]
而不是[1, 1]
。通过这段代码,可以确保无论批量大小是多少,输出的形状始终是一致的。
-
四 关于模型训练
# 训练函数
def train_val(model, train_loader, val_loader, device, epochs, optimizer, loss, save_path):
model = model.to(device)
# 记录每一轮的损失函数
plt_train_loss = []
plt_val_loss = []
min_val_loss = 9999999999999
# 训练
for epoch in range(epochs):
train_loss = 0.0
val_loss = 0.0
start_time = time.time()
model.train() # 模型调整为训练模式
for batch_x, batch_y in train_loader:
x, target = batch_x.to(device), batch_y.to(device)
pred = model(x) # 得到预测值
train_bat_loss = loss(pred, target)
train_bat_loss.backward() # 梯度回传 更新模型
optimizer.step()
optimizer.zero_grad() # 清零 训练完一轮了
train_loss += train_bat_loss.cpu().item()
plt_train_loss.append(train_loss / train_loader.dataset.__len__())
# 验证
model.eval()
with torch.no_grad():
for batch_x, batch_y in val_loader:
x, target = batch_x.to(device), batch_y.to(device)
pred = model(x) # 得到预测值
val_bat_loss = loss(pred, target)
val_loss += val_bat_loss.cpu().item()
plt_val_loss.append(val_loss/val_loader.__len__())
# 保存结果
if val_loss < min_val_loss:
torch.save(model, save_path)
min_val_loss = val_loss
print('[%03d/%03d] %2.2f sec(s) TrainLoss : %.6f | valLoss: %.6f' % \
(epoch, epochs, time.time() - start_time, plt_train_loss[-1], plt_val_loss[-1])
) # 打印训练结果。 注意python语法, %2.2f 表示小数位为2的浮点数, 后面可以对应。
# 画图
plt.plot(plt_train_loss)
plt.plot(plt_val_loss)
plt.title("loss图")
plt.legend(["train", "val"])
plt.show()
关于反向传播
因为模型不可能一次训练就得到最优秀的结果 因此需要根据训练结果动态更新 最后得到的一个观测值 计算与标签的loss之后 可以通过反向求导计算梯度 之后利用梯度下降算法进行更新 直到表现最优秀
关于验证集
验证集不需要进行梯度更新 只有训练的时候需要
(1) 验证集的作用是评估模型
-
验证集用于评估模型在未见过的数据上的表现,而不是用于训练模型。如果在验证集上更新梯度,模型会逐渐适应验证集的数据,这违背了验证集的初衷。
-
验证集的核心目标:评估模型的泛化能力,确保模型在新的、未见过的数据上仍然表现良好。
(2) 防止过拟合
-
如果在验证集上更新梯度,模型可能会逐渐过拟合验证集的数据,导致模型在训练集和验证集上表现良好,但在真实数据上表现不佳。
-
过拟合:模型对训练数据(包括验证集)拟合得过于完美,但在新数据上表现差。
(3) 保持模型的独立性
-
验证集应该保持独立性,即模型在验证集上的表现应该反映其在真实数据上的表现。
-
如果在验证集上更新梯度,模型会逐渐依赖验证集的数据,失去独立性。
五 关于模型测试
这段代码实现了一个完整的测试流程,包括:
-
加载模型:从指定路径加载训练好的模型。
-
测试阶段:对测试数据进行预测,并将预测结果存储到列表中。
-
保存结果:将预测结果保存到一个 CSV 文件中,格式为
[id, 预测值]
。
def evaluate(save_path, device, test_loader, rel_path):
model = torch.load(save_path).to(device)
rel = []
with torch.no_grad():
for x in test_loader:
pred = model(x.to(device))
rel.append(pred.cpu().item())
print(rel)
with open(rel_path, "w", newline='') as f:
csvWtiter = csv.writer(f)
csvWtiter.writerow(["id", "test_positive"])
for i, value in enumerate(rel):
csvWtiter.writerow([str(i), str(rel[i])])
print("文件已经保存到{}".format(rel_path))
六 关于超参数的设置
device = "cuda" if torch.cuda.is_available() else "cpu"
train_file = "covid.train.csv"
test_file = "covid.test.csv"
train_data = Covid_dataset(train_file, "train")
val_data = Covid_dataset(train_file, "val")
test_data = Covid_dataset(train_file, "test")
train_loader = DataLoader(train_data, batch_size=16, shuffle=True)
val_loader = DataLoader(val_data, batch_size=16, shuffle=True)
test_loader = DataLoader(test_data, batch_size=1, shuffle=False) # 测试集的batchsize一般为1 且不可以打乱
dim = 93
config = {
"lr": 0.001,
"momentum": 0.9,
"epochs": 20,
"save_path": "model_save/model.pth",
"rel_path": "pred.csv"
}
model = myModel(dim)
loss = nn.MSELoss()
optimizer = optim.SGD(model.parameters(), lr=config["lr"], momentum=config["momentum"]) # 优化器
train_val(model, train_loader, val_loader, device, config["epochs"], optimizer, loss, config["save_path"])
evaluate(config["save_path"], device, test_loader, config["rel_path"])
在这段代码中,超参数(Hyperparameters)是用于控制模型训练过程和行为的关键参数。它们在训练开始之前需要手动设置,并对模型的性能和训练效率有重要影响。以下是对代码中涉及的超参数的详细解释:
1. 设备选择(Device)
device = "cuda" if torch.cuda.is_available() else "cpu"
-
超参数:
device
-
作用:指定模型和数据运行的设备。
-
解释:
-
如果 GPU(CUDA)可用,则使用
"cuda"
,否则使用"cpu"
。 -
使用 GPU 可以显著加速模型的训练和推理过程。
-
2. 数据加载器(DataLoader)
train_loader = DataLoader(train_data, batch_size=16, shuffle=True)
val_loader = DataLoader(val_data, batch_size=16, shuffle=True)
test_loader = DataLoader(test_data, batch_size=1, shuffle=False)
-
超参数:
-
batch_size
:每个批次的样本数量。 -
shuffle
:是否在每个 epoch 开始时随机打乱数据。
-
-
作用:
-
batch_size
:-
控制每次传递给模型的数据量。
-
较大的
batch_size
可以提高训练效率,但会增加内存消耗。 -
较小的
batch_size
可以减少内存消耗,但可能需要更多的迭代次数。
-
-
shuffle
:-
在训练和验证阶段,通常将数据打乱以防止模型学习到数据的顺序。
-
在测试阶段,通常不打乱数据,以保持预测结果的顺序。
-
-
3. 模型参数
dim = 93
model = myModel(dim)
-
超参数:
dim
-
作用:输入特征的维度。
-
解释:
-
dim
是输入数据的特征数量,用于初始化模型的输入层。 -
在这个例子中,输入特征的维度是 93。
-
4. 训练配置(Config)
Python复制
config = {
"lr": 0.001,
"momentum": 0.9,
"epochs": 20,
"save_path": "model_save/model.pth",
"rel_path": "pred.csv"
}
-
超参数:
-
lr
(Learning Rate):学习率,控制参数更新的步长。-
较大的学习率可能导致模型训练不稳定,较小的学习率可能导致训练速度过慢。
-
-
momentum
:动量因子,用于加速梯度下降过程,防止震荡。-
动量可以帮助优化器跳出局部最小值,加速收敛。
-
-
epochs
:训练的总轮数。-
较多的轮数可以提高模型性能,但可能导致过拟合。
-
-
save_path
:保存最佳模型的路径。 -
rel_path
:保存预测结果的路径。
-
5. 损失函数和优化器
loss = nn.MSELoss()
optimizer = optim.SGD(model.parameters(), lr=config["lr"], momentum=config["momentum"])
-
超参数:
-
损失函数(Loss Function):
-
nn.MSELoss()
:均方误差损失函数,适用于回归任务。
-
-
优化器(Optimizer):
-
optim.SGD
:随机梯度下降优化器。 -
lr
:学习率。 -
momentum
:动量因子。
-
-
6. 测试阶段
evaluate(config["save_path"], device, test_loader, config["rel_path"])
-
超参数:
-
test_loader
的batch_size
设为 1,因为测试集通常逐个样本进行预测。 -
shuffle=False
,以保持预测结果的顺序。
-
总结
在这段代码中,涉及的超参数包括:
-
设备选择:
device
。 -
数据加载器:
-
batch_size
:控制每个批次的样本数量。 -
shuffle
:是否随机打乱数据。
-
-
模型参数:
-
dim
:输入特征的维度。
-
-
训练配置:
-
lr
:学习率。 -
momentum
:动量因子。 -
epochs
:训练的总轮数。 -
save_path
:保存模型的路径。 -
rel_path
:保存预测结果的路径。
-
-
损失函数和优化器:
-
损失函数:
nn.MSELoss()
。 -
优化器:
optim.SGD
。
-
七 最后的结果展示
训练效果良好 损失快速下降并趋于平稳 没有明显的过拟合现象 模型在训练集和验证集上的表现都较为理想