当前位置：首页 > article >正文

深度学习第一周周报

article 2025/2/22 16:52:43

2024年夏季《深度学习》学习报告

姓名和学号	孙超，21240211066
本实验属于哪门课程	中国海洋大学24夏《深度学习》
学习内容	深度学习基础
博客地址	https://blog.csdn.net/qq_39214793?type=blog

一、学习目标

1. 视频学习

1.1 绪论

从专家系统到机器学习
从传统机器学习到深度学习
深度学习的能与不能

1.2 深度学习概述

浅层神经⽹络：⽣物神经元到单层感知器，多层感知器，反向传播和梯度消失
神经⽹络到深度学习：逐层预训练，⾃编码器和受限玻尔兹曼机

2. 代码练习

代码练习需要使⽤⾕歌的 Colab，它是⼀个 Jupyter 笔记本环境，已经默认安装好 pytorch，不需要进⾏任何设置就可以使⽤，并且完全在云端运⾏。使⽤⽅法可以参考 Rogan 的博客：

https://www.cnblogs.com/lfri/p/10471852.html 国内⽬前⽆法访问 colab，可以安装 Ghelper:

http://googlehelper.net/

2.1 pytorch 基础练习

基础练习部分包括 pytorch 基础操作，实验指导链接

要求： 把代码输⼊ colab，在线运⾏观察效果。

2.2 螺旋数据分类

⽤神经⽹络实现简单数据分类，实验指导链接

要求： 把代码输⼊ colab，在线运⾏观察效果

二、学习内容

使⽤⾕歌的 Colab进行pytorch的学习，编写相关代码并且观察运行结果。

1.定义数据

一般定义数据使用torch.Tensor ，Tensor的意思是张量，是数字各种形式的总称。本节对Tensor可以表示的部分类型数据进行了演示，以下为程序运行截图：
在这里插入图片描述

2.定义操作

凡是用Tensor进行各种运算的，都是Function。最终还是需要用Tensor来进行计算的，计算包括基本运算，加减乘除，求幂求余布尔运算，大于小于，最大最小，线性运算，矩阵乘法，求模，求行列式等等。
本节对Tensor支持的运算操作进行了演示，以下为程序运行截图：
在这里插入图片描述

在这里插入图片描述
通过在⾕歌的 Colab上练习，学习了张量的定义和基本操作。其中值得注意的是，使用张量进行矩阵乘法时（运算符为@），两个张量中的元素的dtype需要相同，否则会报错。

3.螺旋数据分类

本节主要学习了如何用神经网络实现数据分类。
下面代码初始化了重要参数，实现了对3000个样本的特征初始化。
在这里插入图片描述

在这里插入图片描述
在使用colab首次运行上述代码时，可能会遇到“[Errno 2] No such file or directory: 'res/ziegler.png" 的错误。此时我们需要在目录中创建res文件夹并在里面上传ziegler.png文件，可以是任何的png文件，经过测试并不会影响实验结果。

3.1构建线性模型分类

在这里插入图片描述

上面使用 print(model) 把模型输出，可以看到有两层：
第一层输入为 2（因为特征维度为主2），输出为 100；
第二层输入为 100 （上一层的输出），输出为 3（类别数）
从上面图示可以看出，线性模型的准确率最高只能达到 50% 左右，对于这样复杂的一个数据分布，线性模型难以实现准确分类。

3.2构建两层神经网络分类

在这里插入图片描述

在两层神经网络里加入 ReLU 激活函数以后，分类的准确率得到了显著提高。

三、问题总结与体会

1、AlexNet有哪些特点？为什么可以比LeNet取得更好的性能？
AlexNet是一种深度卷积神经网络，以下是AlexNet的一些关键特点：更深的网络结构、ReLU激活函数、局部连接和权重共享、数据增强、Dropout正则化、使用GPU加速、LRN（局部响应归一化）。正是由于这些特点，AlexNet能够捕捉更复杂的图像特征，并且具有更好的泛化能力，因此在图像识别任务上比LeNet取得了更好的性能。

2、激活函数有哪些作用？
让多层神经网络可以运作，拟合非线性函数，使神经网络可以对非线性数据进行建模。

3、梯度消失现象是什么？
由于误差通过梯度传播，前两层的参数不变，只有最后一层的参数才会改变，导致深层网络的参数难以更新。

4、神经网络是更宽好还是更深好？
在实际应用中，更宽或更深的网络各有利弊：

更宽的网络：可以增加每层的表达能力，有助于模型学习更复杂的特征。但是，如果网络过于宽，可能会导致过拟合，即模型在训练数据上表现很好，但在新的、未见过的数据上表现不佳。

更深的网络：可以增加模型的学习能力，通过多层的非线性变换捕捉更深层次的特征。然而，更深的网络训练起来可能更加困难，需要更多的计算资源，并且可能面临梯度消失或梯度爆炸的问题。

在设计神经网络时，通常需要根据具体的任务和可用的资源来平衡宽度和深度。有时候，结合使用不同宽度和深度的网络，或者使用其他技术如正则化、批量归一化等，可以帮助改善模型的性能。此外，现代深度学习实践中，还经常使用预训练模型和迁移学习等策略来提高模型的泛化能力。

5、为什么要使用Softmax?
Softmax是一种在机器学习和深度学习中常用的函数，它主要用于多分类问题中将一个向量或一组实数转换成概率分布。Softmax函数有以下几个特性：