深度学习简介
目录
- 一、剖析,什么是深度学习?
- 二、深度学习人工神经网络、机器学习、人工智能关系
- 三、深度学习的发展
- 3.1 从感知机到人工神经网络
- 1. 早期发展
- 2. 陷入低谷
- 3. 短暂复兴
- 4. 再次受挫
- 5. 深度突破
- 3.2 深度学习时代
- 1. 语音领域突破
- 2. 大规模图像数据库
- 3. AlexNet的崛起
- 3.3 巨头之间的角逐
- 1. 工业界的关注
- 2. 技术并购与人才争夺
- 3. 自然语言处理进展
- 4. 强化学习与博弈突破
- 时间轴与关键事件
- 四、深度学习的影响因素与成功原因
- 4.1 深度学习爆发的三大核心因素
- 1. 大数据
- 2. 深度网络架构
- 主流架构类型
- 新型架构创新
- 训练方式优化
- 3. GPU加速
- 4.2 深度学习成功的本质原因
- 1. 自动特征学习
- 2. 迁移学习能力
- 4.3 核心结论
- 五、总结(后面这些,我单独有时间讲)
- 5.1 人工智能(AI)
- 5.2 机器学习(ML)
- 5.3 人工神经网络(ANN)
- 5.4 深度学习(DL)
一、剖析,什么是深度学习?
什么是深度学习?所谓的深度学习
就是利用深度人工神经网络
进行自动分类
、预测
和学习
的技术。因此,深度学习
就等于深度人工神经网络
,如下图:
图中的黑色圆圈表示一个人工神经元
,连线表示人工神经突触
,大家看下面这幅图。
信息从最左侧的节
点传入,经过中间层节点
的加工,最终通过最右侧的四个节点
输出,其中,神经网络从左到右排列经过多少层就成为有多少层。
一般认为超过三层的就可以称为深度神经网络
。
从这个图(来源于百度搜图),可以知道最左侧对应输入层,最右侧对应输出层,中间成为隐层,看上图人脑里面神经元
和神经突触
的关系,类比学习深度神经网络
。
二、深度学习人工神经网络、机器学习、人工智能关系
见下图:
总体来讲,人工智能是大的领域方向,机器学习是实现人工智能的有效途径,人工神经网络是机器学习的一种模型方法,深度学习是人工神经网络的深化和拓展。
人工智能的覆盖面很广,(人
嘛,人工的智能
),包括:什么的自动推理
、联想
、学习
等等;然后其延伸出来的分支:机器学习,它就是研究怎么让一台机器拥有自我学习能力(它的算法就很多了,什么决策树算法、支持向量机SVM、遗传GA等等),然后近些年的人工神经网络的机器学习算法越来越多,就比如下面这几种,大家可能都耳熟能详的:
- 前馈神经网络(Feedforward Neural Network)
原理
:信息从输入层
进入,依次经过隐藏层
,最终从输出层
输出,信息在网络中单向流动,没有反馈回路
。
应用
:广泛应用于图像识别
、语音识别
、数据分类
等领域。例如在手写数字识别中,将手写数字的图像作为输入,通过前馈神经网络的多层处理,输出识别结果。 - 反向传播算法(Backpropagation Algorithm)
原理
:是一种用于训练前馈神经网络
的监督学习算法
。它基于梯度下降法
,通过计算输出层的误
差,并将误差反向传播到输入层
,来更新网络中的
权重,使得网络的预测结果与真实标签之间的误差最小化
。
应用
:是目前训练人工神经网络最常用的算法之一,几乎在所有基于人工神经网络的应用中都有广泛应用,如在房价预测模型中,通过反向传播算法不断调整网络权重,以提高预测的准确性。 - 循环神经网络(Recurrent Neural Network,RNN)
原理
:允许网络中的神经元之间存在反馈连接
,使得网络能够处理序列数据,记住之前的输入信息
,并利用这些信息来处理当前的输入
。
应用
:在自然语言处理
、语音识别
、时间序列预测
等领域有重要应用。比如在机器翻译中,RNN 可以处理输入句子中的每个单词,并根据之前的翻译结果和当前单词来生成合适的翻译。 - 长短期记忆网络(Long Short-Term Memory,LSTM)
原理
:是RNN 的一种特殊变体
,通过引入记忆单元和门控机制
,能够更好地处理长序列中的长期依赖问题
,有效地记住和遗忘信息
。
应用
:在自然语言处理任务
如情感分析、文本生成,以及语音识别等领域表现出色。例如在情感分析中,LSTM 可以捕捉文本中的上下文信息,准确判断文本的情感倾向。 - 卷积神经网络(Convolutional Neural Network,CNN)
原理
:通过卷积层
、池化层
和全连接层
等组件,利用卷积核在数据上滑动进行卷积操作
,自动提取数据的局部特征
,大大减少了网络的参数数量
,降低计算量
,提高了训练效率和泛化能力
。
应用
:在计算机视觉领域
占据主导地位,如图像分类、目标检测、图像分割等任务。在医学图像分析中,CNN 可以用于识别肿瘤等病变区域。
后面我会单独介绍这几种人工神经深度学习网络;
三、深度学习的发展
3.1 从感知机到人工神经网络
1. 早期发展
- 1943年:麦克洛克麦-皮茨(McCulloch-Pitts)模型诞生,这是第一个人工神经元模型,但未引起重视。
- 1957年:弗兰克·罗森布莱特提出 感知机(Perceptron 模型,开创了通过结构模拟实现智能的新路径。
2. 陷入低谷
- 1969年:马文·明斯基与西摩尔·派普特在合著中指出感知机无法
- XOR问题:导致人工神经网络研究停滞近20年。
3. 短暂复兴
- 1986年:杰弗里·辛顿等人提出反向传播算法,实现多层神经网络训练,解决了XOR问题,并推动人工神经网络成为与符号学派、行为学派并列的连接学派。
4. 再次受挫
- 20世纪90年代:受限于计算能力、数据量及模型可解释性,学术界转向统计学习理论,支持向量机(SVM)成为主流。
5. 深度突破
- 2006年:辛顿在《科学》杂志发表论文,提出深度神经网络(DNN),证明深度网络的超强表达能力,开启深度学习研究新阶段。
3.2 深度学习时代
1. 语音领域突破
- 2011年:微软团队与辛顿合作,通过深度神经网络大幅提升语音识别准确率。
2. 大规模图像数据库
- 2006年:李飞飞启动ImageNet项目,最终建成包含百万级标注图像的数据库。
- 2010年:ImageNet竞赛首次举办,推动计算机视觉技术发展。
3. AlexNet的崛起
- 2012年:辛顿团队的AlexNet(8层卷积神经网络)在ImageNet竞赛中夺冠,错误率从25%降至17%,标志深度学习时代到来。
3.3 巨头之间的角逐
1. 工业界的关注
- 2011年:谷歌大脑通过深度学习从YouTube图像中自学出“猫”脸,引发广泛关注,就是下面这个图片;
2. 技术并购与人才争夺
- 谷歌、微软等科技巨头大规模收购AI初创公司,推动全球人工智能人才竞争。
3. 自然语言处理进展
- 2013年:谷歌提出Word2Vec,实现高效词向量表示。
- 2016年:谷歌基于循环神经网络(RNN)和注意力机制的机器翻译接近人类水平。
4. 强化学习与博弈突破
- 2015年:DeepMind开发通用AI算法,在雅达利游戏中超越人类。
- 2016年:AlphaGo击败围棋世界冠军李世石。
- 2017年:AlphaGo Zero通过无监督学习超越人类水平。
时间轴与关键事件
- 1943年:McCulloch-Pitts神经元模型
- 1957年:感知机提出
- 1969年:明斯基批判感知机
- 1986年:反向传播算法
- 2006年:深度神经网络(DNN)
- 2012年:AlexNet夺冠
- 2016年:AlphaGo战胜李世石
- 2017年:AlphaGo Zero诞生
四、深度学习的影响因素与成功原因
4.1 深度学习爆发的三大核心因素
1. 大数据
- 数据量爆发:移动互联网时代产生海量数据(如2014年互联网每秒交换1.9EB数据)
- 数据驱动优势:
- 传统算法(如SVM)在小数据量时表现优异,但存在精度瓶颈
- 深度学习模型随数据量增加持续提升精度
- 关键作用:海量数据缓解深度网络过拟合问题,验证深度架构的有效性
2. 深度网络架构
主流架构类型
-
前馈神经网络(全连接网络)
- 层级结构:输入层→隐含层→输出层
- 应用场景:图像分类、回归预测等基础任务
-
卷积神经网络(CNN)
- 核心特性:局部连接、权值共享、池化操作
- 优势:平移/缩放不变性,适合图像处理
- 典型应用:ImageNet竞赛、AlphaGo视觉模块
- 循环神经网络(RNN)
- 核心特性:时间序列依赖处理能力
- 架构特点:隐含层循环连接
- 典型应用:自然语言处理、语音识别
新型架构创新
- 编码器-解码器架构
- 结构:双RNN串联(编码→解码)
- 应用:机器翻译
- 神经图灵机(可微分计算机)
- 融合神经网络与冯·诺依曼架构
- 组成:控制器+读写头+存储器
- 优势:复杂推理、阅读理解任务
训练方式优化
- 课程学习:按难度顺序输入数据,提升学习效率
- 迁移学习:复用预训练网络特征提取器
- AlphaGo训练流程:监督学习→强化学习→自对弈迭代
3. GPU加速
- 技术优势:
- 并行处理海量张量运算
- 3D图形渲染技术转用于深度学习训练
- 关键作用:
- 缩短训练周期(如AlexNet训练时间从数月降至数天)
- 支持更深层网络架构开发
4.2 深度学习成功的本质原因
1. 自动特征学习
- 层级特征提取:
- 低层:边缘/纹理等基础特征
- 中层:形状/部件等组合特征
- 高层:语义级抽象特征(如 CNN特征提取)
- 突破传统瓶颈:
- 替代手工特征工程
- 减少领域专家依赖
2. 迁移学习能力
- 模块化优势:
- 特征提取层与分类层解耦
- 支持跨任务网络拼接(如CNN+RNN组合)
- 小数据解决方案:
- 复用预训练模型初始化
- 微调适应新任务
4.3 核心结论
- 三要素协同:大数据提供燃料,深度架构提供引擎,GPU提供动力
- 技术突破:
- 端到端学习:原始数据→直接输出结果
- 特征重用:迁移学习实现跨领域能力扩展
- 未来影响:
- 降低AI开发门槛
- 推动通用人工智能探索
五、总结(后面这些,我单独有时间讲)
5.1 人工智能(AI)
人工智能是极为宽泛的概念,是一门致力于让机器具备人类智能(如学习、推理、解决问题等能力)的学科。其涵盖众多理论、方法与技术,旨在使机器像人类一样思考和行动,解决各类复杂问题,像专家系统、智能机器人研发都属于其范畴。
搜索算法
:如广度优先搜索、深度优先搜索,常用于在状态空间中寻找最优解,像在游戏 AI 中寻找最佳走法。
规则引擎算法
:在专家系统中,依据预先设定的规则进行推理和决策,例如医疗诊断专家系统根据症状和疾病规则进行判断 。
5.2 机器学习(ML)
机器学习是人工智能的重要分支领域,主要研究让计算机系统自动从数据中学习规律,并利用规律进行预测或决策,无需明确编程。包含多种学习方式,广泛应用于数据挖掘、计算机视觉、自然语言处理等领域。
-
监督学习算法
:- 回归算法:如线性回归、多项式回归,用于预测数值型结果,比如预测房屋价格。
- 分类算法:像逻辑回归、决策树、支持向量机(SVM)、随机森林等,用于对数据进行分类,例如邮件垃圾分类。 判别模型:如 K 最近邻(KNN)。
-
无监督学习算法
:- 聚类算法:例如 K-Means、层次聚类,用于将数据点划分到不同簇中,如客户分群。
- 降维算法:像主成分分析(PCA)、t-SNE,用于减少数据维度,保留主要特征。
- 生成模型:如高斯混合模型(GMM) 。
-
半监督学习算法
:如半监督 SVM、自训练算法 。 -
强化学习算法
:- 基于价值:如 Q-Learning、深度 Q 网络(DQN)。
- 基于策略:如策略梯度(Policy Gradient)、近端策略优化算法(PPO)。
- 混合方法:如 Actor-Critic 。
5.3 人工神经网络(ANN)
人工神经网络是机器学习中的一种模型和方法,模拟生物神经网络,由大量人工神经元相互连接构成,通过调整神经元间连接权重学习数据模式和特征,可处理非线性复杂问题,在图像识别、语音识别等方面表现出色。
1.多层感知机(MLP)
:一种最基础的人工神经网络,由输入层、隐藏层和输出层组成,可用于简单的分类和回归任务。
2. 径向基函数网络(RBFN
):利用径向基函数作为激活函数,常用于函数逼近和模式识别 。
5.4 深度学习(DL)
深度学习基于人工神经网络发展而来,是其分支领域,强调构建多层神经网络模型,通过大量数据训练,自动学习不同层次特征表示。在图像、语音、自然语言处理等众多领域成果显著。
卷积神经网络(CNN)
:如 LeNet、AlexNet、VGGNet、ResNet(残差网络)、DenseNet(密集连接网络)等,广泛应用于图像识别、目标检测等任务。**循环神经网络(RNN** 及其变体
:
基础 RNN 。- 长短期记忆网络(LSTM) 。
- 门控循环单元(GRU) ,常用于自然语言处理、语音识别、时间序列预测等。
Transformer 网络
:基于自注意力机制,如 BERT、GPT 系列、ViT(视觉 Transformer),在文本生成、翻译等领域应用广泛。生成对抗网络(GAN)
:如 DCGAN、WGAN、StyleGAN,可用于图像生成、数据增强 。
总体来讲,人工智能是大的领域方向,机器学习是实现人工智能的有效途径,人工神经网络是机器学习的一种模型方法,深度学习是人工神经网络的深化和拓展。