深度学习自编码器 - 得益于深度的指数增益篇
序言
在人工智能的浩瀚星空中,深度学习犹如一颗璀璨的明星,引领着技术革新的浪潮。而表示学习,作为深度学习的核心支柱之一,正以其独特的魅力重塑着机器对世界的理解与认知。深度学习之所以能够实现前所未有的智能飞跃,关键在于其深度的网络结构所带来的指数级性能增益。这种增益不仅体现在数据处理能力的提升上,更深刻地改变了信息的表示与抽象方式,使得机器能够像人类一样,从原始数据中挖掘出高层次的抽象特征,进而实现复杂任务的智能化处理。
得益于深度的指数增益
-
我们已经在
深度网络现代实践 - 深度前馈网络之结构设计篇 - 通用近似性质和深度
中看到,多层感知机是通用的近似器,一些函数能够用指数级小的深度网络(相比于浅层网络)表示。- 缩小模型规模能够提高统计效率。
- 我们描述如何将类似结果更一般地应用于其他具有分布式隐藏表示的模型。
-
在
深度学习自编码器 - 分布式表示篇
中,我们看到了一个生成模型的示例,能够学习人脸图像的潜在解释因子,包括性别以及是否佩戴眼镜。- 完成这个任务的生成模型是基于一个深度神经网络的。
- 浅层网络(例如线性网络)不能学习出这些抽象解释因子和图像像素之间的复杂关系。
- 在这个任务和其他AI任务中,彼此几乎独立,但仍然对应到有意义输入的因素,很有可能是高度抽象的,并且和输入呈高度非线性的关系。
- 我们认为这需要深度分布式表示,需要许多非线性组合来获得较高级的特征(被视为输入的函数)或因素(被视为生成原因)。
-
在许多不同情景中已经证明,非线性和重用特征层次结构的组合来组织计算,可以获得统计效率的指数级提升,这种在指数级提升使用分布式表示获得的指数级提升中也是顶级的。
- 许多只有一个隐藏层的网络(例如,具有饱和非线性,布尔门,和/积,或 RBF \text{RBF} RBF单元的网络)都可以被视为通用逼近器。
- 在给定足够多隐藏单元的情况下,这个模型族是一个通用逼近器,可以在任意非零允错级别近似一大类函数(包括所有连续函数)。
- 然而,隐藏单元所需的数量可能会非常大。
- 关于深层架构表达能力的理论结果表明,有些函数族可以高效地通过深度 k k k 层的网络架构表示,但是深度不够(深度为 2 2 2 或 k − 1 k − 1 k−1)时会需要指数级(相对于输入大小而言)的隐藏单元。
-
在
深度网络现代实践 - 深度前馈网络之结构设计篇 - 通用近似性质和深度
中,我们看到确定性前馈网络是函数的通用逼近器。许多具有潜变量的单个隐藏层的结构化概率模型(包括受限玻尔兹曼机, 深度信念网络)是概率分布的通用逼近器:- Le Roux and Bengio, 2007 \text{Le Roux and Bengio, 2007} Le Roux and Bengio, 2007
- Mont u ˊ far and Ay, 2011 \text{Montúfar and Ay, 2011} Montuˊfar and Ay, 2011
- Montufaret al., 2014 \text{Montufaret al., 2014} Montufaret al., 2014
- Krause et al., 2013 \text{Krause et al., 2013} Krause et al., 2013
-
在
深度网络现代实践 - 深度前馈网络之结构设计篇 - 通用近似性质和深度
中,我们看到足够深的前馈网络会比深度不够的网络具有指数级优势。- 这样的结果也能从诸如概率模型的其他模型中获得。
- 和-积网络 ( sum-product network \text{sum-product network} sum-product network),或 SPN \text{SPN} SPN ( Poon and Domingos, 2011 \text{Poon and Domingos, 2011} Poon and Domingos, 2011) 是这样的一种概率模型。
- 这些模型使用多项式电路来计算一组随机变量的概率分布。
- Delalleau and Bengio (2011) \text{Delalleau and Bengio (2011)} Delalleau and Bengio (2011) 表明存在一种概率分布,对 SPN \text{SPN} SPN的最小深度有要求,以避免模型规模呈指数级增长。
- 后来, Martens and Medabalimi (2014) \text{Martens and Medabalimi (2014)} Martens and Medabalimi (2014) 表明,任意两个有限深度的 SPN \text{SPN} SPN之间都会存在显著差异,并且一些使 SPN \text{SPN} SPN易于处理的约束可能会限制其表示能力。
-
另一个有趣的进展是,一系列和卷积网络相关的深度电路族表达能力的理论结果,即使让浅度电路只去近似深度电路计算的函数,也能突出反映深度电路的指数级优势 ( Cohen et al., 2015 \text{Cohen et al., 2015} Cohen et al., 2015)。相比之下,以前的理论工作只研究了浅度电路必须精确复制特定函数的情况。
总结
- 深度学习之表示学习,是一场关于信息表示的革命。它利用深度的网络架构,通过逐层抽象的方式,将原始数据转化为更加紧凑、更加富有表达力的特征表示。这一过程不仅显著提高了数据处理的效率和准确性,更为机器赋予了更强的泛化能力和适应性。得益于这种深度的指数增益,深度学习模型能够在图像识别、自然语言处理、语音识别等众多领域展现出惊人的性能,不断刷新着人工智能的边界。
- 未来,随着技术的不断进步和应用场景的持续拓展,深度学习之表示学习必将为人类带来更多惊喜与可能。
往期内容回顾
深度网络现代实践 - 深度前馈网络之结构设计篇
深度学习自编码器 - 分布式表示篇