深入解析ENAS中的共享权重机制
深入解析ENAS中的共享权重机制
在神经网络架构搜索(NAS)领域,ENAS(Efficient Neural Architecture Search)通过引入共享权重机制(Weight Sharing),大幅降低了计算开销,使得在有限资源下的神经网络搜索成为可能。本文将围绕ENAS共享权重的更新过程、时间节约机制和损失函数设计进行全面解析。
1. ENAS中的共享权重机制
ENAS提出了共享权重的概念:在庞大的搜索空间中,所有候选子模型(子网络)共享一个超级网络(Supernet)的参数。这一设计使得每个子模型不需要独立训练,而是直接继承超级网络的权重进行评估。
核心思想
- 超级网络的定义:超级网络包含了搜索空间中的所有可能架构,其节点代表计算操作(如卷积、池化),边表示数据流的连接。
- 共享权重的意义:每次训练一个子模型时,其优化的权重会被共享到超级网络中,其他子模型可以复用这些权重,避免从零开始训练。
2. 权重的更新过程
ENAS通过交替优化的方式,训练共享权重和控制器的参数:
(1)共享权重 ω \omega ω 的更新
- 固定控制器参数 θ \theta θ,采样出子模型架构。
- 使用采样出的子模型在训练数据集上计算损失并通过反向传播更新共享权重 ω \omega ω。
- 每次训练只更新采样子模型相关的部分权重,未采样部分的权重保持不变。
具体步骤:
- 控制器生成一个子模型。
- 在当前批次训练数据上前向传播计算损失。
- 反向传播更新 ω \omega ω 中与该子模型相关的参数。
- 重复上述过程,逐步优化整个超级网络的权重。
(2)控制器参数 θ \theta θ 的更新
- 固定共享权重 ω \omega ω,通过强化学习训练控制器。
- 控制器根据当前采样架构的性能调整采样概率,使其倾向采样高性能子模型。
- 损失函数采用策略梯度方法(Policy Gradient),目标是最大化子模型在验证集上的性能。
通过上述交替优化,ENAS实现了共享权重 ω \omega ω 和控制器 θ \theta θ 的协同进步。
3. 节约时间的核心机制
传统的NAS需要为每个候选架构从零开始训练,这会带来巨大的计算开销。ENAS的共享权重机制通过以下方式显著节约时间:
(1)避免重复训练子模型
- 在传统NAS中,每个架构都需要单独训练多个 epoch 才能进行性能评估。ENAS通过共享权重,子模型可以直接继承超级网络的参数进行评估,无需从头训练。
- 示例:
- 若搜索空间中有 1000 个架构,传统NAS需要训练 1000 次,而ENAS仅需训练一个超级网络。
(2)增量式权重更新
- 每次采样的子模型仅更新共享权重中与其相关的部分,未采样部分的权重保持不变。这种局部优化显著减少了计算量。
- 效果:减少了全模型梯度计算的次数,使得每次训练更高效。
(3)控制器的强化学习优化
- 控制器逐渐倾向采样高性能架构,避免了大量无效的随机采样过程。
- 传统NAS:依赖随机搜索或穷举,时间复杂度高。
- ENAS:强化学习让采样逐渐聚焦于潜在优质架构,加速搜索过程。
(4)权重共享的“迁移学习”特性
- 当一个子模型训练时,其优化的权重能够被其他子模型复用。这种跨模型的权重共享类似于迁移学习,使得未被直接训练的模型也能快速适应任务。
4. 损失函数设计
ENAS的损失函数由两个部分组成:共享权重的损失和控制器的损失。
(1)共享权重的损失
共享权重的损失直接来源于采样的子模型在训练集上的性能。
- 子模型损失:
L shared = 1 N ∑ i = 1 N L ( f ( x i ; ω ) , y i ) L_{\text{shared}} = \frac{1}{N} \sum_{i=1}^N \mathcal{L}(f(x_i; \omega), y_i) Lshared=N1i=1∑NL(f(xi;ω),yi)
其中:- x i , y i x_i, y_i xi,yi:训练样本及其标签。
- L \mathcal{L} L:常用的交叉熵或均方误差损失。
- ω \omega ω:超级网络的共享权重。
(2)控制器的损失
控制器通过强化学习优化,其目标是最大化采样子模型在验证集上的性能。损失函数基于策略梯度方法:
L
controller
=
−
E
P
(
m
;
θ
)
[
R
(
m
)
]
L_{\text{controller}} = -\mathbb{E}_{P(m; \theta)} \left[ R(m) \right]
Lcontroller=−EP(m;θ)[R(m)]
其中:
- P ( m ; θ ) P(m; \theta) P(m;θ):控制器采样架构 m m m 的概率分布。
- R ( m ) R(m) R(m):子模型 m m m 的奖励函数,通常由验证集上的准确率给出。
通过策略梯度方法优化 θ \theta θ,控制器能够逐步采样出更高性能的子模型。
5. 总结与展望
ENAS通过共享权重机制,实现了在庞大搜索空间中的高效搜索,显著降低了计算成本。其成功的关键在于:
- 通过共享权重,避免重复训练候选架构。
- 权重优化过程高效,支持多子模型的协同训练。
- 强化学习控制器进一步减少无效搜索,提升时间效率。
尽管ENAS的共享权重机制解决了传统NAS中的时间开销问题,但也引入了一些新的挑战,例如共享权重可能对某些特定子模型评估不准确。未来的研究可以在共享权重的公平性和鲁棒性上进一步优化,从而提升搜索性能。
通过ENAS的探索,NAS算法的高效性得到了巨大的提升,也为神经网络搜索在实际应用中的落地提供了可能性。