教程 | 从超参数到架构，一文简述模型优化策略

2018-09-12 12:38:59

选自GitHub [好文分享：www.ii77.com]

作者：Naomi Saphra

[转载出处：www.ii77.com]

机器之心编译

参与：高璇、路

本文从动态超参数、自适应架构和教师学生方法三个方面介绍了模型优化策略。

模型可以在训练过程中通过修正超参数而逐步建立。这在迁移学习中最为常见，在这种环境中，我们试图将现有模型的知识应用到新领域或新任务中。这是持续学习中更常见的问题，也是一个显而易见的应用。然而，即使有预置的数据集，网络拓扑的递增约束也会为正则化带来益处。

动态超参数

在每个 epoch 中超参数都被更新的模型最容易被修改。在这种情况下，我们指的不是那些与网络拓扑相关的超参数，例如层数或维度。在训练过程中有许多机会调整拓扑，但是模型为了再次得到合理的架构通常需要大量的再训练，这在记忆网络（memory network）中已得到清晰的证明 [1]。如果我们转而关注与正则化项和门相关的权重，我们就可以逐步学习到架构，无需频繁的再训练来适应出现根本改变的拓扑。

Dropout 设置

Hinton 等人 [2] 将 dropout 描述为：通过防止完美拟合数据的特征检测器的共适应（co-adaptation）来减少过拟合。在这种解释中，共适应的神经元簇同时被激活。随机抑制这些神经元迫使它们各自发展。

在标准 dropout 中，这些共适应神经元在所有训练阶段都有相同的问题。然而，Morerio 等人 [3] 设想在训练初期，共适应可能是网络的最优自组织的开端。从这个角度看，这些结构是训练后期出现过拟合的一大威胁。因此作者介绍了一个增加 dropout 率的超参数调度（hyperparameter schedule）。据我所知，这是唯一发表的自适应正则化提议。

缓和网络（Mollifying network）

缓和网络 [4] 是目前将增量控制数据分配的技术和增量控制模型表示能力的技术结合起来的唯一尝试。缓和网络通过模拟退火来逐渐降低数据温度，同时修改各种超参数以实现更长距离的依赖。在 LSTM 中，将输出门设置为 1，输入门为 1/t，遗忘门为 1−1/t，t 是退火时间步。通过这个系统，LSTM 最初表现为词袋模型，逐渐增加了在每个时间步处理更多上下文的能力。

缓和网络对每一层使用不同的数据调度，较低层的噪声退火快于较高的层，因为较低层的表示被设定为学得更快。

自适应架构

训练期间最难修正的超参数可能是模型架构本身的拓扑超参数。尽管如此，深度学习文献包含了在训练期间适应模型架构的技术的悠久历史，这些技术通常是对学到参数的回应。这些方法可以通过在训练之初平滑函数来最优化搜索；通过从更简单的模型出发来加快学习速度；或者压缩模型使其更适用于手机或嵌入式设备。这些方法大都可分为两类：通过在训练中增加参数来塑造模型、通过修剪边或节点来压缩模型。

架构生长

最近的一些迁移学习策略依赖于不断生长的架构，这些架构通过为与现有网络 [5、6] 有关的新任务创建全新模块而得到。如果我们的目标是通过添加少量参数来扩大现有网络，那么这个问题就类似传统的非参数学习了，因为我们不需要一开始就明确限制模型空间。

经典的神经网络技术（例如级联相关网络（Cascade Correlation Network）[7] 和动态节点创建（Dynamic Node Creation）[8]）随机逐个添加新节点并分别训练。在当今的大型架构和问题上，这种做法非常复杂。此外，这类方法的主要优点是它们适用于小型模型，由于几十年来计算能力的飞跃，现代深度学习开发者不再看重这一目标。用于渐进增长网络的现代技术必须做出两个决定：1) 何时（以及在何处）添加新参数？2) 如何训练新参数？

Warde-Farley 等人 [9] 提出在完整训练完网络后将参数大批量加入。增加的形式是将专门的辅助层并行加入现有网络。这些层在类边界（class boundary）上进行训练，而这正是最初的通用模型试图解决的问题。对留出数据集的混淆矩阵进行谱聚类，并将类划分为具有挑战性的子问题，从而选择类边界。

辅助层与原始通用系统并行随机初始化，然后每个辅助层仅基于指定的类分区中的样本进行训练。除了对最后的分类层进行微调外，原始通用网络是固定的。由此产生的网络就是多专家网络，该网络被证明可以改善图像分类问题的结果。

同时 Neurogenesis Deep Learning (NDL) [10] 使自编码器拥有终身学习的能力。这种策略通过在模型遇到异常值时添加神经元来更新自编码器的拓扑结构，模型在异常值处性能较差。这些新参数仅在异常值上进行训练，使得现有的解码器参数以更小的步长进行更新。现有的编码器参数只有在直接连接到新神经元时才会更新。

在引入和训练这些新神经元之后，NDL 使用一种被作者称为「intrinsic replay」的方法稳定网络的现有结构。他们重建了之前见过样本的近似值，并在重建结果上进行训练。

另一个允许终身学习的系统是无穷受限玻尔兹曼机 (RBM) [11]。这一经典 RBM 的扩展通过独特的索引将隐藏单元参数化，表示成一个序列。这些指令通过支持旧节点直到收敛来增强网络增长的顺序，允许系统任意增长。这个方法很有趣，但如何将类似的修改应用到 RBM 的特殊生成结构以外的网络还未可知。

这些增强技术都不支持循环架构。在现代自然语言处理设置中，这是一个致命的限制。然而，这些技术中有一些可能适用于 RNN，尤其是近期训练专门子系统的问题已得到解决 [12]。

架构修剪

最近的许多研究都集中在从训练好的网络中修剪边或整个神经元。这种方法不仅可用于压缩，还有可能提高网络的泛化能力。

修剪边

修剪边而非整个神经元的步骤可能不会减少网络的维度类型。但是会使网络更稀疏，从而有可能节约内存。稀疏网络占用的参数空间更小，因此可能更通用。

Han 等人 [13] 采取的基本方法是，如果权重低于特定阈值，则将其设为 0。这种方法对于压缩非常有效，因为待删除的权重数量很容易通过阈值进行修改。

LeCun 等人 [14] 和 Hassibi 等人 [15] 都基于修剪误差变化的泰勒级数近似（Taylor series approximation）来选择权重。虽然这些方法在较老的浅层网络上是成功的，但是在整个网络上执行这些操作则需要对所有参数计算 Hessian 矩阵，这对于现代的深层架构来说比较麻烦。Dong 等人 [16] 提出了一个更有效的替代方案——在各个层上执行 optimal brain surgery。

修剪节点

上一篇：行业视角 | 不间断电源UPS系统在医疗行业的应用
下一篇：时隔3年，“类SARS病毒”魔爪再次伸向这个国家

教程 | 从超参数到架构，一文简述模型优化策略

热门文章

小编推荐

推荐文章