教程 | 从超参数到架构,一文简述模型优化策略(2)


修剪全部节点能够减少网络的维数。它可能比选择单独修剪边更快,因为节点数量多于边,这减少了修剪时需要考虑的候选者数量。

[转载出处:www.ii77.com]


[原创文章:www.ii77.com]

He 等人 [17] 通过计算每个节点的重要性,选择从宽度为 d_ℓ的层ℓ上修剪神经元教程 | 从超参数到架构,一文简述模型优化策略。他们测试了几个重要指标,发现使用「onorm」(即节点激活模式的平均 L1 范数)可以获得最好性能:


教程 | 从超参数到架构,一文简述模型优化策略


Net-trim [18] 同样依赖 L1 范数来增加稀疏性。


Wolfe 等人 [19] 将基于重要性的修剪方法的结果与蛮力法进行对比,蛮力法基于节点对性能的影响而贪婪地选择要牺牲的节点。在蛮力法中,他们在没有每个节点的情况下在测试数据上重新运行了网络,并根据得到网络的误差对节点进行排序。它们的重要性指标是基于节点对性能影响的神经元级泰勒级数近似 [15]。


在测试的第一个算法中,他们根据节点的重要性对所有节点进行排名,然后连续删除每个节点。在第二种算法中,它们在每次节点移除后对剩余节点重新排序,以解释生成然后又被取消的子网络的影响。在第二种情况下,他们发现在 mnist 上训练的网络中可以修剪多达 60%的节点而不会显著降低性能。这与早期观察结果 [20] 相符——网络中的大多数参数是不必要的,它们的影响仅限于生成然后取消它们自己的噪声。这一结果支持这样的观点:反向传播隐性地为给定的任务训练最小网络。


Srinivas 和 Babu [21] 为了减少网络的冗余而进行了修剪,因此他们根据其权重与同层其他神经元的相似度来移除节点。而 Diversity networks [22] 根据其激活模式的多样性进行选择。为了对不同的节点选择进行采样,他们使用了 Determinantal Point Process(DPP)。该技术最小化了采样节点之间的依赖性。他们遵循这一修剪过程,融合被扦插回网络的节点。


这些论文的观察结果中出现了一个有趣的差异。Mariet 和 Sra [22] 发现,他们利用 DPP 在较深的层中采样了更多节点,而 Philipp 和 Carbonell [19] 通过在 2 层网络的较深一层中使用蛮力法修剪了更多节点。换句话说,diversity networks 在更深层保留更多节点,而贪婪的蛮力法从较深层移除了更多节点。这些结果表明这些算法各自结果之间存在根本差异,值得进一步研究。


合并节点


Mariet 和 Sra [22] 发现,如果他们将修剪的节点合并回网络中,那么在基于 DPP 的修剪之后,性能会提高。他们通过调整修剪层中剩余节点的权重来最小化修剪前后激活输出的差异,从而实现了前述现象:


教程 | 从超参数到架构,一文简述模型优化策略


由于 DPP 专注于选择一组独立的神经元,在任何给定的噪声消除系统中为保持现状可能需要至少修剪一个节点,因为这些消除子网络必然存在高度依赖。在这种情况下,噪声消除部分会合并到产生噪声的节点中,反之亦然。这将使合并在 diversity networks 中成为一种特殊的必要组件,但是它仍然可以在不同的修剪算法之后提供一种易处理的再训练替代方法。


非参数神经网络


据我所知,修剪和生长策略在一项研究中被结合在了一起。非参数神经网络 (NNN) [23] 将增加神经元与对神经元施加增加稀疏性的惩罚结合起来。对于一个具有 N^L 层的前馈网络,作者引入了两种正则化项,一种是「fan-in」,另一种是「fan-out」:


教程 | 从超参数到架构,一文简述模型优化策略


fan-in 变量惩罚每个神经元输入的 p-norm,而 fan-out 变量惩罚每个神经元输出的 p-norm。在前馈网络中,这两种正则化项均可被添加到具备任意正权重 λ 且 0


NNN 为调整网络提供了一系列有益的策略。特别是当 p=1 或 2 时,通过加压形成零值神经元,或者 fan-in 或 fan-out 值为 0 的神经元,来增加稀疏性。每隔一段时间,我们就可以移除这些零值神经元。同时,我们可以在网络的不同位置引入新的零值神经元,正则化项确保目标函数能够收敛,所以我们可以在性能开始下降的任意点停止添加神经元。


然而,这种方法存在明显的问题。第一个限制是这个正则化项不应用于任何循环网络。这种约束降低了该策略在许多自然语言领域中的有用性,在这些领域中,RNN 的性能最好。


该方法的另一个缺点是:通过将输入或输出权重向量初始化为 0 并随机初始化其他相关向量,来插入零值神经元。因此,我们每隔一段时间就重新训练整个网络,而不是智能地初始化和训练新节点来加速收敛。虽然这种方法可以收敛到最佳数量的节点,但它无法加速训练或专门化新节点。


最后,这种方法为创建最终的密集网络增加并移除了所有神经元。所以它失去了因修剪权重而得到的较稀疏网络的潜在正则化优势。


教师学生方法


通过新的训练,还可以根据现有网络生成更大或更小的模型。在研究任何自适应架构时,重要的是将使用网络之前状态的基线模型(「教师」)与具有新架构的「学生」网络进行比较。


在蒸馏学习(distillation learning)[24] 的特殊情况下引入教师学生方法,即使用教师网络的输出层来代替真正的标签。蒸馏(distillation)是一种以高性能实现大型集成压缩或昂贵分类器压缩的技术。较小的网络是通过一个目标函数来训练的,这个目标函数将应用于真实标签的损失函数与交叉熵结合起来,这个网络会和较大的教师网络的 logit 层进行对照。除压缩以外,教师学生方法对域适应技术也很有效 [25],这表明它对于适应数据调度的新时间步可能会很有效。教程 | 从超参数到架构,一文简述模型优化策略


原文链接:http://nsaphra.github.io/post/model-scheduling/



本文为机器之心编译,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com

投稿或寻求报道:content@jiqizhixin.com

广告 & 商务合作:bd@jiqizhixin.com

热门文章

  1. 太平洋证券:仿制药出海有望打开成长天花板2024-05-17
  2. 中信证券:美国加征关税对中国半导体产业影响有限2024-05-17
  3. 超长期特别国债发行前,银行抓紧上线二级资本债2024-05-17
  4. 中金公司:算力硬件市场有望步入以价换量时代2024-05-17
  5. 中信证券:把握出海五条主线,重点关注电力设备、汽车等2024-05-17
  6. 中信证券:电力设备加速出海,多因素叠加景气上行2024-05-17
  7. 中信证券:美妆国产化趋势明确,本土品牌份额有望持续提升2024-05-17
  8. 两市融资余额增加26.4亿元2024-05-17
  9. 东吴证券:叉车行业成长性强于周期性,看好成长确定性强的国产龙头2024-05-17
  10. 东吴证券:智驾车型放量元年,硬件厂商进入业绩兑现期2024-05-17
  11. 富时中国A50指数期货盘初涨0.3%2024-05-17
  12. 昨日融资资金净买入26.39亿元,20大行业获净买入2024-05-17
  13. 昨日北向资金净买入60.67亿元,银行、计算机、电子为增持前三行业2024-05-17
  14. 牧原股份:对今年猪价保持谨慎乐观态度,预计整体价格表现较去年更好一些2024-05-17
  15. 【检护民生】检护民生 为民而行——恒山区人民检察院开展“识假护农”普法宣传活动2024-05-17
  16. 启信宝是干什么的(启信宝是什么平台)2024-05-17
  17. 对话榜样丨陕西省大学生自强之星,宝职学子吕娜2024-05-17
  18. 犰狳是什么动物能吃吗(犰狳是什么动物能吃吗)2024-05-17
  19. 动力电池订单回暖,利润下滑加剧洗牌2024-05-17
  20. 《庆余年2》开播即刷屏,多家上市公司或因此受益2024-05-17
自媒体 微信号:ii77 扫描二维码关注公众号
爱八卦,爱爆料。

小编推荐

  1. 1 【极客人生】华为全联接大会之前,我在电话中跟恒少聊了聊……

    通常,我们眼中的软件开发是这个样子的……工作高端、大气、上档次,这是一件化腐朽为神奇的事儿

  2. 2 如何赢得卡槽争霸赛?流量之外,语音地位上升

    工业和信息化部的数据显示,在不限量套餐服务刺激下,移动电话用户继续保持较快增长。

  3. 3 这些盆栽植物在家里长得特好,还能变成家里的蔬菜

    在窗台、阳台上种植一些带有清新香味的植物是非常棒的,它们都特别耐养,不妨在家里种植一些香草植物,它们生长旺盛

  4. 4 朋友的一套新家 被柜子和吊顶的设计的震撼到了 真霸气

    这是我朋友的一套新家,他一直说他装饰的很低调的,我今天过去看,不得不说他家装饰的非常豪华,有隐藏不住的高调感

  5. 5 家具中的色彩魔术【家具038期】

    巧搭色彩凸显空间感

  6. 6 报名倒计时|莫干山 · 高端民宿避暑游学之旅(9月18日-21日)

    注:本次莫干山游学考察活动限定40人,目前剩余少数名额,感兴趣的朋友请尽快联系刘老师报名交费。(本期考察活动

  7. 7 130㎡原木北欧风,超多储物柜,让这个家超大气!

    家装室内设计 ,每日搜集分享国内外最前沿的家装设计、施工、建材等内容,成为您家装的好帮手!这是一套面积为

  8. 8 1平米种18盆花?只需1招,你也能行!

    每次养花的时候就觉得自己家的空间太少了,恨不得一平方摆成10平方算,今天浇大家一招,让你家1平方种满植物。挂

  9. 9 奚梦瑶T台摔惨后免试参秀?维密打的一手好牌啊!

    都是套路!

  10. 10 最狂联名一锅炖!“金主爸爸” Kith 表示自己才是冠名之王

    Kith 说第二没人敢说第一

本文内容来自网友供稿,如有信息侵犯了您的权益,请联系反馈核实

Copyright 2024.爱妻自媒体,让大家了解更多图文资讯!