比 TensorFlow Lite 快 15.6 倍!业界首个移动 GPU BNN 加速引擎 PhoneBit 开源


[转载出处:www.ii77.com]

[好文分享:www.ii77.com]

头图 | CSDN 下载自视觉中国

在曩昔的几年里,深度神经收集(DNN)已经在较量机视觉和其他范畴取得了伟大的进展。然而,因为深度神经收集较高的较量复杂度,以及移动设备机能和功率限制,导致深度神经收集在移动设备上布置仍然具有挑战性。

 

为解决移动设备布置的各种缺陷和难题,中山大学无人系统研究所陈刚副传授和黄凯传授结合鹏城实验室揭橥在DATE 2020的论文 《PhoneBit: Efficient GPU-Accelerated Binary Neural Network Inference Engine for Mobile Phones》提出了业界首个基于手机 GPU 的高能效二值神经收集加快引擎,针对移动端GPU进行高度优化,比拟现有的框架,此框架在进行二值神经收集推理的同时,可大幅提拔推理速度,降低较量消费的电量以及带来更高的能耗比

 

好新闻是,今朝PhoneBit框架已在鹏城汇智开源代码托管..上正式发布。

 

项目地址

https://code.ihub.org.cn/projects/915

 

填补移动GPU二值神经收集推理较量优化空白

 

二值神经收集(Binary Neural Networks)是一种特别的神经收集,它将收集的权重和中央特征压缩为 1 个比特位,经由使用位运算替代传统的浮点运算来实现模型的压缩与加快。现有的大多数神经收集较量框架,如MXNet、Caffe、TensorFlow等,它们大多为浮点较量框架,并只针对桌面..的自力GPU优化。比拟桌面与办事器自力GPU,移动端GPU往往与CPU归并在一块芯片上作为SoC的一部门,同时存在着功率小、可分派资源少、带宽低等限制,这使得在移动端GPU长进行并行较量的优化与自力GPU有很大的分歧。


而在移动设备上,大多数轻量级框架如TensorFlow Lite,CNNdroid,Core ML,Caffe2等,它们大多支撑浮点与8bit量化,并不支撑BNN,同时存在必然兼容性问题,如TensorFlow Lite对移动GPU的支撑并不完美。


2019年8月,京东AI开源了第一个基于ARM CPU的高度优化的BNN前向流传较量框架daBNN,然则daBNN使用CPU较量使得daBNN和其他使用CPU较量的框架一般,仍然具有在运算时发烧大、消费电量快等瑕玷。是以,使用移动GPU对BNN进行推理较量优化仍然是一个空白。


PhoneBit框架及其优化简介

 

如下图所示,PhoneBit框架加载一个在其他框架上练习好的模型,模型经由转换对象的转换后,上传至移动设备,只需要简洁几步即可完成模型的布置。

 

PhoneBit框架于移动端快捷布置BNN模型

 

同时,PhoneBit框架为使用者供应了多项支撑:


1) 供应了对多种常用神经收集层的支撑,例如add,convolution,max pooling,average pooling,BN,dense,softmax等层,同时支撑shortcut构造并有对应的优化,理论上可适应大多数收集构造。

2) 支撑夹杂精度,支撑32位浮点,16位浮点,int8整数,二值化等较量体式。

3) 供应了模型转换对象,支撑从ONNX(Open Neural Network Exchange)模型转换至本框架专用模型,在转换模型的同时进行针对BNN的模型压缩与半精度浮点花样的转换,。

4) 考虑到Android应用大多采用Java编写,本框架供应了轻易的Java API支撑,使用者只需要简洁的挪用几行Java代码,即可主动实现模型的GPU推理较量。

 使用框架进行BNN模型加载与推理


在BNN前向较量过程中,因为输入特征与权重只包含1与-1两种值,是以一个输入特征和权重能够只用1个二进制位来透露,而平日的输入特征与权重是浮点数,一个浮点数需要使用32个二进制位来透露,二者相差32倍,是以,BNN比拟平日的浮点DNN,理论上能够将模型缩小32倍,同时较量上提拔32倍的速度。在较量卷积层时,有大量的向量点乘把持。在BNN中,经由数学推导,传统的浮点向量点乘把持能够被以下公式替代:


个中,是由浮点向量经由压缩后的二值向量,是向量的长度,离别是、中每个比特位。是以,在BNN中的卷积较量时采用上述公式,就能完成使用1位二进制位较量取代平日的32位较量,极大的减小了传输的数据量与较量量。同时,在BNN较量中将卷积层、Batch-Normalization(BN)层、二值化层(将浮点数据变为1与-1的层)整合,经由层与层之间的整合,层之间额外的数据传输以及较量量获得大幅度降低,从而节约时间。


同时,针对移动GPU的系统构造,PhoneBit框架采用了向量化访存与较量、归并内存接见、隐藏访存延迟、合理放置较量量负载、避免逻辑分支的判断等较量优化方式。比拟于矢量体式1次指令只能读取1个数据,向量化体式读写使得较量时GPU能够只使用1次指令即可读取多数个数据如4个、8个甚至16个,达到高效行使内存带宽的结果;归并内存接见则是将GPU中统一批较量单元放置处理内存上一连的数据,如许访存时不需要距离接见,达到最大的读写率;隐藏访存延迟则经由放置GPU中一批较量单元较量时,另一批待较量的单元同时读取数据,避免互相守候;合理放置较量量负载则是凭据较量规模的分歧,调整GPU统一批较量单元进行较量的数据量,使之不会因为较量数据量过少而造成虚耗,也不会因为数据量过多造成拥塞。避免逻辑分支则是尽或者让GPU中统一批较量单元执行沟通的前提分支代码,节约执行时间。


经由以上优化方式,PhoneBit框架速度对照如下:

 

与高通骁龙820..运行YOLOv2 Tiny收集与现有主流浮点DNN框架对比


在高通骁龙820..,运行YOLOv2 Tiny收集,比拟CNNdroid(一个基于Android RenderScript的浮点神经收集前向流传框架),PhoneBit框架实现了1218-2378倍的速度提拔,2.54-4.05倍更低的功率以及89-5263倍更高的能效比。比拟TensorFlow Lite(谷歌针对移动设备提出的轻量级神经收集前向流传框架,支撑浮点与8bit量化模式),PhoneBit框架实现了10-15.6倍的速度提拔,2-2.77倍更低的功率以及23.9-44倍更高的能效比。

 

与高通骁龙820..运行Bi-Real Net 18收集与现有基于ARM的BNN框架对比


在高通骁龙820..,运行Bi-Real Net 18收集,比拟daBNN(一个最新的基于ARM高度优化的二值神经收集框架),PhoneBit框架实现了2.6倍的速度提拔,2.62倍更低的功率以及6.8倍更高的能效比。

 

PhoneBit框架使用Bi-Real Net 18收集对物品进行分类


项目团队透露,今朝,PhoneBit框架项目仍在络续快速迭代进化,框架整体机能亦在络续提拔中,进展可以以此项目为相关范畴的科研工作者、斥地者们供应一个不乱易用、高效便捷的轻量化神经收集加快引擎,同时迎接有更多志同志合的同伙到场。

 


更多出色介绍

☞我们想研发一个机械进修框架,6 个月后失败了

☞生产型机械进修已经没那么难题了?

视频 | 你不知道的"开源"60年秘史

GitHub标星10,000+,Apache项目ShardingSphere的开源之路

阿里手艺专家敷陈你,若何画出精良的架构图?

加拿大API..若何做到30%为中国明星项目?创业老兵如许说……

你点的每个“在看”,我都卖力当成了喜欢

热门文章

  1. 分数指数幂(分数指数幂)2024-05-20
  2. 国泰航空:4月载客174万人次,同比增加26.1%2024-05-20
  3. 创科实业:行政总裁退休,Steven Richman接任2024-05-20
  4. 艾森股份:拟不低于5亿元投建艾森集成电路材料制造基地项目2024-05-20
  5. 上交所召开理性投资、价值投资、长期投资座谈会,系统发力推进投保工作2024-05-20
  6. 凌云股份:拟收购控股子公司凌云世东剩余50%股权2024-05-20
  7. 上海艾录:董事张勤拟减持不超200万股公司股份2024-05-20
  8. 方正电机:成为小鹏汽车某车型驱动电机定转子总成等零部件供应商2024-05-20
  9. 华夏幸福:增加下属公司股权份额实施债务重组,股权抵偿125亿2024-05-20
  10. ST墨龙:拟出售寿光懋隆及墨龙物流100%股权2024-05-20
  11. 山西汾酒:第二大股东华创鑫睿拟减持不超800万股公司股份2024-05-20
  12. 圣安(圣安口腔医院)2024-05-20
  13. 产品展示英文怎么写(产品展示图英文)2024-05-20
  14. cf改名卡怎么打空格(cf改名卡怎么打空格复制)2024-05-20
  15. 幼儿个人简介图片(幼儿个人简介范文)2024-05-20
  16. 2连板雷曼光电:公司PM驱动玻璃基显示产品的技术和工艺正在不断提升和完善,尚未形成收入2024-05-20
  17. 新研股份收深交所年报问询函,被要求说明公司是否存在流动性风险2024-05-20
  18. 2天1板城建发展:公司房地产主业生产经营情况与前期披露的信息相比未发生重大变化2024-05-20
  19. 复制是ctrl加什么(复制是CTRL加什么)2024-05-20
  20. 降龙木树(降龙木树)2024-05-20
自媒体 微信号:ii77 扫描二维码关注公众号
爱八卦,爱爆料。

小编推荐

  1. 1 你5G自由了吗?

    茕茕 发自 凹非寺 量子位 报道 | 公家号 QbitAI 嗨,分享一个五一假期里听到的新词。 后浪 ,不,是 5G自由 。 听过“买菜自由”、“蓝莓自由”……是不是还没听过“5G自由”。 没错,

  2. 2 员工在远程工作时维护安全面临的4个常见挑战

    点击上方“ 蓝色字体 ”,选择 “ 设为星标 ” 要害讯息,D1时间送达! 在收集平安方面,老是会显现一些问题,这是因犯难以避免工资错误。即使是最平安的系统也会带来风险,而居

  3. 3 华为回应美或出台新规:利好所有技术参与者,不涉及产品买卖

    点击上方↑↑↑ “经济参考报” 存眷我 时值美国将华为等中国企业加入“实体清单”近一年,美国当局正在从新审视这一行动给美国企业带来的影响。 路透社5月6日称,美国商务部或

  4. 4 工程之道:旷视天元框架亚线性显存优化技术解析

    机械之心发布 旷视研究院 基于梯度搜检点的亚线性显存优化方式 [1] 因为较高的较量/显存性价比受到存眷。MegEngine 经由工程扩展和优化,成长出一套行之有效的增强版亚线性显存优化

  5. 5 虚拟技术增强版,XR扩展现实技术如何改变未来博物馆!

    发 现 生 活 中 最 美 好 的 设 计 打开音乐 聆听设计伽的声音 您知道什么叫XR吗? 关于AR、VR、MR与XR之间的区别 您清楚吗? 将来,人类的交互体式将由2D交互向更具效率的3D交互改变。

  6. 6 2020智慧停车发展前景展望

    近年来,得益于物联网5G、人工智能、移动支出等手艺的成长,聪明泊车已成为了改善泊车情况、知足城市出行需求的“香饽饽”,泊车行业的智能化、信息化、规范化也获得了快速成

  7. 7 关于企业架构师,你需要知道的事

    点击上方“ 蓝色字体 ”,选择 “ 设为星标 ” 要害讯息,D1时间送达! 作为企业架构师,将负责监视、改善和升级企业办事、软件和硬件。还需要把握最新的趋势和手艺,并亲切存眷

  8. 8 属于VR输入方式的“后浪”在哪里?

    对于VR输入设备来说 更主要的是实现天然交互 文 | Sirius (VRPinea5月7日讯) 日前,索尼研究人员为了给VR掌握器带来更强的手部沉浸把持感,着手打造了一款活动掌握器原型,其展示了

  9. 9 七大主流视频会议产品安全性点评

    点击蓝字存眷我们 新冠疫情在全球持续残虐,数以万万计的员工遵循居家令长途办公,一度在国内火爆的视频会议应用也在全球遍地开花。 然则自从4月初Zoom平安性问题被全球媒体曝光

  10. 10 中国联通发布卫星互联网业务:沃星海、沃星陆、沃星空、沃星图

    近日,国度发改委首次将卫星互联网加入“新基建”领域。在周全加快5G“新基建”的同时,中国联通旗下联通航美在卫星互联网范畴也有新动作。 4月27日-30日,联通航美发布了沃星海

本文内容来自网友供稿,如有信息侵犯了您的权益,请联系反馈核实

Copyright 2024.爱妻自媒体,让大家了解更多图文资讯!