[好文分享:www.ii77.com]
头图 | CSDN 下载自视觉中国
在曩昔的几年里,深度神经收集(DNN)已经在较量机视觉和其他范畴取得了伟大的进展。然而,因为深度神经收集较高的较量复杂度,以及移动设备机能和功率限制,导致深度神经收集在移动设备上布置仍然具有挑战性。
为解决移动设备布置的各种缺陷和难题,中山大学无人系统研究所陈刚副传授和黄凯传授结合鹏城实验室揭橥在DATE 2020的论文 《PhoneBit: Efficient GPU-Accelerated Binary Neural Network Inference Engine for Mobile Phones》提出了业界首个基于手机 GPU 的高能效二值神经收集加快引擎,针对移动端GPU进行高度优化,比拟现有的框架,此框架在进行二值神经收集推理的同时,可大幅提拔推理速度,降低较量消费的电量以及带来更高的能耗比。
好新闻是,今朝PhoneBit框架已在鹏城汇智开源代码托管..上正式发布。
项目地址:
https://code.ihub.org.cn/projects/915
填补移动GPU二值神经收集推理较量优化空白
二值神经收集(Binary Neural Networks)是一种特别的神经收集,它将收集的权重和中央特征压缩为 1 个比特位,经由使用位运算替代传统的浮点运算来实现模型的压缩与加快。现有的大多数神经收集较量框架,如MXNet、Caffe、TensorFlow等,它们大多为浮点较量框架,并只针对桌面..的自力GPU优化。比拟桌面与办事器自力GPU,移动端GPU往往与CPU归并在一块芯片上作为SoC的一部门,同时存在着功率小、可分派资源少、带宽低等限制,这使得在移动端GPU长进行并行较量的优化与自力GPU有很大的分歧。
而在移动设备上,大多数轻量级框架如TensorFlow Lite,CNNdroid,Core ML,Caffe2等,它们大多支撑浮点与8bit量化,并不支撑BNN,同时存在必然兼容性问题,如TensorFlow Lite对移动GPU的支撑并不完美。
2019年8月,京东AI开源了第一个基于ARM CPU的高度优化的BNN前向流传较量框架daBNN,然则daBNN使用CPU较量使得daBNN和其他使用CPU较量的框架一般,仍然具有在运算时发烧大、消费电量快等瑕玷。是以,使用移动GPU对BNN进行推理较量优化仍然是一个空白。
PhoneBit框架及其优化简介
如下图所示,PhoneBit框架加载一个在其他框架上练习好的模型,模型经由转换对象的转换后,上传至移动设备,只需要简洁几步即可完成模型的布置。
PhoneBit框架于移动端快捷布置BNN模型
同时,PhoneBit框架为使用者供应了多项支撑:
1) 供应了对多种常用神经收集层的支撑,例如add,convolution,max pooling,average pooling,BN,dense,softmax等层,同时支撑shortcut构造并有对应的优化,理论上可适应大多数收集构造。
2) 支撑夹杂精度,支撑32位浮点,16位浮点,int8整数,二值化等较量体式。
3) 供应了模型转换对象,支撑从ONNX(Open Neural Network Exchange)模型转换至本框架专用模型,在转换模型的同时进行针对BNN的模型压缩与半精度浮点花样的转换,。
4) 考虑到Android应用大多采用Java编写,本框架供应了轻易的Java API支撑,使用者只需要简洁的挪用几行Java代码,即可主动实现模型的GPU推理较量。
使用框架进行BNN模型加载与推理
在BNN前向较量过程中,因为输入特征与权重只包含1与-1两种值,是以一个输入特征和权重能够只用1个二进制位来透露,而平日的输入特征与权重是浮点数,一个浮点数需要使用32个二进制位来透露,二者相差32倍,是以,BNN比拟平日的浮点DNN,理论上能够将模型缩小32倍,同时较量上提拔32倍的速度。在较量卷积层时,有大量的向量点乘把持。在BNN中,经由数学推导,传统的浮点向量点乘把持能够被以下公式替代:
个中,与是由浮点向量经由压缩后的二值向量,是向量的长度,与离别是、中每个比特位。是以,在BNN中的卷积较量时采用上述公式,就能完成使用1位二进制位较量取代平日的32位较量,极大的减小了传输的数据量与较量量。同时,在BNN较量中将卷积层、Batch-Normalization(BN)层、二值化层(将浮点数据变为1与-1的层)整合,经由层与层之间的整合,层之间额外的数据传输以及较量量获得大幅度降低,从而节约时间。
同时,针对移动GPU的系统构造,PhoneBit框架采用了向量化访存与较量、归并内存接见、隐藏访存延迟、合理放置较量量负载、避免逻辑分支的判断等较量优化方式。比拟于矢量体式1次指令只能读取1个数据,向量化体式读写使得较量时GPU能够只使用1次指令即可读取多数个数据如4个、8个甚至16个,达到高效行使内存带宽的结果;归并内存接见则是将GPU中统一批较量单元放置处理内存上一连的数据,如许访存时不需要距离接见,达到最大的读写率;隐藏访存延迟则经由放置GPU中一批较量单元较量时,另一批待较量的单元同时读取数据,避免互相守候;合理放置较量量负载则是凭据较量规模的分歧,调整GPU统一批较量单元进行较量的数据量,使之不会因为较量数据量过少而造成虚耗,也不会因为数据量过多造成拥塞。避免逻辑分支则是尽或者让GPU中统一批较量单元执行沟通的前提分支代码,节约执行时间。
经由以上优化方式,PhoneBit框架速度对照如下:
与高通骁龙820..运行YOLOv2 Tiny收集与现有主流浮点DNN框架对比
在高通骁龙820..,运行YOLOv2 Tiny收集,比拟CNNdroid(一个基于Android RenderScript的浮点神经收集前向流传框架),PhoneBit框架实现了1218-2378倍的速度提拔,2.54-4.05倍更低的功率以及89-5263倍更高的能效比。比拟TensorFlow Lite(谷歌针对移动设备提出的轻量级神经收集前向流传框架,支撑浮点与8bit量化模式),PhoneBit框架实现了10-15.6倍的速度提拔,2-2.77倍更低的功率以及23.9-44倍更高的能效比。
与高通骁龙820..运行Bi-Real Net 18收集与现有基于ARM的BNN框架对比
在高通骁龙820..,运行Bi-Real Net 18收集,比拟daBNN(一个最新的基于ARM高度优化的二值神经收集框架),PhoneBit框架实现了2.6倍的速度提拔,2.62倍更低的功率以及6.8倍更高的能效比。
PhoneBit框架使用Bi-Real Net 18收集对物品进行分类
项目团队透露,今朝,PhoneBit框架项目仍在络续快速迭代进化,框架整体机能亦在络续提拔中,进展可以以此项目为相关范畴的科研工作者、斥地者们供应一个不乱易用、高效便捷的轻量化神经收集加快引擎,同时迎接有更多志同志合的同伙到场。
更多出色介绍
☞我们想研发一个机械进修框架,6 个月后失败了
☞生产型机械进修已经没那么难题了?
☞视频 | 你不知道的"开源"60年秘史
☞GitHub标星10,000+,Apache项目ShardingSphere的开源之路
☞阿里手艺专家敷陈你,若何画出精良的架构图?
☞加拿大API..若何做到30%为中国明星项目?创业老兵如许说……
你点的每个“在看”,我都卖力当成了喜欢
茕茕 发自 凹非寺 量子位 报道 | 公家号 QbitAI 嗨,分享一个五一假期里听到的新词。 后浪 ,不,是 5G自由 。 听过“买菜自由”、“蓝莓自由”……是不是还没听过“5G自由”。 没错,
点击上方“ 蓝色字体 ”,选择 “ 设为星标 ” 要害讯息,D1时间送达! 在收集平安方面,老是会显现一些问题,这是因犯难以避免工资错误。即使是最平安的系统也会带来风险,而居
点击上方↑↑↑ “经济参考报” 存眷我 时值美国将华为等中国企业加入“实体清单”近一年,美国当局正在从新审视这一行动给美国企业带来的影响。 路透社5月6日称,美国商务部或
机械之心发布 旷视研究院 基于梯度搜检点的亚线性显存优化方式 [1] 因为较高的较量/显存性价比受到存眷。MegEngine 经由工程扩展和优化,成长出一套行之有效的增强版亚线性显存优化
发 现 生 活 中 最 美 好 的 设 计 打开音乐 聆听设计伽的声音 您知道什么叫XR吗? 关于AR、VR、MR与XR之间的区别 您清楚吗? 将来,人类的交互体式将由2D交互向更具效率的3D交互改变。
近年来,得益于物联网5G、人工智能、移动支出等手艺的成长,聪明泊车已成为了改善泊车情况、知足城市出行需求的“香饽饽”,泊车行业的智能化、信息化、规范化也获得了快速成
点击上方“ 蓝色字体 ”,选择 “ 设为星标 ” 要害讯息,D1时间送达! 作为企业架构师,将负责监视、改善和升级企业办事、软件和硬件。还需要把握最新的趋势和手艺,并亲切存眷
对于VR输入设备来说 更主要的是实现天然交互 文 | Sirius (VRPinea5月7日讯) 日前,索尼研究人员为了给VR掌握器带来更强的手部沉浸把持感,着手打造了一款活动掌握器原型,其展示了
点击蓝字存眷我们 新冠疫情在全球持续残虐,数以万万计的员工遵循居家令长途办公,一度在国内火爆的视频会议应用也在全球遍地开花。 然则自从4月初Zoom平安性问题被全球媒体曝光
近日,国度发改委首次将卫星互联网加入“新基建”领域。在周全加快5G“新基建”的同时,中国联通旗下联通航美在卫星互联网范畴也有新动作。 4月27日-30日,联通航美发布了沃星海
本文内容来自网友供稿,如有信息侵犯了您的权益,请联系反馈核实
Copyright 2024.爱妻自媒体,让大家了解更多图文资讯!