公司新闻

腾讯AI Lab开源自动化模型压缩框架PocketFlow 进军移

  比拟于费时费劲的人工调参,PocketFlow框架中的AutoML主动超参数优化组件仅需10余次迭代就能到达与人工调参相同的本能,正在经由100次迭代后搜求获得的超参数组合可能低浸约0.6%的精度耗损;通过运用超参数优化组件主动地确定汇集中各层权重的量化比特数,PocketFlow正在对用于ImageNet图像分类做事的ResNet-18模子举办压缩时,得到了划一性的本能擢升;当均匀量化比特数为4比特时,超参数优化组件的引入可能将分类精度从63.6%擢升至68.1%(原始模子的分类精度为70.3%)。

  开采者将未压缩的原始模子动作PocketFlow框架的输入,同时指定巴望的本能目标,比方模子的压缩和/或加快倍数;正在每一轮迭代流程中,超参数优化组件采纳一组超参数取值组合,之后模子压缩/加快算法组件基于该超参数取值组合,对原始模子举办压缩,获得一个压缩后的候选模子;基于对候选模子举办本能评估的结果,超参数优化组件调节本身的模子参数,并采纳一组新的超参数取值组合,以开头下一轮迭代流程;当迭代终止时,PocketFlow采纳最优的超参数取值组合以及对应的候选模子,动作最终输出,返回给开采者用作挪动端的模子安排。

  整个地,PocketFlow通过下列各个算法组件的有用连接,告终了精度耗损更小、主动化水平更高的深度研习模子的压缩与加快:

  正在此配景下,腾讯AI Lab机械研习中央研发了PocketFlow开源框架,以告终主动化的深度研习模子压缩与加快,助力AI技艺正在更众挪动端产物中的寻常运用。通过集成众种深度研习模子压缩算法,并更始性地引入超参数优化组件,极大地擢升了模子压缩技艺的主动化水平。开采者无需介入整个的模子压缩算法及其超参数取值的采纳,仅需指定设定巴望的本能目标,即可通过PocketFlow获得适宜需求的压缩模子,并急速安排到挪动端运用中。

  PocketFlow框架闭键由两个别组件组成,分散是模子压缩/加快算法组件和超参数优化组件,整个布局如下图所示。

  跟着AI技艺的飞速起色,越来越众的公司祈望正在本人的挪动端产物中注入AI技能,以优化用户运用体验。以深度研习为代外的AI技艺极大地擢升了图像懂得、语音识别等诸众运用周围中的识别精度,可是主流的深度研习模子往往对揣度资源央浼较高,难以直接安排到消费级挪动修设中。常用的处分计划是将庞大的深度研习模子安排正在云端,挪动端将待识其余数据上传至云端,再等候云端返回识别结果,但这对汇集传输速率的央浼较高,正在汇集笼罩不佳地域的用户运用体验较差,同时数据上传至云端后的隐私性也难以保障。

  据悉,这是一款面向挪动端AI开采者的主动模子压缩框架,集成了现时主流(囊括腾讯AI Lab自研)的模子压缩与熬炼算法,连接自研超参数优化组件告终了全程主动化托管式的模子压缩与加快。开采者无需知道整个算法细节,即可急速地将AI技艺安排到挪动端产物上,告终用户数据的当地高效治理。目前该框架正正在为腾讯的众项挪动端营业供应模子压缩与加快的技艺维持,正在众款手机APP中获得运用。

  正在腾讯公司内部,PocketFlow框架正正在为众项挪动端本质营业供应了模子压缩与加快的技艺维持。比方,正在手机照相APP中,人脸闭节点定位模子是一个常用的预治理模块,通过对脸部的百余个特点点(如眼角、鼻尖等)举办识别与定位,可认为后续的人脸识别、智能美颜等众个运用供应需要的特点数据。团队基于PocketFlow框架,对人脸闭节点定位模子举办压缩,正在依旧定位精度稳定的同时,大幅度地低浸了揣度开销,正在差异的挪动治理器上得到了25%-50%不等的加快后果,压缩后的模子曾经正在本质产物中获得安排。

  另一方面,思量到深度研习模子的熬炼周期一般较长,团队对基于TensorFlow的众机众卡熬炼流程举办优化,低浸分散式优化流程中的梯度通讯耗时,研发了名为TF-Plus的分散式优化框架,仅需十几行的代码修正即可将针对单个GPU的熬炼代码扩展为众机众卡版本,并得到挨近线性的加快比。其余,团队还提出了一种差错抵偿的量化随机梯度低浸算法,通过引入量化差错的抵偿机制加快模子熬炼的收敛速率,可能正在没有本能耗损的条件下告终一到两个数目级的梯度压缩,低浸分散式优化中的梯度通讯量,从而加快熬炼速率,闭连论文揭晓于ICML 2018 [2]。

  正在模子压缩算法方面,AI Lab机械研习中央提出了一种基于判别力最大化法则的通道剪枝算法,正在本能根基无损的条件下可能大幅度低浸CNN汇集模子的揣度庞大度,闭连论文揭晓于NIPS 2018 [1]。该算法正在熬炼流程中引入众个特别的耗损项,以擢升CNN汇集中各层的判别力,然后逐层地基于分类差错与重构差错最小化的优化目的举办通道剪枝,去除判别力相对较小的冗余通道,从而告终模子的无损压缩。正在超参数优化算法方面,团队研发了AutoML主动超参数优化框架,集成了囊括高斯流程(Gaussian Processes, GP)和树形布局Parzen推测器(Tree-structured Parzen Estimator, TPE)等正在内的众种超参数优化算法,通过全程主动化托管处分了人工调参耗时耗力的题目,大幅度擢升了算法职员的开采效用。

  e) 众GPU熬炼(multi-GPU training)组件:深度研习模子熬炼流程对揣度资源央浼较高,单个GPU难以正在短工夫内告竣模子熬炼,所以团队供应了看待众机众卡分散式熬炼的整个维持,以加快运用者的开采流程。无论是基于ImageNet数据的Resnet-50图像分类模子照旧基于WMT14数据的Transformer机械翻译模子,均可能正在一个小时内熬炼完毕。

  c) 权重量化(weight quantization)组件:通过对汇集权重引入量化管制,可能低浸用于展现每个汇集权重所需的比特数;团队同时供应了看待匀称和非匀称两大类量化算法的维持,可能充斥使用ARM和FPGA等修设的硬件优化,以擢升挪动端的揣度效用,并为改日的神经汇集芯片计划供应软件维持。以用于ImageNet图像分类做事的ResNet-18模子为例,正在8比特定点量化下可能告终精度无损的4倍压缩。

  b) 权重疏落化(weight sparsification)组件:通过对汇集权重引入疏落性管制,可能大幅度低浸汇集权重中的非零元素个数;压缩后模子的汇集权重可能以疏落矩阵的阵势举办存储和传输,从而告终模子压缩。看待MobileNet图像分类模子,正在删去50%汇集权重后,正在ImageNet数据集上的Top-1分类精度耗损仅为0.6%。

  通过引入超参数优化组件,不光避免了高门槛、繁琐的人工调参事情,同时也使得PocketFlow正在各个压缩算法上整个进步了人工调参的后果。以图像分类做事为例,正在CIFAR-10和ImageNet等数据集上,PocketFlow对ResNet和MobileNet等众种CNN汇集布局举办有用的模子压缩与加快。

  f) 超参数优化(hyper-parameter optimization)组件:大批开采者对模子压缩算法往往不甚知道,但超参数取值对最终结果往往有着宏壮的影响,所以团队引入了超参数优化组件,采用了囊括深化研习等算法以及AI Lab自研的AutoML主动超参数优化框架来按照整个本能需求,确定最优超参数取值组合。比方,看待通道剪枝算法,超参数优化组件可能主动地按照原始模子中各层的冗余水平,对各层采用差异的剪枝比例,正在保障餍足模子全部压缩倍数的条件下,告终压缩后模子识别精度的最大化。

  d) 汇集蒸馏(network distillation)组件:看待上述种种模子压缩组件,通过将未压缩的原始模子的输出动作特别的监视音信,指示压缩后模子的熬炼,正在压缩/加快倍数稳定的条件下均可能得回0.5%-2.0%不等的精度擢升。

  深度研习模子的压缩与加快是现时学术界的讨论热门之一,同时正在工业界中也有着寻常的运用前景。跟着PocketFlow的推出,开采者无需知道模子压缩算法的整个细节,也不消体贴各个超参数的采用与调优,即可基于这套主动化框架,急速获得可用于挪动端安排的精简模子,从而为AI技能正在更众挪动端产物中的运用铺平了道道。幸运六合彩投注

  【网易智能讯 9月17日新闻】腾讯AI Lab机械研习中央今日揭橥获胜研发出寰宇上首款主动化深度研习模子压缩框架PocketFlow,并即将正在近期颁布开源代码。

  正在PocketFlow框架的开采流程中,团队出席了对上述众个自研算法的维持,而且有用低浸了模子压缩的精度耗损,擢升了模子的熬炼效用,并极大地普及了超参数调整方面的主动化水平。

  正在这种处境下,稠密模子压缩与加快算法应运而生,可能正在较小的精度耗损(以至无损)下,有用擢升CNN和RNN等汇集布局的揣度效用,从而使得深度研习模子正在挪动端的安排成为也许。可是,怎么按照本质运用场景,采用符合的模子压缩与加快算法以及相应的超参数取值,往往须要较众的专业学问和实行阅历,这无疑普及了这项技艺看待凡是开采者的运用门槛。

  正在CIFAR-10数据集上,PocketFlow以ResNet-56动作基准模子举办通道剪枝,并出席了超参数优化和汇集蒸馏等熬炼计谋,告终了2.5倍加快下分类精度耗损0.4%,3.3倍加快下精度耗损0.7%,且明显优于未压缩的ResNet-44模子; 正在ImageNet数据集上,PocketFlow可能对底本曾经至极精简的MobileNet模子连续举办权重疏落化,以更小的模子尺寸得到相同的分类精度;与Inception-V1、ResNet-18等模子比拟,模子巨细仅为后者的约20~40%,但分类精度根基划一(以至更高)。

  a) 通道剪枝(channel pruning)组件:正在CNN汇集中,通过对特点图中的通道维度举办剪枝,可能同时低浸模子巨细和揣度庞大度,而且压缩后的模子可能直接基于现有的深度研习框架举办安排。正在CIFAR-10图像分类做事中,通过对ResNet-56模子举办通道剪枝,可能告终2.5倍加快下分类精度耗损0.4%,3.3倍加快下精度耗损0.7%。

联系我们

CONTACT US

联系人:张先生

手机:13988889999

电话:020-66889888

邮箱:a98004.com

地址:广东省广州市番禺经济开发区58号