Skip to content

Latest commit

 

History

History
116 lines (101 loc) · 18.9 KB

2019-12-17.md

File metadata and controls

116 lines (101 loc) · 18.9 KB
layout
default

嵌入式AI简报 (2019-12-17)

关注模型压缩、低比特量化、移动端推理加速优化、部署
注:PC端微信链接打不开请用手机打开

业界新闻

  • 华为全新5nm芯片曝光 A78架构/性能暴涨50% | 安兔兔
    摘要:麒麟1020在网上曝光,在性能方面进行了升级,性能较麒麟990系列提升了50%,据GSMArena报道,麒麟1020有可能越过Cortex-A77,直接使用Cortex-A78架构,并采用台积电5nm制程工艺。
  • 骁龙865跑分首秀:一骑绝尘猛如虎 | 安兔兔
    摘要:骁龙865的CPU部分为Kryo 585架构,相比上代提升超过25%。包括一颗2.84GHz的超大核心(Prime Core)、三个2.4GHz的性能核心(Performance Core)以及四颗1.8GHz的能效核心(Efficency Core)。其中,大核心及性能核心都是基于Cortex-A77架构,能效核心是基于Cortex-A55架构。
    GPU型号为Adreno 650,具体架构和规格信息官方并未公布,官方宣称性能比上代提升最多25%。
    此外,骁龙865移动平台还支持LPDDR5内存,频率最高为2750MHz,厂商也可继续搭配LPDDR4X内存使用。
  • 高通发布骁龙865、765,2020年Q1上市 | 雷锋网
    摘要:北京时间12月5日凌晨,高通公司详细介绍了骁龙865和765,这两款芯片模组的性能以及在5G功能上的差异,并承诺将首批搭载这两款移动平台的消费设备预计将于2020年第一季度上市。
    骁龙865专为旗舰机设备设计,涵盖了高通所有的最新无线和处理器组件,包括新款2.84GHz Kryo 585 CPU、Adreno 650 GPU、Spectra 480图像信号处理器(ISP)和第五代AI Engine。这些改进共同为下一代安卓手机在摄像头、图形和网络性能方面取得重大进展奠定了基础。
    第五代AI Engine:实现高达每秒15万亿次运算(15 TOPS),AI性能是第四代移动平台的2倍。Qualcomm® Hexagon™张量加速器是AI Engine的核心,其TOPS性能是前代张量加速器的4倍,同时运行能效2提升35%。它可以为基于AI的实时翻译提供支持,将用户语音实时翻译成外语文本和语音。此外,还包括对深度学习带宽的全新无损50%压缩,从而将SoC释放给其他任务。
    骁龙765的先进特性包括4K HDR视频传输功能,以及性能远低于15 TOPS第五代AI Engine。同时集成了X52 5G调制解调器,具有3.7 Gbps峰值下载速率和1.6 Gbps的上传速率,5G毫米波和6 GHz以下频段、5G独立(SA)和非独立(NSA)组网模式、TDD和FDD以及动态频谱共享(DSS)、全球5G漫游,以及支持多SIM卡等。此外,Kryo™ 475主频高达2.3GHz,Qualcomm® Adreno™ 620 GPU实现了20%的性能提升,可支持流畅游戏、视频渲染等特性。
  • Imagination发布PowerVR第十代GPU:IMG A系列,将在中国建研发中心 | 芯东西
    摘要:Imagination Technologies公司针对图像及视频应用,发布了PowerVR 第十代(Series10)图形处理架构IMG A系列(IMG A-Series)。据称,IMG A系列是Imagination Technologies有史以来发布的性能最强大的图形处理器(GPU)半导体知识产权(IP)产品,首次搭载该IP的SoC器件预计在2020年出货。 IMG A系列在相同的时钟和半导体工艺上,比正在出货的PowerVR设备性能提高了2.5倍,机器学习处理速度提高了8倍,且功耗降低了60%。据称,与当前可用的其它GPU IP相比,IMG A在性能、功耗、带宽和面积上都有优化,并且具有包括确保50%的图像压缩数据等特异性优势。
    紫光展锐已获得其最新一代神经网络加速器(NNA)PowerVR Series3NX半导体IP授权许可,以用于未来面向中高端移动设备市场的系统级芯片。
    IMG A系列是Imagination Technologies有史以来发布过的性能最高的移动GPU IP,主要提供四种高性能配置:
    1. IMG AXT-64-2048旗舰版,拥有2.0 TFLOPS,64 Gpixels的性能,以及8 TOPS的AI性能。
    2. IMG AXT-48-1536面向高端手机,其性能为1.5 TFLOPS、48 Gpixels和6 TOPS。
    3. IMG AXT-32-1024面向高性能移动设备和汽车应用,其性能为1 TFLOP、32 Gpixels和4TOPS。
    4. IMG AXT-16-512面向中高性能移动设备和汽车应用,其性能为0.5 TFLOPS、16 Gpixels和2 TOPS。
  • 英特尔第二代10nm处理器架构大改:L2缓存翻5倍,发力移动端 | 芯东西
    摘要:据外媒报道,英特尔Tiger Lake处理器架构将对缓存结构进行调整,L2高速缓存增加400%,达到5MB;L3高速缓存大小增加50%,达到12MB;L1指令缓存(Instruction cache)的大小提高到48KB。
    Tiger Lake为英特尔第二代10nm处理器,于今年5月推出,预计将主要用于移动端。根据目前英特尔产能情况,Tiger Lake距离完全投产还有一段时间。
  • AI芯片创企燧原科技推出首款云端AI训练芯片邃思DTU:单卡单精度20TFLOPS且支持混合精度 | 芯东西
    摘要:AI芯片创企燧原科技推出首款云端AI训练芯片邃思DTU,其采用格罗方德12nm FinFET工艺,480平方毫米主芯片上承载141亿个晶体管,实现2.5D高级立体封装,据称单卡单精度算力为业界第一,达20TFLOPS,首次支持混合精度,半精度及混合精度下算力达80TFLOPS,最大功耗仅225W,将于2020年第一季度上市。
    同时,发布首款计算及编程平台“驭算”,完全支持TensorFlow,下一阶段支持PyTorch、MXNet、ONNX等业界主流框架,零迁移成本,并为深度开发者提供SDK和定制化方案。

应用

  • Google 实时翻译功能登陆移动设备,支持 44 种语言 | 雷锋网
    摘要:Google 的 interpreter 实时翻译模式现已登陆移动设备,能够在装有 Google Assistant 的 Android 和 iOS 设备上使用。这一实时翻译功能支持 26 种语言,只需借助 Google Assistant,便可以进行实时交流翻译。
    在英语语种上,Google 在今年秋季推出了新版 Google Assistant,支持英语翻译脱机工作,并且以“接近零”的延迟处理语音,提供的答复速度也比上一代设备快了近 10 倍。
  • 谷歌 ARCore 推出一项新功能,仅用单目相机就可获取深度图像 | 雷锋网
    摘要:Android增强现实(AR)取得重大进步,近日谷歌正在为开发工具包ARCore添加Depth API,这项新功能仅用单个摄像头就可以创建深度图,而不像之前需要从两个摄像头或ToF传感器。当移动摄像头时,它会自动捕捉多个图像,然后比较这些图像来估计你与每个像素的距离。

论文

  • Google提出移动端新SOTA模型MixNets:用混合深度卷积核提升精度 | AI科技大本营
    摘要:深度卷积(Depthwise convolution)在追求高性能的卷积网络中的应用变得越来越流行,但很多忽略了卷积核的大小。
    作者研究了不同内核大小的影响,发现将多种卷积核大小的优势结合在一起可以带来更高的准确性和性能。基于此,作者提出混合深度卷积(Mixed Depthwise Convolution, MDConv),用单个卷积中混合了多个内核大小,来代替普通深度卷积。这种MDConv提升了现有MobileNet在ImageNet图像分类和COCO目标检测方面的准确性和性能。
    通过将 MDConv 集成到AutoML搜索空间中,作者进一步开发了一个名为 MixNets 的系列模型,其性能明显优于以前的模型,包括MobileNetV2(ImageNet top-1精度提升为+4.2%),ShuffleNetV2](+3.5%),MnasNet( +1.3%),ProxylessNAS(+ 2.2%)和FBNet(+ 2.0%)。特别是MixNet-L模型在传统的移动端设备条件(<600M FLOPS)下达到了最新的SOTA结果,ImageNet top-1精度为78.9%。
    论文:https://arxiv.org/pdf/1907.09595v3.pdf
    代码:https://github.com/tensorflow/tpu/tree/master/models/official/mnasnet/mixnet
  • [NeurIPS 2019] NAT: Neural Architecture Transformer for Accurate and Compact Architectures
    摘要:腾讯AI Lab主导,和华南理工大学合作完成的论文中,作者利用强化学习的方法学习了一种神经网络结构转换器,它能对任意的神经网络结构进行优化,将其转换为更紧凑、识别精度更高的结构。
    现有网络结构要么是人工设计的,要么是网络结构搜索 (NAS) 方法自动搜索得到的。然而,这些结构可能有冗余操作,为了实现结构优化,作者提出了网络结构转换器(Neural Architecture Transformer,简称为 NAT)方法。该方法用计算复杂度更低的计算操作代替网络结构中冗余的操作,性能提高的同时,保证不引入额外参数和计算量。
  • [NeurIPS 2019] 四篇快手特效中的模型压缩 | 机器之心
    摘要:本文将介绍快手四篇模型压缩方面的研究成果:
    1. Adversarially Trained Model Compression: When Robustness Meets Efficiency:https://papers.nips.cc/paper/8410-model-compression-with-adversarial-robustness-a-unified-optimization-framework
    2. Global Sparse Momentum SGD for Pruning Very Deep Neural Networks:https://papers.nips.cc/paper/8867-global-sparse-momentum-sgd-for-pruning-very-deep-neural-networks
    3. LIIR: Learning Individual Intrinsic Reward in Multi-Agent Reinforcement Learning:https://papers.nips.cc/paper/8691-liir-learning-individual-intrinsic-reward-in-multi-agent-reinforcement-learning
    4. Efficient Smooth Non-Convex Stochastic Compositional Optimization via Stochastic Recursive Gradient Descent:https://papers.nips.cc/paper/8916-efficient-smooth-non-convex-stochastic-compositional-optimization-via-stochastic-recursive-gradient-descent
  • [1912.04488] SOLO: 简单且高效的实例分割新网络
    摘要:本文作者来自阿德莱德大学和字节跳动,提出了一种新的简单方法来对图像中的实例进行分割。与许多其他密集的预测任务(例如语义分割)相比,任意数量的实例使实例分割更具挑战性。为了预测每个实例的 Mask,主流方法要么遵循“Mask R-CNN”所使用的“检测后分割(detect-then-segment)”策略,要么先预测类别masks,然后使用聚类方法将像素分组为单个实例。
    作者通过引入“实例类别(instance categories)”的概念以全新的视角解决实例分割的任务,根据实例的位置和大小为实例中的每个像素分配类别,从而将实例 mask 分割很好地转换为可分类的类别问题。现在,实例分割被分解为两个分类任务。我们展示了一个简单且灵活的实例分割框架,具有强大的性能,可达到Mask R-CNN同等的准确性,并且在准确性方面优于最近的singleshot实例分割算法。我们希望这个非常简单而强大的框架可以作为实例分割以外的许多实例级识别任务的基准。
  • [1912.04749] Efficient Differentiable Neural Architecture Search with Meta Kernels
    摘要:作者来自华科、依图和新加坡国立大学。本文提出的结构在ImageNet上77.0% Top-1 acc,仅357M FLOP,性能优于EfficientNet、MobileNetV3和MixNet等网络。
    网络架构搜索(NAS)的搜索过程非常耗时。作者提出了一种具有 meta kernels 的高效新颖的搜索策略。通过进行大量的实验来证明我们的搜索策略的有效性。具体而言,仅用 357M FLOPs即可在ImageNet基准数据集上达到77.0%的top-1准确性,在相同的FLOP约束下均优于EfficientNet和MobileNetV3。与通过最先进的NAS方法发现的模型相比,本文方法具有相同甚至更好的性能,但速度却快了三个数量级。

开源项目

  • 666DZY666/model-compression
    摘要:model compression based on pytorch:
    1. quantization: 8/4/2bits(dorefa)、ternary/binary value(twn/bnn/xnor-net);
    2. pruning: normal、regular and group convolutional channel pruning;
    3. group convolution structure;
    4. batch-normalization folding for binary value of feature(A)。
  • huawei-noah/bolt: Bolt is a deep learning toolbox with high performance and heterogeneous flexibility.
    摘要:支持的框架:caffe, onnx, tflite, pytorch (via onnx), tensorflow (via onnx);
    支持精度:fp16, int8, binary;
    支持的CV模型包括squeezenet, resnet50, mobilenet_v1, mobilenet_v2, mobilenet_v3, birealnet18等;
    支持的NLP模型包括:lstm、bert、tinybert、albert等。
    更多评价见知乎:华为移动端推理框架Bolt怎么样,https://www.zhihu.com/question/359393305
    摘要:支持的框架:caffe, onnx, tflite, pytorch (via onnx), tensorflow (via onnx);支持精度:fp16, int8, binary;目前验证的模型:CV模型包括squeezenet, resnet50, mobilenet_v1, mobilenet_v2, mobilenet_v3, birealnet18等,以及NLP模型包括:lstm、bert、tinybert、albert等。更多评价见知乎:华为移动端推理框架Bolt怎么样,https://www.zhihu.com/question/359393305
  • XiuYuLi/flexible-gemm: flexible-gemm conv of deepcore
    摘要:deepcore是一款基于CUDA的针对NVIDIA的GPU进行了深度优化的超轻量级、专为CNN批量训练量身打造的高度优化的核心计算库,在相同的算法下矩阵乘法和卷积的性能同于甚至大于最新版本的cudnn。支持的硬件:计算能力为5.0,5.2,6.0,6.1,7.0的NVIDIA GPU。其中,vdeepcore是deepcore的一个分支版本,专门针对volta优化的版本且仅支持volta GPU,由于专门针对tensor core进行了优化,因此数据结构差别很大,因此为简单以及避免代码过度膨胀,从volta开始会有一个新的分支版本且与之前的版本不兼容。该项目仍在持续开发中。

博文

  • 吴恩达deeplearning.ai新课上线:TensorFlow移动和web端机器学习 | 机器之心
    摘要:Coursera 又有 TensorFlow 专项课程了,这回的主要内容放在了 TensorFlow.js、TensorFlow Lite 等 web 或移动端的使用。
    课程地址:https://www.coursera.org/specializations/tensorflow-data-and-deployment
  • 利用 AutoML 的功能构建和部署 TensorFlow.js 模型 | TensorFlow
    摘要:TensorFlow.js (tensorflow.google.cn/js) 是一个开源库,使用 Javascript 定义、训练和运行机器学习模型。TF.js 库帮助广大 JavaScript 社区中的开发者构建和部署机器学习模型,并开创新型边缘计算。
    TensorFlow.js 支持所有主流浏览器、Node.js 中的服务器端,最近开始支持微信和 React Native。混合应用无需离开 JS 生态系统即可使用 ML 模型。在 JavaScript 应用中借助 Google Cloud 的 AutoML 服务,可用自定义模型便捷地训练与部署。
  • 处理器相同为啥性能有别?留心手机的散热设计 | 电脑爱好者
    摘要:不止一次提到过,搭载相同SoC的智能手机之间,在跑分和游戏帧数上会存在一定的差异,很大程度就是受到了散热设计的影响。
    当手机屏占比越来越高、玻璃后盖的光影效果越来越酷、摄像头数量和像素值不断增加的今天,我们更应需要留心手机在散热设计上的精简和强化。
  • 众核结构的稀疏化:eyeriss V2加速器的设计思路 | MikesICroom
    摘要:eyeriss V2是MIT团队在2018年提出的升级版。在V1的基础上,主要进行了2点改进,第一是引入了被称为hierarchical mesh的NOC结构,用来获取更好的数据和权重的重用性。其次是增加了对权重和数据的压缩处理,用来支持稀疏矩阵的运算。
  • SGADC2019丨拥抱方舟编译器:Maple IR 分析及 Toy Runtime 介绍 | 开源方舟编译器
    摘要:11月19日,在软件绿色联盟开发者大会开源与跨平台开发分论坛上,史宁宁发表了主题为《拥抱方舟开源编译器:Maple IR 分析及 Toy Runtime 介绍》的演讲,基于方舟编译器已经开源的代码和文档,对方舟编译器的IR的设计以及具体实现做介绍和分析,并将其设计与LLVM、Open64做简要的横向对比。同时,对基于方舟编译器IR的Phase体系做分析,展示其针对IR的转换和优化。除此以外,还对Toy runtime的基本情况进行介绍。本文内容主要有五个部分:
    1. 方舟编译器概况
    2. MAPLE IR的设计与实现
    3. MIR与其他IR的横向对比
    4. Phase体系的设计与实现
    5. Toy Runtime简介
  • 计算密集型服务的负载均衡策略 | 携程技术中心
    摘要:一般情况下,在计算密集型服务中,即使处理单个请求也需要使用到服务器的所有CPU。如果单台服务器连续接收到两个请求,要么两个请求互相争抢CPU,要么后来的请求排在前面的后面等待处理。最终,会导致平均处理时间变长。常规的负载均衡策略(如轮询、随机等)下,负载均衡器不关心服务器的负载情况,这就很容易造成服务器同时收到多个请求,从而使服务器的服务质量下降。
  • 阿里巴巴强大GPU算力助力搜索平台支撑双11流量洪峰、优化推荐模型推理性能 | 阿里巴巴基础设施
    摘要:虽然阿里巴巴的搜索平台采用大量异构硬件(包括GPU和FPGA等)来满足算法迭代以及搜索对象增长的需求,但是仅通过硬件堆叠所带来的性能提升是低效的,巨大的硬件资源成本已无法承受业务日益增长的计算需求。因此,对硬件资源的使用效率进行优化已经迫在眉睫。GPU在支撑算力需求起到很大作用,但相比常见的CPU系统,CPU-GPU异构系统存在着不同的特性,例如数据存储、数据传输、并行计算特征等,因此原生的算法模型在CPU-GPU异构系统中并不能完全发挥出计算性能。
    针对CPU-GPU异构系统中的计算特点,阿里巴巴采用资源分配、量化和图变换三种优化策略,从根本上对CPU-GPU异构系统的性能问题进行分析和优化,这些优化策略最终应用在搜索和推荐等多个主要场景,取得了2~3倍的性能提升,使得淘宝搜索平台的硬件资源能够支撑双11的流量洪峰。