layout
default

嵌入式AI简报 (2019-06-29)

关注模型压缩、低比特量化、移动端推理加速优化、部署
注：PC端微信链接打不开请用手机打开

业界新闻

联发科P65正式发布：12nm、性能提升25% | 安兔兔
摘要：联发科发布了Helio P65芯片，12nm制程工艺，采用八核架构，集成两颗ARM Cortex-A75 CPU，频率为2.0GHz，以及六颗Cortex-A55处理器，频率为1.7GHz，八核丛集系统共享一个大型L3缓存。
游戏方面，该芯片内置联发科的CorePilot，可以实现智能任务调度、温控管理、用户习惯监测等，确保性能稳定，从而带给用户更好的游戏体验。
相较于上一代产品，Helio P65 的AI性能提升达2倍，同时相机识物、场景检测等拍摄，AI处理速度也要比竞品快30%。
树莓派4正式上线！「PC级」性能，支持4K双屏，仅售241元 | 机器之心
摘要：6 月 24 日，树莓派悄然发布了第四代产品 Raspberry Pi 4。新一代开发板经过了从里到外的全面革新，得益于制程和架构的提升，4 代性能预计可比上代树莓派 3B+提升 2-4 倍。树莓派开发机构（Raspberry Pi Foundation）称，这款设备可以提供「与入门级 x86 PC 系统相媲美的桌面性能」。CPU是1.5GHz的四核 64-bit ARM Cortex-A72 CPU（性能约提高 3 倍）；内存为1GB、2GB 或 4GB LPDDR4 SDRAM；
华为或将发布第二颗自研7纳米麒麟系列芯片 | 新智元
摘要：华为终端手机产品线总裁何刚消息：“我们即将成为全球首个同时拥有两颗7nm SoC芯片的手机品牌”。消息一出，立即引起网友热议，纷纷猜测传闻的麒麟810将成为继麒麟980之后，华为第二颗7nm自研芯片。
去年，华为消费者BG CEO余承东在2018德国IFA上揭幕了“史上最前芯片”麒麟980，创下全球首款商用7纳米手机SoC等6项世界第一，搭载双核NPU，性能全面碾压高通骁龙845和苹果A11。
而此次，业界普遍猜测，华为 nova 5 系列首发的 7nm 全新 SoC 就是传说中的麒麟 810。这也是麒麟 980 之后，华为第二款 7nm 自研芯片。
目前，有关麒麟 810 的规格信息所知不多。据爆料，麒麟 810 处理器可以看作是上一代麒麟 710 的升级版，性能和功耗应该都会有较大的改进。
据爆料，麒麟 810 还会首次搭载华为自研的昇腾（Ascend ）310 AI 芯片，基于达芬奇架构和采用了12 纳米工艺，传闻实际表现与麒麟 980 处理器的寒武纪 NPU 不分伯仲。
清华创新架构芯片量产！全球首款可重构超低功耗语音AI芯片 | 智东西
摘要：脱胎于清华大学Thinker团队的清微智能，发布全球首款可重构超低功耗语音人工智能（AI）芯片TX210已实现规模化量产，这是一款语音SoC芯片，针对手机、可穿戴设备、智能家居等多种应用场景的智能终端产品开发，工作功耗不超过2mW，语音活动检测（VAD）功耗小于100uW，延时不到10ms。
为了兼具高能效和可编程性，该芯片基于一种无需指令驱动的计算模式，即动态可重构计算架构（CGRA，Coarse grain reconfigurable architecture）它是一种非冯·诺依曼架构。简单而言，就是将软件通过不同的管道输送到硬件中来执行功能，使得芯片能够实时地根据软件/产品的需求改变功能，实现更加灵活的芯片设计。
此外也研发了一套兼容TensorFlow、Caffe等主流AI框架的平台，可自动完成转换、解析、编译、生成等过程。允许用户从其它框架无缝迁移清微智能的芯片。
台积电官方宣布：正式启动2nm工艺研发，工厂设置在台湾新竹，预计2024年 | 新智元
摘要：近日，全球知名半导体公司台积电官宣：正式启动2nm工艺的研发，工厂设置在位于台湾新竹的南方科技园，预计2024年投入生产；
色列ASIC芯片公司 Habana.ai 发布了 Gaudi HL-2000, ResNet-50推理性能是英伟达 Tesla V100近四倍 | 机器之心
寒武纪推出云端AI芯片「思元270」兼容INT4和INT16 | 新智元
英伟达宣布全面支持ARM高性能计算，计算平台 CUDA 也将支持 ARM 架构 | 机器之心

论文

降低分布式训练中95%的通讯成本 | 机器之心
摘要： ICML 2019 中，快手西雅图 AI 实验室和 FeDA 实验室、罗切斯特大学、苏黎世理工以及香港科技大学等机构的研究者针对分布式计算提出了两个新算法。其中一个算法在节点之间随机出现通讯中断，也可以进行稳定训练。该论文为网络不稳定情况下的算法鲁棒性提供了理论上的支持和保证。
第二个算法 DoubleSqueeze 就是本文将重点介绍的。快手西雅图 AI 实验室负责人刘霁教授表示：「这项工作是近几年最喜欢的几个工作之一，DoubleSqueeze 这种双边压缩最多可以减少超过 95% 的通讯代价，它把并行计算中的通讯代价几乎节省到了极致。」

开源项目

英伟达深度学习推理引擎TensorRT，现在开源了 | 机器之心
摘要：英伟达的深度学习推理引擎TensorRT是连接神经网络框架与GPU之间的桥梁，它支持所有种类的神经网络框架，近期也实现了容器化，目前的TensorRT是5.1版。6月17日，英伟达宣布了TensorRT的开源。
摘要：本文提出了一种基于视觉的机械臂控制系统，可以应用在价值 40 美元、完全没有传感器的廉价机械臂上。仅借助一个额外的摄像头，系统使用深度卷积神经网络，实时估计机械臂的三维姿态，并通过强化学习训练的智能体输出控制信号。进而，系统可以实现控制机械臂到达空间中任意给定三维坐标。基于此，我们还实现了自动抓取骰子的任务。此外，姿态估计和强化学习的训练完全依赖在虚拟环境中生成的数据，不需要人为进行标注与监督。
开源 TensorRT 中的解析器和插件部分，以便于深度学习社区能够做自定义、扩展组件，从而更好的利用 TensorRT 进行 app 优化；
港中文开源视频动作分析库MMAction，目标检测库算法大更新 | 机器之心
摘要：香港中文大学多媒体实验室（MMLab）OpenMMLab 发布动作识别和检测库 MMAction，同时也对去年发布的目标检测工具箱 mmdetection 进行了升级，提供了一大批新的算法实现；
开源的中文语音机器人-打造自己的智能音箱wukong-robot | 开源派
摘要：wukong-robot是国人开发的中文语音对话机器人/智能音箱项目，支持Mac，Linux系统，如ARM Linux的树莓派，目的是让中国的 Maker 和 Haker 们快速打造个性化的智能音箱。wukong-robot 被唤醒后，用户的语音指令先经过 ASR 引擎进行 ASR 识别成文本，然后对识别到的文本进行 NLU 解析，再将解析结果进行技能匹配，交给适合处理该指令的技能插件去处理。插件处理完成后，得到的结果再交给 TTS 引擎合成成语音，播放给用户。wukong-robot遵守MIT开源协议。
字节跳动开源高性能分布式训练框架BytePS，支持PyTorch、TensorFlow、MXNet | 机器之心
摘要：BytePS 的表现比 Horovod 好太多？主要原因是 BytePS 为云计算和共享集群设计，并抛弃了 MPI。MPI 是高性能计算（High Performance Computing）的产物。当需要运行单一任务时，MPI 适合用于建立在同质化硬件的计算集群上。但是云计算（或者内部共享集群）是不一样的。团队因此重新思考了最佳通信策略。总之，BytePS 不仅在机器内使用 NCCL，同时也重新部署了机器间的通信方式。 BytePS 同时继承了许多加速技术，如分级策略、管道、张量分割、NUMA-aware 本地通信、基于优先级的调度机制等。
VGG16（通信密集）和 Resnet50（计算密集）性能。测试使用了 Tesla V100 16GB GPU 集群，批大小都是 64。机器使用的是公有云上的虚拟机，每个机器有 8 个 GPU，集成了 NVLink。机器之间使用 20 Gbps TCP/IP 网络互通。在测试上，BytePS 在 Resnet50 的表现较 Horovod（NCCL）提高 44%，在 VGG16 则提升了 100%。更多请参考架构文档：https://github.com/bytedance/byteps/blob/master/docs/architecture.md

博文

GEMM caching | 知乎
摘要：这篇文章接着讲GEMM分块，测试环境为 rk3399 arm64；
基于视觉控制，40美元玩转无传感器机械臂（已开源） | 机器之心

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

2019-06-29.md

2019-06-29.md

嵌入式AI简报 (2019-06-29)

业界新闻

论文

开源项目

博文

Files

2019-06-29.md

Latest commit

History

2019-06-29.md

File metadata and controls

嵌入式AI简报 (2019-06-29)

业界新闻

论文

开源项目

博文