中国首款嵌入式神经网络处理器(NPU)芯片已于今年3月6日实现量产

发布日期:2016-09-09



OFweek电子工程网 讯 6月20日,记者从中星微“数字多媒体芯片技术”国家重点实验室获悉,经过五年多的攻坚克难和不懈努力,中国首款嵌入式神经网络处理器(NPU)芯片已于 今年3月6日实现量产,这标志着我国在神经网络处理器领域的研究和开发上取得了重大突破,在基于“数据驱动并行计算”架构的人工智能深度学习领域达到国际 先进水平。


“目前已成功在视频监控领域实现产业化,下一步将广泛应用于智能驾驶辅助、无人机、机器人等嵌入式机器视觉领域。”该国家重点实验室执行主任、中星微电子集团首席技术官张韵东向记者透露,“现在的出货量已经超过了10万颗。”


 从时间上看,几个月前的3月9日,人工智能AlphaGo与李世石的第一场围棋大战才刚刚拉开帷幕。而在就3天前的3月6日,具有人工智能深度学习功能 的中国首款嵌入式神经网络处理器(NPU)芯片“星光智能一号”已成功量产。AlphaGo要运行在一个庞大的服务器集群上,下一盘棋仅花费的电费就高达 3000美元。而指甲盖大小的“星光智能一号”却实现了人工智能深度学习系统的低功率和小型化,并能够应用于嵌入式系统之中。


颠覆冯诺依曼架构 为人工智能而生


在不久前的人机大战中,AlphaGo依靠模仿人脑生物机理的深度学习算法而击败李世石。深度学习,是源于对生物人脑机理的仿生学研究而形成的一种 人工智能算法。作为深度学习神经网络的一种,卷积神经网络CNN (Convolutional Neural Network)算法,已成为当前人工智能机器视觉领域的研究热点。


CNN算法模型的特性可以概括为海量的输入数据、大规模的MAC运算、稀疏的权值矩阵、灵活的数据位宽和多样的网络拓扑等特性。对于传统冯诺依曼结构的CPU而言,其串行执行方式实在无法高效处理大量并行性运算,所以执行CNN算法的效率非常低下。


相当于CPU,GPU的高度并行化运算单元,相对更适合神经网络的大量并行运算方式。但是,GPU的设计初衷是为了进行3D图形处理,不仅功耗大、价格高,而且并不适合嵌入式环境。同理,DSP、FPGA等主流处理器也并不适合CNN。


为此,国内外主流企业和机构也都在针对CNN算法的处理器上下很了大功夫,研制自家的CNN处理器。如IBM公司的TrueNorth,高通公司的Zeroth,Google公司的TPU,KnuEdge公司的KnuPath和中国科学院的寒武纪等。


而中星微的NPU是针对CNN的算法模型特性专门设计的一款神经网络处理器。据张韵东介绍,NPU采用了“数据驱动并行计算”的架构,彻底颠覆了传统的 冯诺依曼架构。这种数据流(Dataflow)类型的处理器,极大地提升了计算能力与功耗的比例,特别擅长处理视频、图像类的海量多媒体数据,使得人工智 能在嵌入式机器视觉应用中可以大显身手。


据了解,每个NPU处理器具有4个内核(NPU Core),每个内核有两个数据流处理器(Dataflow Processor),每个数据流处理器具有8个长位宽或16个短位宽的SIMD(单指令多数据)运算单元。在一个时钟周期内可同时完成64个长位宽 MAC运算或者128个短位宽MAC运算。每个NPU核具有38GOps的长位宽处理能力或者76GOps的短位宽处理能力。NPU的处理性能可以组成多 核阵列来提升,也可以通过多芯片级联的方式进一步扩展,以满足更复杂的CNN网络运算的性能需求。


“每个NPU核还具有256KB Level-2 Cache,以及整块数据搬移(Block Data Access),片内数据共享(Data-sharing Between Processor Units),提升数据流的吞吐效率。” 张韵东表示,“在软件方面,利用了稀疏数据优化(Optimization for Sparse Data)等特性提高计算效率。NPU可以支持Caffe、TensorFlow等多种神经网络框架,支持AlexNet、GoogleNet等各类神经 网络。”


国家重点实验学术委员会主任杨晓东表示,星光智能一号芯片集成了NPU处理器内核以及国家标准的音视频编解码器(SVAC Codec),是全球首颗具备人工智能深度学习能力的嵌入式视频采集压缩编码系统级芯片。记者还了解到,目前,中星微NPU芯片的代工生产在台积电进行,下一步有望转由我国大陆企业生产。


只是“智能摩尔之路”的第一步


随着星光智能一号在视频监控领域的应用,监控系统可以通过高清视频的采集和编码,对人员、车辆进行基于深度学习的智能化目标识别,实现视频的结构化 描述,关联视频和标签,并接入公安平台保存录像和索引信息。在接到报案信息后,刑侦人员可以通过搜索结构化描述标签,直接定位视频,获取现场图像,从而确 认嫌疑人。


说得通俗些,以后我们可以直接用蓝白条纹T恤、黑裤子、男性这样的关键词对视频中的内容进行搜索。同理,如果在商品展示橱窗 中设置NPU视频智能监控系统,我们将很容易得知被展示的产品吸引了多少人的目光,以及这些人的性别、外貌等具体特征,配合大数据分析,又将有多少传统行 业会被颠覆?


人工智能的好戏才刚刚揭开序幕。除了视频监控领域,NPU很快会在智能驾驶辅助、无人机、机器人等领域带给我们更多惊喜。


未来,对信息处理性能的需求还将不断提升,如何才能找到一条后摩尔定律时代的创新之路?对此,业界有两种观点:一是继续推进摩尔定律(More Moore),即继续在新型材料、工艺制程和器器件结构上努力,将摩尔定律再推进一步。二是超越摩尔定律(More than Moore),即通过SoC将数字电路、模拟存储器甚至射频电路集成在一颗芯片里以实现更多功能,或者通过SIP采用多芯片堆叠的方式,将多颗裸芯片封装在一起。


“正如业界所言,随着逐步逼近香农定理、摩尔定律的极限,面对大流量、低延时的理论还未创造出来,大家感到前途茫茫,找不到方向。”张韵东说,“而NPU正是一块引玉之砖。”


面对摩尔定律的尽头,中星微给出了全新的技术路线——智能摩尔之路(Intelligent Moore)。其内涵是,虽然物理层面和信号层面都受到物理规律的制约,但在信息层面的技术创新还远没有达到极限。如何进一步借鉴人脑智慧机制,研究新型 人工智能计算方法,进一步提升信息处理的性能功耗价格比,可能是下一次信息革命的关键。


张韵东表示,中星微国家重点实验室在未来的五年中,会持续开展新型“数据驱动”并行计算架构的研究工作,采用更加接近生物人脑的工作机理的方式,推出更低功耗更高运算性能的下一代神经网络处理器,在摩尔定律的尽头探索一条继续提升信息处理效率的前行之路。