网易首页 > 网易号 > 正文 申请入驻

由通用架构到存内计算架构的深度学习硬件技术

0
分享至

扩展现实(XR,包括AR和VR,分别为Augmented Reality和Virtual Reality的缩写)技术的发展,使人们实现现实世界与虚拟世界相互融合与互动的梦想成真。

AR/VR是一种由计算机软件开发的模拟环境。它创造了一种看似真实的沉浸体验。由于技术的进步,尤其是在过去五年中VR/AR技术的潜力得到了彻底释放。作为纳斯达克上市企业“微美全息US.WIMI”旗下研究机构“微美全息科学院”的科学家们对由通用架构到存内计算架构的深度学习硬件技术展开深入研究。现在,VR /AR已触及各行各业,成为产业发展的重要技术。

1. VR/AR对人工智能的需求

3D内容(包括3D模型、3D动画,和3D交互等)是VR/AR核心之一。然而,目前各个领域的3D内容尚需要大量人工进行制作,而且对制作人员的门槛要求相对较高,因而产能非常低,这是制约相关行业发展的一大瓶颈。

而人工智能(Artificial Intelligence,简称AI)则有望一定程度上实现3D内容制作的自动化,替代部分重复劳动,并提升制作效率。VR和AR的目标都包含了更加自然的交互,这正是AI要解决的目标之一。AlphaGo和AlphaZero证明了AI在一定领域内的智能,而这些领域与VR和AR存在重合,有望弥补VR和AR的智能性。

深度学习(Deep Learning,简称DL)是人工智能中的一个核心子集。近年来,DL[1]在图像分类、理解语音、玩视频游戏和语言之间翻译等任务上的改进越来越接近人类的技能水平。由于需要大量的训练数据和参数,现代深度神经网络(Deep Neural Network,简称DNN)需要付出高昂的训练成本,限制了大量应用,如VR/AR等,对DNN智能解决方案的需求。DL对算力的要求越来越高,催生底层硬件技术的发展。

下面我们试图阐述深度学习对硬件的依赖,不同硬件支持下的深度学习是如何工作的,以及DL的内存计算(In-Memory Computing,简称IMC),指出了高性能、低功耗DL硬件的发展方向。

2. 深度学习对硬件的依赖

DL模型就像一个拥有数百万(甚至更多)可调参数的巨大自组织的试错机器。在给机器输入大数据并进行数千万或数亿次训练周期的迭代后,机器可以找到与 DL 模型相关的最佳参数和权重。

目前,GPU(Graphic Processing Unit,图形处理单元)卡由于其出色的并行矩阵乘法能力和支持的软件,是DL的最佳硬件解决方案。然而,它们的灵活性(游戏支持)使它们对于DL的效率较低,这就是其他DL加速器 ASIC(Application Specific Integrated Circuit,专用集成电路)的用武之地,可提供更好的效率和性能。

但是GPU和ASIC都是建立在传统的冯•诺依曼(Von-Neumann,简称vN)架构上的。在内存和处理器之间传输数据所花费的时间和精力(所谓的冯•诺依曼瓶颈)已经成为问题,尤其是对于以数据为中心的应用,例如实时图像识别、自然语言处理,扩展现实XR。为了在vN架构之外实现更大的加速因子和更低的功率,基于非易失性存储器(non-volatile memory,简称NVM)阵列的IMC,如相变存储器(phase change memory,简称PCM)和电阻随机访问存储器(resistive random access memory,简称RRAM)已经被探索。

IMC 的向量矩阵乘法取代了 CPU/GPU(数字电路)中昂贵的高功耗矩阵乘法运算,并避免了从/向内存移动权重。因此,它有很大的潜力对DL的性能和功耗产生巨大影响。

3. 用于深度学习的硬件

图1 深度学习算法的运算谱

图1[2]显示了DL算法由一系列操作组成(图1中包括6个代表语音、语言和视觉处理的神经网络)。尽管矩阵乘法 (gemm,图1中红色部分) 占主导地位,但在保持精度的同时优化性能效率需要核心架构有效地支持所有辅助功能。图2是CPU和GPU的比较。中央处理器(Central Processing Unit,CPU)是用来处理复杂任务的,如时间切片、复杂控制流和分支、安全性等。相比之下,GPU只能做好一件事。它们处理数十亿个重复的低级任务,比如矩阵乘法。与通常只有4或8个的传统CPU相比,GPU有数千个算术逻辑单元 (Arithmetic Logic Unit,简称ALU)。

但是,GPU仍然是一种通用处理器,必须支持数百万种不同的应用程序和软件。对于数千个ALU中的每一个计算,GPU都需要访问寄存器或共享内存来读取和存储中间计算结果。由于 GPU 在其数千个 ALU 上执行更多并行计算,因此它也会按比例花费更多的能量来访问内存,并且还增加了 GPU 用于复杂布线的占用空间。为了解决这些问题,需要用于 DL 的 ASIC,TPU(Tensor Processing Unit,张量处理单元)就是一个例子[3]。

图2 CPU与GPU的架构比较

图3(a)(b)分别为TPU芯片的框图和芯片内部平面布局图[3]。它是一种专用于神经网络工作负载的矩阵处理器,能够以极快的速度处理神经网络的大量乘法和加法,同时消耗更少的功率并占用更小的物理空间。其关键推动因素是大幅减少vN瓶颈(从内存中移动数据)。通过了解DNN的目标,TPU放置数千个乘数和加法器,并将它们直接连接起来,形成一个由这些运算符组成的大型物理矩阵。对于操作,首先,TPU 将内存中的权重加载到乘法器和加法器的矩阵中。然后,TPU从内存中加载数据(特性)。随着每次乘法的执行,结果将在求和的同时传递给下一个乘法器。因此输出将是数据和参数之间所有乘法结果的总和。在海量计算和数据传递的整个过程中,根本不需要内存访问。TPU的缺点是失去了灵活性;它只支持少数特定的神经网络。

(a)框图

(b)内部平面布局图

图3 TPU芯片的框图和内部平面布局图。(a)主要的计算是黄色的Matrix Multiply unit(矩阵乘法单元)。它的输入是蓝色的Weight Fetcher(采用FIFO机制,即权重先进先出,一种数据流机制)和蓝色的Unified Buffer(统一缓冲区),它的输出是蓝色的Accumulators(累加器)。黄色的Activation Unit(激活单元)在Accumulators上执行非线性函数,进入Unified Buffer。(b)浅(蓝色)数据路径是67%,中等(绿色)I/O是10%,而深(红色)的Control(控制)只占2%的面积。在CPU或GPU中Control要大得多(也更难设计)。

4. 用于深度学习的存内计算

DNN的推理和训练算法主要涉及向量矩阵的正向和反向乘法运算。该操作可以通过存内计算(IMC)在50多年前就已经提出的2D交叉棒存储器阵列上执行[4]。如图4所示,DNN的权重(G)存储在1T(晶体管)-1R(电阻)或1T的存储单元中。通过同时在行上施加电压输入V并从列中读取电流输出I,模拟权重(G)求和是通过基尔霍夫电流定律和欧姆定律实现的。

在理想的交叉棒存储阵列中,输入-输出关系可以表示为:I= V•G。矢量-矩阵相乘是通过将输入矢量映射到输入电压V,矩阵映射到电导G,输出映射到电流I来实现的。IMC向量矩阵乘法取代了GPU/TPU(数字电路)中昂贵的高功耗矩阵乘法运算,避免了从内存中移动权重,从而大大提高了DNN的性能和功耗。使用反向传播算法加速DNN训练的演示报道了从27倍[5]到2140倍[6]的加速因子(相对于CPU),并显著降低了功耗和面积。

图4 向量矩阵乘法运算在2D交叉棒存储器阵列上的实现示意图

图 5[7]展示了使用PCM器件作为突触(权重)的DNN推理示意图,每一层的神经元通过权重wij和非线性函数f()驱动下一层。输入神经元由来自连续MNIST(机器学习领域中非常经典的一个测试数据集)图像的像素驱动,10个输出神经元识别出现了哪个数字。IMC DNN加速的一个限制是存储器件的缺陷。

通常被认为有利于存储应用的器件特性,例如高开/关比、数字按位存储或不相关的特性(如不对称Set和Reset操作)正成为加速DNN训练的限制。完美 IMC DNN存储单元加上对完美电阻器件提出特定要求的系统和CMOS电路设计,可以实现超30000倍(相对于CPU)的加速因子[8]。开发或研究DNN的IMC有很大的收益,但目前市场上还没有产品。阻止它发生的挑战包括:1、存储单元的缺陷(循环耐久性、小动态范围、电阻漂移、非对称编程)。2、层间数据传输(AD、DA转换、数字功能连接)。3、灵活的软件、框架支持(软件可重构IMC DNN)。

图5 采用PCM器件作为突触(权重)的DNN推理实现手写数字识别的示意图

5. 总结

在先进算法和计算硬件(GPU)的帮助下,深度学习将人工智能推向了一个新的水平。数以千计的并行处理ALU使GPU成为强大的机器,可以为DNN操作执行矩阵乘法。通过牺牲灵活性,像TPU一样的ASIC构建的DNN加速芯片可以实现更高的性能和更低的功耗。但利用数字电路进行矩阵乘法有其局限性。为了实现更高的加速因子和更低的功耗,面向DNN的向量矩阵乘法的存内计算IMC方法被提出。IMC虽然为DNN带来了巨大的利益,但也面临着许多挑战。例如:在IMC DNN成为现实之前,需要克服存储单元的缺陷、层间的数据传输以及支持的软件和框架。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不知道大家发现了没有?又复燃了。。。

不知道大家发现了没有?又复燃了。。。

悠闲葡萄
2024-06-29 10:08:42
国足最新消息!U16男足3-2赢球,亚洲杯预选赛C组对手出炉

国足最新消息!U16男足3-2赢球,亚洲杯预选赛C组对手出炉

体坛叨逼叨
2024-07-01 11:57:34
第一次性生活有多痛?进不去怎么办

第一次性生活有多痛?进不去怎么办

喜马拉雅主播暮霭
2024-06-12 09:53:49
拒绝复航后,莫迪又不参加上合峰会?印度想要的,中方不会答应

拒绝复航后,莫迪又不参加上合峰会?印度想要的,中方不会答应

通政司知事
2024-07-01 11:44:32
5天轻断食清肠食谱太牛了!直接掉12.5斤!

5天轻断食清肠食谱太牛了!直接掉12.5斤!

荷兰豆爱健康
2024-07-01 19:52:14
国际胸模大赛第三场海选举行,18位佳丽化身赫本,现场惊艳

国际胸模大赛第三场海选举行,18位佳丽化身赫本,现场惊艳

乙图
2024-07-01 08:24:56
最无聊欧洲杯❓上届1/8决赛,法国&瑞士+克罗地亚&西班牙进球大战

最无聊欧洲杯❓上届1/8决赛,法国&瑞士+克罗地亚&西班牙进球大战

直播吧
2024-07-02 01:57:28
当一个经济体没人愿意投资,那就不完全是信心的问题

当一个经济体没人愿意投资,那就不完全是信心的问题

永不出场的戈多
2024-06-30 10:04:30
妇女幼儿都不放过!宁夏交警暴力执法?网友:恶心

妇女幼儿都不放过!宁夏交警暴力执法?网友:恶心

说真话的小陈
2024-07-01 11:07:44
太心酸了!就业形势有多严峻?网友:已经颠成我不敢想象的样子了

太心酸了!就业形势有多严峻?网友:已经颠成我不敢想象的样子了

时尚的弄潮
2024-06-28 00:45:46
中国一姐爆冷出局!郑钦文1-2惜败,惨遭温网一轮游,创耻辱纪录

中国一姐爆冷出局!郑钦文1-2惜败,惨遭温网一轮游,创耻辱纪录

小李子爱体育
2024-07-02 03:43:06
深圳警方发布情况通报

深圳警方发布情况通报

新闻先锋
2024-07-01 15:23:27
43秒13!中国接力女队交接棒出现重大失误,无缘直通巴黎奥运会

43秒13!中国接力女队交接棒出现重大失误,无缘直通巴黎奥运会

体坛扒客
2024-05-06 08:43:37
马未都公司裁人惹争议,知情员工爆猛料。网友:地主家也没余粮了

马未都公司裁人惹争议,知情员工爆猛料。网友:地主家也没余粮了

冬天来旅游
2024-07-01 17:47:49
马斯克明码标价接2名被困航天员,印度:我愿提供自己的飞船

马斯克明码标价接2名被困航天员,印度:我愿提供自己的飞船

嘿哥哥科技
2024-07-01 22:00:34
惹祸!上海交大学生周琦,参加毕业典礼后坐上海交大门牌上拍照

惹祸!上海交大学生周琦,参加毕业典礼后坐上海交大门牌上拍照

户外阿毽
2024-06-30 15:35:02
于佳伟接受纪律审查和监察调查

于佳伟接受纪律审查和监察调查

鲁中晨报
2024-07-01 16:27:04
股市王炸一个接一个,比降印花税还要劲爆,A股周二或迎远古巨阳

股市王炸一个接一个,比降印花税还要劲爆,A股周二或迎远古巨阳

一丛深色花儿
2024-07-02 01:10:18
加入金砖的前提,俄方终于明说,想逼印度退出?中方早有言在先

加入金砖的前提,俄方终于明说,想逼印度退出?中方早有言在先

布衣的呼喊
2024-07-01 16:00:02
俄警告韩国勿采取不慎行动后,不到24小时,韩国就宣布制裁俄企

俄警告韩国勿采取不慎行动后,不到24小时,韩国就宣布制裁俄企

袁周院长
2024-07-01 10:18:45
2024-07-02 06:04:49
美股快讯圈
美股快讯圈
财经资讯,传播更有价值。
427文章数 49关注度
往期回顾 全部

科技要闻

天兵科技巩义现场工作人员:正寻找黑匣子

头条要闻

欧洲杯-法国1-0比利时晋级8强 维尔通亨自摆乌龙

头条要闻

欧洲杯-法国1-0比利时晋级8强 维尔通亨自摆乌龙

体育要闻

他们距离创造历史,只差1分33秒

娱乐要闻

今年内娱最大的闹剧,该收场了

财经要闻

债牛疯狂不止,引央行“出手”!

汽车要闻

奥迪Q6 e-tron Sportback官图曝光

态度原创

旅游
亲子
时尚
房产
公开课

旅游要闻

一大巴翻覆致两名中国游客身亡 马来西亚将对涉事旅行社启动调查程序

亲子要闻

好可爱的小宝贝。

这双鞋太火了!怎么搭都好看|好物

房产要闻

官宣去库存!海南这一区域商办产品,已无限接近住宅!

公开课

连中三元是哪三元?

无障碍浏览 进入关怀版