七库下载 手游攻略 手游攻略 上海交大数据库,上海交大计算机与大数据技术

上海交大数据库,上海交大计算机与大数据技术

时间:2024-04-09 03:37:04 来源:头条 浏览:0

机心柱

机器之心编辑部随着深度神经网络(DNN)模型的规模和复杂性迅速增加,传统的神经网络处理技术面临着严峻的挑战。现有的神经网络压缩技术在处理参数规模大、精度要求高的神经网络模型时效率低下,无法满足现有应用的需求。数值量化是压缩神经网络模型的有效手段。在模型推理过程中访问和计算低宽度(bit)数据可以显着节省存储空间、内存访问带宽和计算负载,从而降低推理延迟和能耗。目前,大多数量化技术的位宽是8位。更基础的量化算法需要改变硬件的操作粒度和数据流特性,以便在实际推理中获得接近理论的收益。比如混合精度量化、激活数据量化等解决方案。另一方面,这些解决方案明显增加了存储记录管理开销和硬件逻辑,降低了实际收益[1,2,3]。另一方面,一些解决方案利用色散特性来限制量化范围和粒度,以减少上述硬件开销[4, 5]。然而,精度的损失受到不同模型和参数分布的影响,因此无法满足现有应用的需求。为了实现这一目标,本文的研究人员提出了SPARK技术,这是一种用于可扩展细粒度混合精度编码的软硬件协同设计。

其主要优点是:

固有的位冗余:SPARK 不会压缩模型,但它消除了数据表示中固有的位冗余。它与现有的压缩方案正交,并且可以与它们结合使用。变长编码:SPARK创新了变长数据表示格式,可以有效压缩模型大小,而无需增加额外的记账(例如索引)成本(例如硬件、访问、更新延迟等)。这种编码方案对于模型参数和激活值的工作原理类似。硬件兼容性:SPARK不需要改变硬件加速器微架构(如脉动阵列),不会增加额外的设计复杂度,可行性很高。平衡精度和效率:对于大型模型,SPARK不仅通过高效的编码机制加快处理速度,而且还能保持准确的模型精度。与其他同类加速器相比,平均加速4.65倍,能耗降低74.7%。研究动机本研究源于对模型参数和激活值分布的观察和分析。由于权重和激活的分布具有长尾形状,因此量化数据仍然保持这种分布并表现出高度稀疏的特性。具体来说,如图1所示,按照INT8精度量化的模型参数中,大约80%的数据可以用INT4表示,只有一小部分比较重要的值需要高位宽存储。被需要。

图1 不同网络中INT4范围内的数据和INT8范围内的数据的比例为了利用数据表示中固有的位冗余,作者提出了一种变长编码方案SPARK——。 1位指示符和新的编码方式、支持混合精度的解码方式。这种编码方法易于设计并保持存储对齐。

关键方法在SPARK中,该任务仅使用最高有效位作为指示符来区分高精度和低精度数据,这与其他分离尾数和指数区域的复杂编码策略不同。同时,可以在模型训练期间模拟编码行为,而无需进行训练后微调来补偿量化带来的精度损失。编码方案及电路设计本研究以INT8量化为例,每个数据都是8位无符号整数。原始数据的编码表示为(b0,b1,b2,b3,b4,b5,b6,b7),具体编码原理如图2所示。 1、如果原编码中只有b4b7的低4位包含非0有效位,则直接进行低精度无损编码,压缩为4位。最高有效位C4 是指示位,设置为0。 2.对于原始编码如果b0到b3的高4位还包含除0以外的有效位,则进行高精度编码。其中,最高位c0 为指示位,设置为1。然后,根据b0 XOR b3的结果,决定是否执行有损近似编码或无损编码。 a) 如果原始取值范围为[8, 127],即位b3至b1包含非零有效位,则最高有效指示位不被计算为值位。如果b3 位为1,则在编码阶段将b3 位设置为0,并将低4 位C4 至C7 纠正为1111。虽然这一步有损失,但由于补偿作用,精度损失很小。 b) 如果原始取值范围为[128, 255],即b7至b0这8位全部为非零有效位,则计算最高有效指示位作为值位。如果b3 位为0,则编码级将b3 位设置为1,并将低4 位C4 至C7 偏移为0000。当然,这项工作可以更彻底地丢弃这些固定位,以进一步压缩存储空间和带宽,但在将8位数据发送到计算单元之前,需要一个解码步骤,需要用来填充固定位。这增加了解码器的硬件开销。

图2 用于各种原始数据应用的硬件实现的SPARK 编码该编码器仅需要使用众所周知的硬件模块,例如零检测器、多路复用器和异或门。具体电路设计如图3所示。b0~b4首先经过5位零检测器来判断输入编码是高精度还是低精度。如果编码精度较低,则直接输出b4、b5、b6、b7。如果编码精度较高,则直接输出b4、b5、b6、b7。然后根据公式1和公式2进行编码。

图3 SPARK方法的编码器电路设计解码方法和电路设计在这项工作中,我们设计了一种硬件友好的解码方法,并在下面解释如何将编码转换为十进制值。首先,本工作假设大端存储,解码时的输入位宽为4位,使能信号为1位。解码器电路所需的硬件模块是众所周知的多路复用器、或门和非门。具体实现如图4所示。解码器读取4 位数据并在每个周期启用一个信号。如果使能信号为1,则表示输入是编码后的高精度值的后半部分,如果使能信号为0,则如果c0=0,则认为输入是低精度值,为保持原样。编码。输出c0c1c2c3 作为解码值。如果c0=1,则指示符位将计算为由c3 确定的数字位。公式3显示了具体的判决规则,图4显示了解码器的电路设计。

图4 SPARK方法解码器设计

SPARK的整体架构与常用的张量运算核心(脉动数组、乘法累加树等)良好兼容。如图5所示,解码器放置在权重缓冲区和PE之间,参数在倒入PE数组之前进行解码。激活缓冲区和PE之间还放置了解码器,激活值在倒入PE数组之前进行解码。编码分为两部分。参数编码可以离线进行,编码和压缩的参数直接存储在DRAM中。在线硬件编码器放置在PE计算并生成激活之后。为了进一步考虑提高计算效率,可以设计通用的混合位宽运算单元(SPARK PE单元),支持两个8位操作数或四个4位操作数的两对MAC运算。

图5 SPARK整体架构图

实验结果在本文中,我们使用基于CNN和基于注意力的模型集群进行实验,在ImageNet数据集上测试VGG-16、ResNet-18和ResNet-50网络,并在GLUE数据集上测试基于BERT的模型。并测试ViT 模型。与SPARK 相比的基线架构包括Eyeiss [6]、BitFusion [7]、OLAccel [1]、ANT [8] 和Olive [9]。模型精度评估在ImageNet数据集上,与原始FP32模型相比,SPARK的平均精度损失约为0.1%,而对于基于注意力的模型,SPARK实现了更好的精度(+0.6%)。精度评价结果如表1和表2所示。

表1 SPARK与其他架构未经微调的精度损失和平均存储位宽对比

表2 SPARK与其他架构在SST-2数据集上测试BERT的精度损失和位宽比较性能和能耗评估执行效率。图5展示了不同加速器在六个网络上的执行效率比较。与其他架构相比,SPARK 在ResNet-50 网络上实现了高达4.65 倍的加速和80.1% 的显着性能提升。

图5展示了不同架构设计在能耗方面的时延对比,图6展示了不同架构在5个网络上DRAM、BUFFER和CORE的能耗贡献对比结果。对于ResNet-50,SPARK 降低高达74.7%。

图6 不同架构设计能耗对比

结论SPARK 利用数据表示中的位冗余,并将其与高效的编码和解码方案相结合,使AI 模型能够利用现有的位稀疏性,同时确保准确性要求。这节省了计算、存储和开销。 SPARK 在处理越来越大的模型时具有独特的优势。不仅可以处理大量数据,而且在精度要求较高的场景下也能保持较高的效率。这对于当前的自动驾驶、医疗诊断和语言处理等人工智能应用尤其重要。未来,这种编码方式可以进一步扩展到交换芯片、存储盘控制芯片等关键位置,以优化AI数据中心的通信瓶颈。

该研究由上海交通大学先进计算机体系结构实验室姜力教授课题组(IMPACT)完成,并得到了上海启智研究院的支持。第一作者为刘方新教授和博士生杨宁。

参考

[1] Park、Eunhyeok、Donyoung Kim 和Sungjoo Yu.“基于异常值感知低精度计算的节能神经网络加速器”,2018 ACM/IEEE 第45 届计算机体系结构国际研讨会(ISCA)。IEEE,2018 。

[2] Zadeh、Ali Hadi 等人,“Gobo: 用于低延迟和节能推理的基于注意力的NLP 模型的量化”,2020 年第53 届IEEE/ACM 国际微架构研讨会(MICRO),IEEE,2020。

[3]Guo, Cong 等人,“OliVe: 通过硬件友好的异常值-受害者部分量化加速大型语言模型。”第50 届计算机体系结构国际研讨会论文集。2023 年。

[4] Song, Zhuoran, et al.“Drq: 基于动态域的深度神经网络加速量化”,2020 ACM/IEEE 第47 届计算机架构国际研讨会(ISCA),IEEE,2020。

[5] Jain、Shubham 等人,“使用BiScaled-DNN: 深度神经网络的两个比例因子对长尾数据结构进行量化”,2019 年第56 届年度设计自动化会议论文集。

[6] Y. -H. Chen、T. Krishna、J. S. Emer 和V. Sze,“Eyeriss: 用于深度卷积神经网络的节能可重构加速器”,IEEE 固态电路杂志,第52 卷,第52 期. 1,第127-138 页,2017 年1 月。

[7] H. Sharma 等人,“用于加速深度神经网络的Bit Fusion: 位级动态可组合架构”,2018 年ACM/IEEE 第45 届计算机架构国际研讨会(ISCA),美国加利福尼亚州洛杉矶,2018 年。第764-775 页。

[8] C.Guo 等人,“ANT: 利用自适应数值数据类型进行低位深度神经网络量化”,2022 年第55 届IEEE/ACM 国际微架构研讨会(MICRO),美国伊利诺伊州芝加哥,2022 年。 1414-1433。

[9]Guo, Cong 等人,“OliVe: 通过硬件友好的异常值-受害者部分量化加速大型语言模型”,国际计算机体系结构研讨会(ISCA) 论文集,2023 年。

标题:上海交大数据库,上海交大计算机与大数据技术
链接:https://www.7kxz.com/news/gl/20395.html
版权:文章转载自网络,如有侵权,请联系删除!
资讯推荐
更多
天地劫幽城再临归真4-5攻略:第四章归真4-5八回合图文通关教学

天地劫幽城再临归真4-5攻略:第四章归真4-5八回合图文通关教学[多图],天地劫幽城再临归真4-5怎么样八回合内通

2024-04-09
航海王热血航线艾尼路怎么玩?艾尼路加点连招攻略大全

航海王热血航线艾尼路怎么玩?艾尼路加点连招攻略大全[多图],航海王热血航线艾尼路怎么加点?艾尼路怎么连招?关

2024-04-09
坎公骑冠剑国际服怎么玩?国际服新手攻略

坎公骑冠剑国际服怎么玩?国际服新手攻略[多图],坎公骑冠剑国际服的玩法是什么样的?关于游戏中的一些新手玩法

2024-04-09
王者荣耀鸿运6+1地狱之眼怎么抽?鸿运抽奖地狱之眼概率获取攻略

王者荣耀鸿运6+1地狱之眼怎么抽?鸿运抽奖地狱之眼概率获取攻略[多图],王者荣耀鸿运抽奖活动的奖池中还有传说

2024-04-09