七库下载 手游攻略 手游攻略 risc-v ai芯片,risc-v架构的芯片

risc-v ai芯片,risc-v架构的芯片

时间:2024-04-09 03:19:04 来源:头条 浏览:0

来源:本内容由半导体行业观察者(ID:icbank)“wikichip”整理,谢谢。

如果你询问10 位不同的工程师如何设计人工智能加速器,你会得到10 种不同的方法来将数十亿个晶体管放置在最新的尖端芯片上。

来到Esperanto Technologies,公司创始人Dave Ditzel和他的同事在CPU设计方面拥有丰富的经验,因此他们对设计机器学习芯片有独特的见解。 Esperanto 成功地将基于RISC-V 设计的1,100 个内核集成到其首款AI 加速器ET-SoC-1 中,预算约为240 亿个晶体管。

ET-SoC-1 是“Esperanto Technologies Supercomputer-on-Chip 1”的缩写。它是一款针对超大规模数据中心市场的产品,也是初创公司Esperanto系列人工智能加速器中的首款产品。 ET-SoC-1 是一款推理加速器,而不是训练加速器。芯片设计已经完成,但截至今年年初,我们还没有看到他们的芯片。但到了2020 年,每个人都在谈论世界语。毫无疑问,公司的发展计划明显落后于计划。这是因为,如果新的时间表不变,这些芯片应该会在本季度恢复生产,并计划于2022 年初开始生产。

当其他人工智能初创公司花费一年多的时间来生产芯片样品时,两年的延迟代价高昂。尽管如此,Esperanto 终于准备好在8 月份的Hot Chips 33 会议上分享新芯片的技术细节。

Esperanto Technologies 首席执行官Art Swift 透露了有关该芯片性能的一些事实。 Swift 表示:“我们的目标是将推荐网络等关键工作负载的性能提高高达50 倍,将图像分类的性能提高高达30 倍。”

该声明引用了ET-SoC-1 的全芯片仿真结果,与“数据中心现有竞争对手”的测量推理基准进行比较。 “但也许更令人兴奋和重要的是我们的芯片可以实现的功率性能改进。与现有解决方案相比,我们预计每瓦能源效率将提高100 倍。”补充道。

尽管这些广泛的性能陈述应该持保留态度,但Esperanto 表示,我们预计硅表征结果将在不久的将来发布。

平铺

世界语采用基于瓦片架构的传统设计。该芯片采用该公司定制设计的RISC-V 兼容CPU 内核,使用具有传统内存层次结构的标准DDR4 内存,并利用整个可用的RISC-V 软件生态系统。换句话说,就所有实际用途而言,ET-SoC-1 作为标准RISC-V 服务器CPU 通过了鸭子测试,尽管拥有大量简单内核,但它能够处理常见工作负载。表现。

事实上,Esperanto 相信他们的解决方案正是因为这个原因而很有前途。该公司表示,它结合了大量的CPU,可以从数百个内核扩展到数千个内核。事实上,ET-SoC-1 是为数据中心设计的,因此您可以期待针对边缘推理等低功耗应用的缩小版本。当Esperanto 第一次开始在非常高的层面上谈论他们的设计时,理论上该芯片的内核数量是本文中描述的ET-SoC-1 的四倍。一旦Esperanto 的设计得到验证,在这些方向上扩展ET-SoC-1 并不超出Esperanto 的能力。

定制核心

世界语走的是RISC-V路线。他们设计了两个定制内核:——ET-Minion 和ET-Maxion。顾名思义,ET-Maxion是典型的大核设计,能够运行Linux等标准操作系统。同样,ET-Minion 是一款旗舰级小型CPU,具有自定义张量扩展来处理矩阵乘法等运算。在ET-SoC-1 环境中,ET-Maxion 充当控制CPU,ET-Minions 执行批量数据处理。

(1)ET-马迅

如前所述,ET-Maxion 是定制的高性能大核心设计。基于台积电7nm工艺设计,主频超过2GHz。

ET-Maxion 实际上是加州大学伯克利分校乱序机(BOOM) v2 CPU 的一个分支,但进行了许多更改/改进,使其更具竞争力并成为商业产品。这种品质之所以受到追捧,是因为它基于其血统。此刻已经快认不出来了。

事实上,BOOM 的开发者Chris Celio 已经转投世界语,从事ET-Maxion 的工作(尽管他自2020 年以来已加入英特尔担任CPU 架构师)。与BOOM 相比,ET-Maxion 照顾到机器的各个方面。它更宽、更长、更大。整个前端进行了重新设计,各个执行单元也进行了重新设计。

它具有最先进的新分支预测和预取器功能。有一个新的底层缓存和支持ECC 的TLB。最后,Esperanto 增加了商业级芯片调试和性能监控功能。在性能方面,据说ET-Maxion 在SPEC2006 ISO 频率上略落后于Cortex-A72,但高于Cortex-A57。在SiFive 最近推出P550 之前,ET-Maxion 可能是RISC-V 领域中性能最高的内核。最近,SiFive 于2006 年推出了P550 内核,其SPECInt 得分为8.65/GHz,在IPC 中的性能显着优于ET-Maxion(和A72)。

ET-Maxion 是一个具有10 级流水线的乱序CPU 内核。该核心是四倍宽机器——,可以以每周期4 条指令的速率获取、解码每周期16B 数据并将其分派到后端。指令从具有奇偶校验和ECC 支持的32 KiB 分块指令缓存中获取。 Esperanto 表示,已经对新的最先进的条件预测器和基于路径的间接预测器进行了大量研究,这些预测器利用2K 条目的压缩BTB。

分支预测器包括两级预测器。基于BTB 的快速单周期预测器执行初始猜测。这是由可能覆盖它的第二级、较慢、多周期、精确分支预测器支持的。

每个周期最多可以向调度器发送四个指令。 ET-Maxion 采用分布式调度器设计,总容量为64 个条目。其中,LSU有调度器,FPU有调度器,复杂ALU有调度器,简单ALU有调度器。请注意,有两个简单的ALU,复杂的ALU 单元也可以处理分支操作。

执行单元由64项浮点物理寄存器文件和128项整数物理寄存器文件提供。在执行单元方面,机器宽度为5,一个调度器上有两个简单整数单元。每个周期最多可以安排执行5 条指令。浮点单元宽度为64b,完全支持RISC-V 32位(F)和64位(D)浮点扩展。

总体而言,该核心受到128 项重排序缓冲区的限制,这使其能够在每个周期踢出最多4 条指令,类似于机器的前端。

Esperanto 最初考虑使用定制ISA,但最终选择了RISC-V,因为它简单。该公司解释说,简单的架构使其能够专注于性能特性,而不是解决其他ISA 的极端问题。

ET-Maxion 平面图如下:请注意,这不显示L2 核心。从模具图中可以看出,缓存阵列(几乎占空间的1/3)和分支预测单元使用了大量空间。核心顶部是硬件预取器(HPF)(仅限L1),与其他组件相比,它相当大。选择使用更积极(更慢但更准确)的预取器,允许将预取器放置在关键路径的上方和外部,从而简化了接线。

(2)ET-小黄人

ET-Minion 是Esperanto 的第二个定制CPU 内核。这个内核与之前的内核有很大不同,而且更有趣一些。 ET-Minion也是64位RISC-V处理器,但它是订单机。

由于这是一个注重吞吐量的核心,因此它也是多线程的,有两个线程可以在停顿之间交替。 ET-Minion 使用流水线标量设计—— 在每个周期获取、解码和发出一条指令。 (请注意,下图中可能缺少一些细节,因为世界语主要描述核心矢量特征。)

世界语加速推理的秘密武器是ET-Minion 执行引擎。 ET-Minion 的后端是矢量型的,只有一个执行单元来执行RISC-V 架构上所需的所有(64b) 操作。核心的大部分由两个矢量管道组成。有一个256b浮点向量单元和一个512b整数向量单元。这些向量单元带有两个寄存器文件——:32条目256b FP寄存器文件(寄存器文件)和32条目256b整数寄存器文件。请注意,每个线程的这些寄存器文件都是重复的(即总共64 个条目)。

FP 向量单元分为8x32 位FMA,最多可执行16 SP FLOP/周期或32 HF FLOP/周期。整数向量单元的宽度为512b,是FP 向量单元宽度的两倍。该单元被划分为16x32 位TIMA,每个周期最多可执行128 个INT8 OP。虽然可以从FP 向量寄存器文件导入FP 向量单元,但双宽整数向量单元将从FP 向量寄存器文件中获取一半向量(256b),另一半作为组合的512- 必须获得。来自您自己的私有整数向量寄存器文件(256b)的宽宽度。

Esperanto 将大量浮点计算能力封装到ET-Minion 中,这与其他现代加速器形成鲜明对比。通常,我们看到的加速器仅提供INT8 运算。 8 位量化可提供显着更高的保真度,但Esperanto 对于需要FP16(或32)的工作负载来说是有利的。

除了向量单元外,ET-Minion还包括向量超越单元,可以执行各种三角函数、指数函数、对数等超越函数,以加速激活函数等函数。变压器单元基于ROM,有助于降低芯片的功耗。

这里的向量单位还有许多其他细微差别。除了标准RISC-V 指令外,Esperanto 还实现了自己的指令扩展。他们添加了多周期张量指令和附带的向量超越指令。

这一举动会让一些读者有点紧张,特别是因为人们已经对RISC-V 的好处(尤其是世界语方面)的好处说了很多了。但现实情况是,RISC-V 与所有ISA 一样,没有加速AI 的具体规范,而且这样的扩展很糟糕。事实上,RISC-V 基金会预见到了这一点,并将自定义扩展直接构建到规范中。这就是为什么Espernato 可以以标准方式做到这一点。目前尚不清楚Esperanto 是否会公开发布其扩展指令,或者他们是否打算保持其排他性,这与他们声称的面向未来的说法相反。

多周期张量指令允许内核读取单个指令并使用张量定序器状态机重放超过100 个甚至1000 个周期的操作序列。与大多数定序器一样,ET-Minion 时钟对整个前端以及发出和执行张量运算时未使用的所有其他单元进行门控。这可以进一步降低核心功耗。

顺便说一句,ET-Minion 本身的物理设计非常独特。每个流水线级的门数设计得较低(低门数),以提高低电压下的频率。 Esperanto更进一步,设计了自己的定制SRAM,而不是使用台积电的标准SRAM产品。尽管这些电池尺寸较大,但它们可以在远低于其标称值的极低电压下稳定运行。

“当我谈论低电压运行时,我真正的意思是在远低于标称电压的情况下运行。因此,如果标称电压约为0.75V,则运行电压约为400mV。“会的,”斯威夫特说。

奴才区

当您将八个ET 小黄人组合在一起时,您就得到了世界语中所谓的小黄人社区。在邻域内,每个核心竞争共享指令缓存。缓存容量为32KiB。在每个周期中,高速缓存行被发送到两个核心。换句话说,指令缓存每个周期轮询一对核心,并将64B(16 条指令)发送到两个单独的核心。核心缓冲该行,允许它继续执行,同时指令缓存继续为其他核心供电。

然后这四个社区合并为一个总共32 个核心的小黄人郡。每个8 个核心的邻域通过交叉开关连接到4 组L2 内存。 L2 包含四个1 MiB SRAM 组,可通过软件配置为高速缓存或暂存器存储器。在暂存器配置中,整个存储器是一个大地址空间,软件可以使用它来精确组织和访问数据。

有趣的是,默认情况下每个Minion Shire —— 专用的L2 缓存—— 也可以配置为跨越整个芯片的最后一级缓存。所有这些功能均以每个银行的粒度提供。例如,您可以为暂存器保留一个存储体,将另一个存储体用于1 MiB/Shire LLC,并将其他两个存储体配置为2 MiB 私有二级缓存。每个郡都可以通过网状互连与其他郡进行通信,并且每个小郡都有一个网状站点。

ET-Minion 的低压设计将邻居和交叉开关置于郡内自己的低压电源平面上。 Shire 的其余部分,包括存储的SRAM 和网状互连组件,位于标准电压平面上。

瓷砖建筑

瓷砖设计很简单,每个Minion Shire 通过网状停止点连接到其他Shire 和芯片上的其他组件。网状停靠点在四个基本方向中的每个方向上包含两个单向链接。每个链接的宽度似乎都是1,024b。 Esperanto 芯片上有许多附加组件,例如内存通道和PCIe 接口,它们还通过自己的网格站连接到整体网格互连。

ET-SoC-1

所有这一切最终催生了Esperanto 的首款产品——ET-SoC-1。

该芯片将34 个Minion Shire 集成到66 网格中。网格上的两个附加块用于控制处理器集群和PCIe 块。 34 个Minion Shires 意味着芯片上有1,088 个ET-Minion 处理器和136 MiB 可配置L2 内存。实际上还有一个额外的独立ET-Minion 充当服务处理器。

最后,ET-SoC-1 集成了四核ET-Maxion 块和4 MiB 私有L2,可用作自托管处理器(例如,运行Linux 时)。虽然ET-SoC-1针对的是超大规模数据中心市场,并与更高性能的服务器处理器配合使用,但对于边缘应用,ET-Maxions更将发挥巨大作用。

该芯片通过低功耗LPDDR4x 16x16b (256b) 接口供电。 DRAM 控制器支持137 GB/s 的32 GiB DRAM。

总体而言,ET-SoC-1 拥有1,093 (1088+1+4) 个内核,并通过x8 PCIe Gen4 进行外部接口。该芯片的运行功耗通常约为20 瓦或更低,据说这使得Esperanto 能够满足OCP M.2 加速器模块的规格。预计还将推出更高功率的PCIe 卡。

物理上,该芯片采用台积电的N7 工艺技术制造。 Esperanto 尚未透露该芯片的尺寸,但预计它将拥有238 亿个晶体管,这意味着该芯片的面积可能超过350 平方毫米。

虽然它的频率最高可达1.5 GHz,但该芯片的名义目标频率约为1 GHz,功率目标为20 W。单个ET-Minion 能够实现128 OPS (INT8)/周期,或1 GHz 时128 GOPS。

假设所有1,088 个ET-minion 都在做最有用的工作。在1 GHz 时,我们看到整个芯片的理论峰值为139.3 TOPS (INT8)。在1.5 GHz 时,该值增加至208.9 TOPS。

与许多其他加速器不同,ET-Minions 还支持完整的32b 和16b 浮点运算。因此,如果需要FP16,ET-SoC-1 还能够在1 GHz 下实现近35 TeraFLOPS(半精度)的峰值计算。在1.5 GHz 时,它达到52。

6 OCP Glacier Point V2 卡,带ET-SoC-1 芯片

由于该芯片适合OCP M.2加速器模块,Esperanto建议可以将其封装为OCP Glacier Point V2卡中的六个Esperanto双M.2加速器模块(三个在顶部,三个在底部)。它们旨在直接连接到OCP Yosemite v2 多节点服务器平台。

每个Glacier Point 卡跨越六个模块,拥有6,558 个RISC-V 内核、192 GiB LPDDR4x 内存和822 GB/s DRAM 带宽。在理论峰值性能下,该卡达到835.6 TOPS (INT8),或接近210 TeraFLOPS(半精度)。

一旦Esperanto 的芯片回归,我们应该开始听到更详细的性能声明。如前所述,Dave Ditzel 计划在8 月份的Hot Chips 33 会议上展示ET-SoC-1,预计届时将公布更多技术细节和基准测试。

本文原文链接请点击文末【阅读原文】!

*免责声明:本文为作者原创。文章内容为作者个人观点,半导体行业观察转载旨在传达不同观点,并不代表半导体行业观察同意或支持该观点,不是一回事。联系半导体行业观察。

今天是《半导体行业观察》给大家分享的第2750条内容。请注意。

晶圆| 集成电路| 设备| 汽车芯片| 存储| MLCC | NVIDIA | 模拟芯片

这是原来的链接!

标题:risc-v ai芯片,risc-v架构的芯片
链接:https://www.7kxz.com/news/gl/20392.html
版权:文章转载自网络,如有侵权,请联系删除!
资讯推荐
更多
天地劫幽城再临归真4-5攻略:第四章归真4-5八回合图文通关教学

天地劫幽城再临归真4-5攻略:第四章归真4-5八回合图文通关教学[多图],天地劫幽城再临归真4-5怎么样八回合内通

2024-04-09
航海王热血航线艾尼路怎么玩?艾尼路加点连招攻略大全

航海王热血航线艾尼路怎么玩?艾尼路加点连招攻略大全[多图],航海王热血航线艾尼路怎么加点?艾尼路怎么连招?关

2024-04-09
坎公骑冠剑国际服怎么玩?国际服新手攻略

坎公骑冠剑国际服怎么玩?国际服新手攻略[多图],坎公骑冠剑国际服的玩法是什么样的?关于游戏中的一些新手玩法

2024-04-09
王者荣耀鸿运6+1地狱之眼怎么抽?鸿运抽奖地狱之眼概率获取攻略

王者荣耀鸿运6+1地狱之眼怎么抽?鸿运抽奖地狱之眼概率获取攻略[多图],王者荣耀鸿运抽奖活动的奖池中还有传说

2024-04-09