七库下载 手游攻略 手游攻略 ai词汇加速器官网,3a加速器官网

ai词汇加速器官网,3a加速器官网

时间:2024-04-09 02:43:04 来源:头条 浏览:0

选择自

作者:艾迪·福克斯

机器之心编译

在上一篇文章中,前苹果工程师、普林斯顿大学博士Adi Fuchs 重点介绍了AI 加速器的秘密基础:指令集架构ISA、可重构处理器等。在这篇文章中,我想按照作者的思路回顾一下AI硬件相关的公司,看看哪些公司专注于这个领域。

这是本博客系列的第四篇,主要介绍与AI加速器相关的公司。全球科技行业最热门的领域之一是人工智能硬件。本文回顾了AI 硬件行业的现状,并概述了公司为寻找解决AI 硬件加速问题的最佳方法而进行的各种押注。

对于很多AI硬件公司来说,过去几年似乎是AI硬件发展的黄金时期。过去三年英伟达股价上涨近500%,超越英特尔成为全球市值最高的芯片公司。其他初创公司似乎也同样炙手可热,过去几年向人工智能硬件初创公司投资了数十亿美元,以挑战英伟达的人工智能领导地位。

AI 硬件初创公司- 截至2021 年4 月的总资金。来源:Anandtech

此外,还有一些有趣的收购故事。 2016年,英特尔以3.5亿美元收购了Nervana,2019年底又收购了另一家名为Habana的人工智能初创公司,取代了Nervana提供的解决方案。有趣的是,英特尔为Habana 支付了高达20 亿美元的巨款,这是其收购Nervana 的数倍。

由于AI芯片领域,或者更准确地说是AI加速器领域(现在不仅仅是芯片),包含了无数的解决方案和方法,让我们回顾一下这些方法的主要原理。

实施人工智能加速器的不同方法

英伟达:GPU+CUDA

如果你是农民,你更愿意养哪一个:两只肥牛还是1,024 只鸡? (西摩·克莱)

NVIDIA 成立于1993 年,是最早探索加速计算的大公司之一。 NVIDIA 是GPU 行业的先驱,并已成为世界领先者,为游戏机、工作站和笔记本电脑提供多样化的GPU 产品线。正如前一篇文章中所解释的,GPU 使用数千个简单核心。相比之下,CPU 使用的内核较少。

最初,GPU 主要用于图形处理,但在2000 年代中后期,它们开始广泛应用于分子动力学、天气预报和物理模拟等科学应用。随着CUDA、OpenCL等新应用和软件框架的引入,为将新领域移植到GPU铺平了道路,GPU逐渐成为通用GPU,简称GPGPU。

ImageNet 挑战:使用GPU 获胜的错误率和百分比。图片来源:NVIDIA

从历史上看,NVIDIA 可能是幸运的,因为现代人工智能是在CUDA 流行并成熟时开始的。或者,有人可能会说,GPU 和CUDA 的成熟和普及使研究人员更容易、更高效地开发人工智能应用程序。无论如何,历史是由胜利者书写的。—— 事实上,当AI寒武纪时代爆发时,一些最具影响力的AI研究如AlexNet、ResNet、Transformer都是在GPU上实现和评估的,其中以NVIDIA为首。我做到了。

SIMT 执行模型。图片来源:NVIDIA

GPU 遵循单指令多线程(SIMT) 编程模型,其中相同的指令在不同的内核/线程上同时执行,并且每条指令根据其分配的线程ID 执行其数据部分。所有核心都以同步方式执行线程,这极大地简化了控制流程。另一方面,SIMT 在概念上仍然是一种多线程类C 编程模型,重新用于AI,但它并不是专门为AI 设计的。由于神经网络应用和硬件处理都可以描述为计算图,因此使用捕获图语义的编程框架更加自然和高效。

从CPU 架构转向GPU 架构是朝着正确方向迈出的一大步,但这还不够。 GPU仍然是传统架构,并使用与CPU相同的计算模型。 CPU 受到架构的限制,在科学应用等领域逐渐被GPU 取代。因此,通过共同设计AI专用的计算模型和硬件,我们有望在AI应用市场占据一席之地。

NVIDIA 的GPU、CPU 和DPU 路线图。图片来源:NVIDIA

NVIDIA 主要从两个角度开发AI:(i) 引入Tensor Core 和(ii) 通过收购的公司。包括斥资数十亿美元收购Mellanox 以及即将收购ARM。

ARM-NVIDIA 首次合作开发了一款名为Grace 的数据中心CPU,该CPU 以美国海军少将、计算机编程先驱Grace Hopper 的名字命名。 Grace 是一款高度专业化的处理器,面向大规模数据密集型HPC 和AI 应用。训练新一代自然语言处理模型涉及超过1 万亿个参数。基于Grace 的系统与NVIDIA GPU 紧密集成,其性能比当今在x86 CPU 上运行的最先进的NVIDIA DGX 系统高出10 倍。

Grace 得到NVIDIA HPC 软件开发套件以及全套CUDA 和CUDA-X 库的支持,可加速2,000 多个GPU 应用程序。

大脑

Cerebras 成立于2016 年。随着人工智能模型变得越来越复杂,训练需要更多的内存、通信和计算能力。因此,Cerebras 设计了Wafer Scale Engine (WSE),这是一种披萨盒大小的芯片。

安德鲁·费尔德曼。图片来源:IEEE Spectrum

典型的处理芯片是在称为晶圆的硅片上制造的。作为制造过程的一部分,晶圆被分成更小的碎片,称为芯片,这些碎片称为处理器芯片。典型的晶圆可以容纳数百甚至数千个这样的芯片,每个芯片的尺寸通常在10 平方毫米到830 平方毫米之间。 NVIDIA 的A100 GPU 被认为是其最大的芯片,面积为826 平方毫米,包含542 亿个晶体管,为大约7,000 个处理核心提供动力。

Cerebras WSE-2 和NVIDIA A100 的规格比较。图片说明:美国商业资讯

Cerebras 不仅在单个大型芯片上提供超级计算机功能,还通过与学术机构和美国国家实验室的合作提供软件堆栈和编译器工具链。其软件框架基于LAIR(线性代数中间表示)和C++扩展库,可以供初级程序员用来编写内核(类似于NVIDIA的CUDA),也可以从诸如它的框架中使用无缝减少高级Python代码。作为PyTorch 或TensorFlow。

总体而言,Cerebras 的非传统方法吸引了业内许多人。但更大的芯片意味着核心和处理器更容易因缺陷而失效,所以如何控制制造缺陷,如何冷却近百万个核心,以及如何一切都必须单独完成,如何同步,如何编程等。问题解决了,有一件事是肯定的:Cerebras 得到了很多关注。

图形核心

GraphCore 是首批推出名为智能处理单元(IPU)的商业人工智能加速器的初创公司之一。他们已经开始与微软、戴尔以及其他商业和学术机构开展多项合作。

目前,GraphCore 正在开发第二代IPU,其解决方案基于名为Poplar 的内部软件堆栈。 Poplar 可以将基于Pytorch、Tensorflow 或ONNX 的模型转换为命令式C++ 兼容代码,以支持公司的顶点编程工作。与NVIDIA 的CUDA 类似,Poplar 也支持低级C++ 编程,以提高潜在的性能。

第二代IPU芯片图。图源GraphCore

IPU 由麻省理工学院在2000 年代初开发的平铺多核设计组成,该设计描述了复制结构的2D 网格,每个网格都结合了网络交换机、小型本地内存和处理核心。第一代IPU 有1216 个图块,当前的第二代IPU 有1472 个图块。每个IPU 内核最多可以执行6 个线程,这些线程是具有自己的指令集架构(ISA) 的代码流。

IPU采用大规模并行同质众核架构。最基本的硬件处理单元是IPU-Core。它是一款SMT 多线程处理器,可以同时运行6 个线程,使其更类似于多线程CPU,而不是GPU 的SIMD/SIMT 架构。 IPU 块由IPU 内核和本地内存(256KB SRAM)组成,总共1216 个。因此,IPU芯片具有约300MB的片上存储器,并且没有外部DRAM接口。连接IPU 块的互连机制称为IPU-Exchange,它能够以大约8TB 的总带宽实现无阻塞的全对全通信。最后,IPU-Links 提供多芯片互连,PCIe 提供与主机CPU 的连接。

可重构的数据流

三个初创公司正在推出加速器芯片:WaveComputing、SambaNova 和SimpleMachines。 WaveComputing 由Dado Banatao 和Pete Foley 于2008 年创立,其使命是“通过可扩展的实时AI 解决方案创新从边缘到数据中心的深度学习”。该公司已经处于隐秘状态一段时间了,从各种来源获得资金。

WaveComputing的核心产品是数据流处理器单元(DPU),采用非诺依曼架构软件动态可重构处理器CGRA(粗粒度可重构阵列/加速器)技术,适合大规模异步并行计算问题。 2019年前后,WaveComputing将MIPS技术与Wave的WaveFlow和WaveTensor技术相结合,推出了TritonAI 64 IP平台,以满足边缘计算市场的算力需求。不幸的是,它于2020年申请破产保护。

基于时间的DPU 核心映射。图片来源:WaveComputing

SambaNova 成立于2017 年底,此后获得了由Google Ventures、Intel Capital 和Blackrock 领投的三轮融资,并在美国能源部的Laurence Livermore 和Los Alamos 进行了部署。我们现在能够向一些客户提供新产品。

SambaNova RDU 框图。

SambaNova 正在为数据中心构建芯片和软件堆栈,旨在利用人工智能进行推理和训练。其架构的核心是可重构数据流单元(RDU)。 RDU 芯片包含一组以2D 网格结构组织并连接到NoC 交换机的计算单元(称为PCU)和暂存存储单元(称为PMU)。 RDU 通过一组称为AGU 和CU 的单元结构访问片外存储器。

SambaNova 的主要用例。图片来源:HPCWire

SambaNova 的软件堆栈(称为Sambaflow)采用高级Python 应用程序(PyTorch、TensorFlow 等)并将其转换为可在编译时为芯片的PCU、PMU、AGU 和CU 进行编程的表示形式。 SambaNova 已证明RDU 架构能够运行复杂的NLP 模型、推荐模型和高分辨率视觉模型。

SimpleMachines 于2017 年由威斯康星大学的一群学术研究人员创立。研究小组一直在研究依赖于结合了诺依曼(每指令)和非诺依曼(数据流)执行的异构数据路径的可重构架构。

该公司提供的数据基于在领先会议和期刊上发表的原始研究论文。该架构的指导原则与SambaNova 的做法有些相似。 SambaNova 开发了一种可重新配置的架构,支持非常规编程模型,并能够灵活执行,以应对高度不稳定的人工智能应用领域。

SimpleMachines 莫扎特芯片。图片来源:SimpleMachines

该公司的首款人工智能芯片是Mozart,它针对推理进行了优化,并在设计中采用16nm 工艺、HBM2 高带宽内存和PCIe Gen3x16 外形尺寸。 2020年,SimpleMachine发布了第一代基于Mozart芯片的加速器。该加速器由一系列可配置的块组成,这些块依赖于控制、计算和数据收集等专业化。

脉动阵列+ VLIW: TPUv1、Groq、Habana

热塑性聚氨酯

张量处理单元(TPU),也称为张量处理器,是世界上首批专为AI 打造的处理器之一,是Google 开发的用于加速机器学习的专用集成电路(ASIC)。谷歌自2015 年以来一直在内部使用TPU,并于2018 年将其作为其云基础设施的一部分并作为较小版本出售给第三方。

第一代TPU架构。图片来源:arXiv

第一代TPU是一个8位矩阵乘法引擎,使用复杂的指令集,由主机通过PCIe 3.0总线驱动,采用28 nm工艺制造。 TPU 指令向主机发送数据并从主机接收数据,执行矩阵乘法和卷积运算,并应用激活函数。

2017年5月发布第二代TPU。请注意,第一代TPU 只能执行整数运算,而第二代TPU 还可以执行浮点运算。这使得第二代TPU 对于机器学习模型训练和推理非常有用。据谷歌称,这些第二代TPU 将可用于谷歌计算引擎上的TensorFlow 应用程序。

第三代TPU于2018年5月8日发布。谷歌宣布,其第三代TPU的性能将是第二代的两倍,部署在Pod中的芯片数量将是上一代的四倍。

第四代TPU于2021年5月19日发布。谷歌宣布其第四代TPU的性能是第三代的2.7倍,并且将部署在芯片数量是上一代两倍的吊舱中。与推出的第三代TPU 相比,每个Pod 的性能提高了5.4 倍(每个Pod 最多4,096 个芯片)。

格罗克

谷歌在其云产品中提供TPU,以满足谷歌的人工智能需求并支持其内部工作负载。因此,谷歌定制了TPU 来满足特定需求。

2016 年,TPU 架构师团队离开Google,在一家名为Groq 的新初创公司中设计和商业化一款新处理器,该处理器的基线特性与TPU 类似。

Groq TSP 执行框图。资料来源:Grok

Groq 的核心是Tensorflow 处理器(TSP)。 TSP 架构与TPU 有很多共同点。这两种架构都严重依赖脉动阵列来完成繁重的工作。与第一代TPU 相比,TSP 具有额外的矢量单元和转置单元(在第二代和第三代TPU 中也有)。

Groq VLIW 指令集和说明。资料来源:Grok

哈瓦那

Habana 成立于2016 年初,是一家专注于数据中心训练和推理的人工智能加速器公司。 Habana推出云端AI训练芯片Gaudi和云端AI推理芯片Goya。

Goya 处理器已投入商用,并展示出卓越的推理性能,以具有竞争力的包络能力提供超高吞吐量和超低实时延迟。 Gaudi 处理器旨在实现系统高效、灵活的水平和垂直扩展。 Habana 目前正在为一些超大规模客户提供样品。

戈雅和高迪的建筑图纸。图片说明:哈瓦那

Goya 和Gaudi 芯片具有相似的架构,因为它们都依赖于GEMM 引擎,这是一种与一组图块并行运行的脉动矩阵乘法单元。每个图块包含本地软件控制的暂存器存储器和张量处理核心(TPC),具有不同精度的矢量计算单元。这意味着您可以计算8 位、16 位或32 位矢量化运算。 TPC 和GEMM 引擎通过DMA 和共享内存空间进行通信,并通过PCIe 与主机处理器进行通信。

基于RISC的人工智能加速器

世界语

Esperanto成立于2014年,已经处于隐秘状态相当长一段时间了,但直到2020年底,它才推出了ET-SoC-1芯片,这是其第一款在台积电SoC之上集成了1000多个芯片的产品。它是该公司人工智能加速器系列中的首款产品,采用7nm 工艺、RISC-V 内核、160MB SRAM 和超过240 亿个晶体管。 ET-SoC-1是一款推理加速器,预计今年实现商业化。

Esperanto 的ET-SoC-1 架构图。图片来源:世界语/HotChips

帐篷租金

TensTorrent 成立于2016 年,总部位于加拿大多伦多,目前估值10 亿美元,是一家开发旨在加速算法和适应未来的处理器的计算公司。 TensTorrent 为小型平台和数据中心提供各种芯片,还提供DevCloud。

TensTorrent:具有张量切片的图并行性。来源:YouTube/TensTorrent

TensTorrent 核心。来源:YouTube/TensTorrent

神话

Mythic成立于2012年,是AI硬件领域最早的初创公司之一。 Mike Henry和Dave Fick是公司的核心创始人,分别担任Mythic的董事长和CTO。该公司的重点是高能效、低成本的模拟技术,Mythic 提出了一种让模拟电路从非数字电路吸取更少电流以降低能耗的方法。

矩阵乘法运算中权重与输入和输出数据之间的差异。来源:神话

2020年底,Mythic推出了第一代AI芯片M1108 AMP。与许多AI芯片不同,M1108基于更成熟的模拟计算技术而不是数字计算。这使得M1108 更加节能,并且可以更轻松地访问网络边缘的设备。

Mythic还推出了模拟计算引擎(ACE),它使用闪存而不是DRAM来存储权重。基本上,我们不是从内存中检索输入和权重数据,而是将输入数据传输到权重闪存并将其转换到模拟域,并在模拟域中执行MAC(乘法累加)计算以对其进行转换。避免了从内存中读取和传输权重、返回检索输出数据的成本。

轻物质

LightMatter 是一家诞生于麻省理工学院的初创公司,押注于使用光子而不是电子来执行操作的计算机芯片。这类芯片与传统计算机芯片有着本质的区别,有望成为满足AI饥渴的有力竞争者。 LightMatter 首席执行官尼克·哈里斯(Nick Harris) 曾表示: “要么我们发明的新计算机将继续发展,要么人工智能将会放缓。”

光子学和电子学的计算特性。图片来源:HotChips/LightMatter

LightMatter 设计了一种基于脉动阵列的方法,通过使用编码为光信号波不同相位的相移执行乘法和累加运算来操纵光子输入信号。由于光子数据以光速流动,LightMatter 芯片以极高的速度执行矩阵和矢量运算,并且功耗低几个数量级。

LightMatter 于2021 年开始发售其首款基于光子的AI 芯片——Envise,并为常规数据中心提供配备16 个芯片的刀片服务器。迄今为止,该公司已从GV(前身为Google Ventures)、Spark Capital 和Matrix Partners 筹集了2200 万美元。

LightMatter 声称其Envise 芯片的运行速度比最先进的Nvidia A100 AI 芯片快1.5 至10 倍,具体取决于任务。例如,在运行BERT 自然语言模型时,Envise 的速度是NVIDIA 芯片的五倍,而功耗仅为NVIDIA 芯片的六分之一。

请尝试想象一下。图片来源:LightMatter

新现实

NeuReality 是一家以色列初创公司,成立于2019 年,由Tanach、Tzvika Shmueli 和Yossi Kasus 联合创始人。

2021 年2 月,NeuReality 推出了NR1-P,一个以AI 为中心的推理平台。 2021 年11 月,NeuReality 宣布与IBM 建立合作伙伴关系。这包括授权IBM 的低精度AI 核心来构建NR1,这是一款非原型生产级服务器,与FPGA 原型相比,它可以实现更高效的AI 应用程序。

NeuReality NR1-P 原型。来源:ZDNet

原文链接:https://medium.com/@adi.fu7/ai-accelerators-part-iv-the-very-rich-landscape-17481be80917

标题:ai词汇加速器官网,3a加速器官网
链接:https://www.7kxz.com/news/gl/20386.html
版权:文章转载自网络,如有侵权,请联系删除!
资讯推荐
更多
天地劫幽城再临归真4-5攻略:第四章归真4-5八回合图文通关教学

天地劫幽城再临归真4-5攻略:第四章归真4-5八回合图文通关教学[多图],天地劫幽城再临归真4-5怎么样八回合内通

2024-04-09
航海王热血航线艾尼路怎么玩?艾尼路加点连招攻略大全

航海王热血航线艾尼路怎么玩?艾尼路加点连招攻略大全[多图],航海王热血航线艾尼路怎么加点?艾尼路怎么连招?关

2024-04-09
坎公骑冠剑国际服怎么玩?国际服新手攻略

坎公骑冠剑国际服怎么玩?国际服新手攻略[多图],坎公骑冠剑国际服的玩法是什么样的?关于游戏中的一些新手玩法

2024-04-09
王者荣耀鸿运6+1地狱之眼怎么抽?鸿运抽奖地狱之眼概率获取攻略

王者荣耀鸿运6+1地狱之眼怎么抽?鸿运抽奖地狱之眼概率获取攻略[多图],王者荣耀鸿运抽奖活动的奖池中还有传说

2024-04-09