七库下载 手游攻略 新游动态 大语言模型应用开发的理论和主流工具,你值得拥有

大语言模型应用开发的理论和主流工具,你值得拥有

时间:2024-05-11 02:58:40 来源:网络整理 浏览:0

本文旨在让没有大模型开发背景的工程师或技术爱好者轻松了解大语言模型应用开发的理论和主流工具。 因此,我会从LLM申请开发相关的基本概念入手,不刻意追求极致。 它严谨、完整,但却从直觉和本质出发,结合作者的研究、消化和理解,帮助大家更轻松地了解LLM技术的全貌。 大家可以根据这篇文章进行推导,并根据自己感兴趣的领域进行深入研究。如果有不准确或者错误的地方,希望大家留言指正。

本文体系完整,内容丰富。 由于内容较多,将分多部分连载。

第 1 部分 基本概念

1. 机器学习场景类别

2. 机器学习类型(LLM相关)

3.深度学习的兴起

4.基本型号

第 2 部分 应用挑战

1.问题定义和基本思路

2. 基本工艺及相关技术

1)与

2)载体数据库

3)(微调)

4)模型部署与推理

5)

6)编排和集成

7)预训练

第三部分 场景案例

常用参考文献

第 2 部分 应用挑战

2、基本工艺及相关技术

4)模型部署与推理

模型适配优化

从上面继续

选择合适的GPU(显卡)

目前市场上主流的GPU厂商有很多,如、AMD、Intel、高通、景嘉微(国内)、芯动科技(国内)等,但目前市场上的主导者是和AMD。 网上所说的N卡、A卡是指()显卡和ATI显卡(2006年被AMD收购)。 显卡和GPU之间的关系就像汽车和发动机之间的关系。 显存由GPU、PCB板、显存颗粒等部件组成。

此外,还有公卡和非公卡的概念。 这里的公卡是指GPU厂商为满足产品兼容性问题而生产的原版显卡,而不是公卡。 GPU也是由厂商提供,由各大授权厂商根据自身需求和工艺水平进行调整和集成。 显卡。 以英伟达为例,它有八个合作伙伴(华硕、技嘉、微星、七彩虹、影驰、索泰、银尊、更升),而且质量相同,值得信赖。

一般来说,同品牌显卡的性能好坏可以通过命名来大致判断。 以下是 AMD 的示例。

对于品牌之间的横向比较,网上也有大量的性能对比信息供普通消费者参考。 下图是各大厂商各型号消费级GPU的性能天梯图(可以看出各大厂商尤其是AMD在各个品类都有基准测试)。

那么问题来了。 从消费产品的角度来看,AMD与全系列都有对标。 那么为什么英伟达会成为AI领域的绝对主流选择呢? 那么AMD和AMD之间的主要差距是什么?

抗AMD

AMD的竞争劣势体现在软件、硬件、生态的各个方面。

前面提到,的Cuda从某种意义上屏蔽了并行计算的复杂性,统一了计算。 2011年,Cuda4.0中增加了.0、(Cuda UVA)和Pool的概念,统一了显存的使用。 。

随着提高计算性能的需要而推出,突破了PCIe的带宽限制,允许多个GPU直接连接,无需通过PCIe总线访问远程GPU内存,实现GPU之间的高速内部通信,以及提供高达 300 GB/s 的带宽和 1.5 微秒的延迟。 除此之外,为了增加GPU互连数量,克服点对点通信中的多跳通信和复杂的拓扑规划等问题,开发了技术合作,提供多达18个接口,使任意两个GPU GPU 在网络中的效率很高。 交换形成更大的计算服务。

除了能够实现GPU和技术之间的高速内部通信(支持网络之间的连接)之外,它还可以用来为机器之间的通信提供更大的带宽,并减少数据传输延迟带来的瓶颈。 这些特性使得构建大规模并行计算集群成为可能。

在支持深度学习方面,也具有先发优势。 它于 2017 年在其 Volt 架构中引入了 Core,而 AMD 直到 2020 年才拥有类似技术的 Core。

影驰630虎将d5_影驰630显卡能玩啥_影驰gt630

在软件兼容性和开发者生态方面,与等软件高度集成,在易用性方面更具优势。 在此基础上,我们和合作伙伴提供了一系列的软件解决方案等,以简化开发者开发深度学习应用的复杂性,形成完整的开发者生态系统。 2006年,推出了Cuda,并不遗余力地推广和改进。 目前,Cuda的用户超过400万。 当AMD的ROCm(Cuda的基准)在2016年推出时,已经比晚了十年。 2023年4月,ROCm仅支持Linux平台,其社区完善度和集成度还有较大差距。

可以看到,它在计算和存储上都为开发者提供了统一的编程范式,而且这些优化与软件和硬件融为一体,并且具有完整的生态支持,特别是对于大规模的Cuda用户和基于Cuda构建的用户。 大量应用的积累具有很强的“马太效应”属性。 AMD等其他厂商想要兼容和复制并不容易。

当然,AMD近年来也在加速追赶。 据悉,AMD的MI250显卡无论是性能还是大语言模型训练速度都达到了A100显卡性能的80%。 在软件层面,在近期的升级中,AMD的MI250加速卡对框架有了更好的支持,使得其在AI领域的水平显着提升。 不过,A100显卡已经是上一代产品,最新的顶级产品H100在AI性能上还有几倍到几十倍的提升空间。 今年6月,AMD发布了MI300,将CPU、GPU和内存封装在一起。 晶体管数量高达1460亿个,几乎是 H100的两倍。 它搭载的HBM(高带宽内存)密度也是H100的2.4倍。 也就是说,MI300理论上可以运行比H100更大的AI模型,但目前用户很少。

因此,目前在GPU领域是绝对的王者,AMD等也在不断追赶。 目前, GPU是深度学习领域的首选。

GPU 选择

GPU 型号有很多。 在实际学习和生产中如何选择具体的模型? 首先需要根据使用场景选择产品系列,然后根据芯片架构、Cuda核数/核数、内存带宽和位宽、内存类型和大小等多个维度选择适合性能需求的产品、计算精度性能()、GPU-GPU带宽等GPU模型。

产品系列

将其显卡与实际使用场景结合起来,分为四大产品系列:Tegra、Tesla。

Tegra:基于ARM架构的通用处理器,同时具有CPU和GPU。 将其称为“on achip”片上计算,主要应用于移动嵌入式设备。

:该系列显卡定位为专业级显卡,一般用于专业绘图设计,如设计、建筑等,以及专业图像处理显卡,如CAD、Maya等软件。

:该系列显卡正式定位为家庭娱乐消费级显卡。 细分为RTX系列和GTX系列。 RTX更高端。 最后四位数字前两位代表芯片架构代次,后两位代表相同架构。 性能上的差异,比如RTX 4090就比RTX 3090高了一代,性能也更强。 显卡性能与Tesla系列深度学习专业卡(显存较低)相差不大,并且支持CUDA,比如RTX 3090。当Tesla系列没有的时候,也可以用于深度学习训练和推理。 具有一定的性价比,适合学习和使用。

Tesla:该系列显卡定位为专业级显卡。 名称以芯片架构的首字母开头,如P100、K80、T4等,其中P、K、T分别代表,,用于大规模并行计算。 它们不提供视频输出,甚至没有风扇,一般用于数据中心,主要用于科学计算、深度学习等。Tesla系列显卡针对GPU集群进行了优化。 例如,在4卡、8卡甚至16卡服务器中,多张Tesla显卡的综合性能不会受到太大影响。 但这种游戏卡的性能损耗比较严重。 这也是特斯拉主要宣扬并行计算的优势之一。

因此,对于深度学习大型模型相关GPU的选型,我们会以Tesla系列和Tesla系列作为候选。

芯片框架

所谓GPU架构是指其芯片的设计和实现,包括处理器核心数量、计算单元的组织、内存架构、缓存架构、并行处理技术等。GPU架构的设计直接影响性能以及GPU的功能。 不同代GPU的性能水平存在比较大的台阶。 GPU芯片的架构从2008年到现在已经经历了几代。 一般用著名科学家来命名他们的架构。 Tesla系列芯片架构一般可以通过型号的首字母来识别:

1)Tesla,2008年发布的第一代架构,是第一个实现统一着色器模型的微架构。 经典型号T80。 目前市场上已不再提供该产品。

2)费米(Fermi),2010年发布,是第一个采用新的设计方法设计的GPU架构,奠定了 GPU的整体发展方向。 2012年的架构和2014年的架构都在此基础上添加了Cuda。 核。 代表型号有400、500、600、GT-630。

3)(开普勒),2012年发布。这一代SM的整体结构与之前相同,只是升级后插入了更多的计算单元(包括双精度计算单元)。 其他部分没有太大改变。 代表车型有特斯拉K40/K80、700、GT-730。

4)(),2014年发布,随着技术和频率的改进,每个CUDA Core的性能提高了1.4倍,每瓦性能提高了2倍,简化了SM结构,添加的双精度已被删除的单元。 代表型号为Tesla/M系列900和GTX-970。

5)(),2016年发布,进入深度学习方向。 SM内部,除了之前支持单精度FP32 Cuda Core外,还支持双精度DP Unit(FP64 Cuda Core)。 SM 由 64 个 FP32 Cuda 核心和 32 个 FP64 Cuda 核心(DP 单元)组成。 此外,FP32 Cuda Core还具备处理半精度FP16的能力,满足当时业界对低精度计算的需求。 1.0出来了。 代表型号有特斯拉P100、GTX 1080、GTX 1070、GTX 1060

6)Volta(伏特),2017年发布,全面转向深度学习,特别添加了张量核心Core模块。 SM在FP64 Cuda Core和FP32 Cuda Core的基础上添加了INT32 Cuda Core。 计算能力比架构快5倍。 2.0发布。 代表车型有 Tesla V100 和 GTX 1180。

7)(图灵),2018年发布,升级了Core,增加了INT8、INT4、(INT1)的计算能力,性能提升了一倍。 代表型号有T4、GTX 1660 Ti、RTX 2060。

8)(),2020年发布,Core将升级至3.0。 “超级核弹”A100就采用了该架构,拥有6912个CUDA核心和432个张量核心。 此外,消费级显卡王者RTX 3090也是其代表显卡。

9)(Heber),2022年3月发布,推出了一款引擎Core,可以应用混合FP8和FP16精度,大幅加速模型的AI计算。 与上一代相比,它还将每秒 TF32、FP64、FP16 和 INT8 精度浮点运算 (FLOPS) 提高了 3 倍。 升级至4.0。 代表显卡H100。

10)Ada(Ada ),2022年10月发布,第三代RT核心,核心已升级,专为深度学习矩阵乘法和累加数学运算而设计,可以加速更多数据类型,并支持细粒度结构化稀疏可以将张量矩阵运算的吞吐量提升至上一代产品的2倍以上。 基于该架构的 CUDA 内核处理单精度浮点 (FP32) 运算的速度提高了一倍。 代表显卡RTX 4090。

Cuda核心/核心

Cuda核心和核心都是GPU内部的计算单元,即流处理器(SP)。 它们的数量代表了GPU的并行计算能力。 Cuda 这个名字在 中涉及多个概念。 Cuda核心是它的物理流处理器,与Cuda软件版本有一定的匹配性。 因此需要根据芯片架构匹配相应的Cuda软件版本。 Cuda算力代码描述了GPU在不同架构下的计算能力。 由架构代码+小模型增量能力组成。 例如,7.x代表图灵架构。 下面是一个对比表。

这个算力代码与Cuda版本有一定的对应关系。 支持的Cuda计算能力与安装的Cuda版本有关。 Cuda 10.2仅支持3.7、5.0、6.0、7.0算力,不支持8.0算力。 Cuda 11支持8.0计算能力。 因此安装时需要注意cuda版本以及对应的gpu算力版本。

该核心专为深度学习等大规模并行计算而设计。 2017年推出了Volta(伏特)架构,可以实现混合精度计算,并根据精度的下降动态调整算力,在保持精度的同时提高吞吐量。 ,可以有效地执行矩阵乘法。

在 CUDA 内核中,每个 GPU 时钟只能执行一次单值乘法:

1 x 1 per GPU clock

该核心每个GPU时钟可以执行一次矩阵乘法,这意味着一个核心可以同时执行相当于CUDA核心的多个计算。

[1 1 1       [1 1 1 1 1 1   x    1 1 1    per GPU clock 1 1 1]       1 1 1]

矩阵乘法在深度学习中大量存在,也是最耗时的部分。 因此,内核非常重要。 如果GPU不支持,那么它基本上不适合深度学习。

另一方面,结合深度学习场景,在计算精度方面,大多数情况下我们不需要FP32,FP16可以很好地表示大多数权重和梯度,因此动态采用混合精度计算是计算精度和吞吐量的关键。 一个平衡,低精度显然可以让数学计算更快,而且核心上的加速会更明显,可以减少显存的使用,从而可以训练和部署更大的神经网络。 减少内存带宽使用,从而加快数据传输操作。 在后一种架构下,可以进行第二代多精度计算(从FP32到FP16再到INT8和INT4),进一步提高训练和推理的性能。

标题:大语言模型应用开发的理论和主流工具,你值得拥有
链接:https://www.7kxz.com/news/xydt/34332.html
版权:文章转载自网络,如有侵权,请联系删除!
资讯推荐
更多
  • LOL热门赛场中单英雄大盘点,你值得
  • LOL五种拆塔较快的ap英雄,你值得拥
  • 阴阳师4月22日更新内容:帝释天上线技能调整,红莲华冕活动来袭

    阴阳师4月22日更新内容:帝释天上线技能调整,红莲华冕活动来袭[多图],阴阳师4月22日更新的内容有哪些?版本更新

    2024-05-11
    四川电视台经济频道如何培养孩子的学习习惯与方法直播在哪看?直播视频回放地址

    四川电视台经济频道如何培养孩子的学习习惯与方法直播在哪看?直播视频回放地址[多图],2021四川电视台经济频

    2024-05-11
    湖北电视台生活频道如何培养孩子的学习兴趣直播回放在哪看?直播视频回放地址入口

    湖北电视台生活频道如何培养孩子的学习兴趣直播回放在哪看?直播视频回放地址入口[多图],湖北电视台生活频道

    2024-05-11
    小森生活金币不够用怎么办?金币没了不够用解决方法

    小森生活金币不够用怎么办?金币没了不够用解决方法[多图],小森生活金币突然就不够用的情况很多人都有,金币没

    2024-05-11