Llama 2 LLM各个版本GPU服务器的配置要求是什么?

2023-11-29 01:15:10 字數 4368 閱讀 7788

探索模型的所有版本及其文件格式(如 ggml、gptq 和 hf),并了解本地推理的硬件要求。

meta 推出了其 llama-2 系列语言模型,其版本大小从 7 亿到 700 亿个参数不等。这些模型,尤其是以聊天为中心的模型,与其他开源选项相比表现令人印象深刻,甚至在有用性方面与 chatgpt 等一些闭源模型相媲美。

添加**注释,不超过 140 字(可选)该架构基于优化的变压器设置,并使用监督技术和人工反馈对模型进行微调。他们在一个庞大的数据集上进行训练,该数据集不包括来自 meta 的任何用户特定数据。关于llama 2llama-2 是指一系列预先训练和微调的大型语言模型 (llm),其规模高达 700 亿个参数。llama 2 使用来自公开**资料的更大数据集进行了初始训练阶段,超过了其前身 llama(1) 使用的数据集大小。在这个预训练阶段之后,llama-2 chat是通过监督微调过程开发的,在此期间,人类专家为训练过程做出了贡献。为了提高模型的性能并产生更自然的响应,下一阶段涉及从人类反馈中强化学习 (rlhf)。这种方法涉及一个迭代的细化过程,通过强化学习算法和人类反馈的整合来不断改进模型。

llama 2 系列包括以下型号尺寸:

7b13b70bllama 2 llm 也基于 google 的 transformer 架构,但与原始 llama 模型相比进行了一些优化。例如,这些包括:gpt-3 启发了 rmsnorm 的预归一化,受 google palm 启发的 swiglu 激活功能,多查询注意力,而不是多头注意力受 gpt neo 启发的旋转位置嵌入 (rope)。

13b70bllama 2 llm 也基于 google 的 transformer 架构,但与原始 llama 模型相比进行了一些优化。例如,这些包括:gpt-3 启发了 rmsnorm 的预归一化,受 google palm 启发的 swiglu 激活功能,多查询注意力,而不是多头注意力受 gpt neo 启发的旋转位置嵌入 (rope)。llama 2 和 llama 之间的主要区别是:

更大的上下文长度(4,096 个而不是 2,048 个令牌)

在更大的数据集上训练在两个较大的 llama-2 模型中,分组查询注意力 (gqa) 而不是多查询注意力 (mqa)。

llama-2 是开源的吗?

根据开源促进会的定义,llama 2 并不是完全开源的,因为它的许可证施加了与开源标准不一致的限制。该许可证限制了某些用户和目的的商业用途,特别提到每月活跃用户超过 7 亿的服务必须寻求单独的许可证,可能不包括主要的云提供商。此外,llama 2 可接受使用政策禁止将模型用于非法或恶意目的,这虽然可以理解,但与不受限制使用的开源原则不同。

什么是code llama?

code llama 是 llama-2 语言模型的变体,专为编码相关任务量身定制。它能够生成和完成**,以及检测各种流行编程语言(如 python、c++、j**a、php、j**ascript/typescript、c# 和 bash)中的错误。meta 提供三种不同型号尺寸的 code lama:7b、13b 和 34b,以满足不同级别的复杂性和性能要求。

硬件要求

llama-2 模型的性能很大程度上取决于它运行的硬件。 有关顺利处理 llama-2 模型的最佳计算机硬件配置的建议, 查看本指南:运行 llama 和 llama-2 模型的最佳计算机。

以下是 4 位量化的 llama-2 硬件要求:

对于 7b 参数模型

如果 7b llama-2-13b-german-assistant-v4-gptq 模型是你所追求的,你必须从两个方面考虑硬件。第一 对于 gptq 版本,您需要一个至少具有 6gb vram 的体面 gpu。gtx 1660 或 2060、amd 5700 xt 或 rtx 3050 或 3060 都可以很好地工作。 但对于 ggml / gguf 格式,更多的是拥有足够的 ram。您需要大约 4 场免费演出才能顺利运行。

添加**注释,不超过 140 字(可选)对于 13b 参数模型

对于像 llama-2-13b-german-assistant-v4-gptq 这样更强大的型号,您需要更强大的硬件。 如果您使用的是 gptq 版本,则需要一个具有至少 10 gb vram 的强大 gpu。amd 6900 xt、rtx 2060 12gb、rtx 3060 12gb 或 rtx 3080 可以解决问题。 对于 cpu 入侵 (ggml / gguf) 格式,拥有足够的 ram 是关键。您需要您的系统有大约 8 个演出可用来平稳运行。

添加**注释,不超过 140 字(可选)适用于 65b 和 70b 参数模型

当您升级到 65b 和 70b 型号()等大型型号时,您需要一些严肃的硬件。 对于 gpu 推理和 gptq 格式,您需要一个具有至少 40gb vram 的顶级 gpu。我们说的是 a100 40gb、双 rtx 3090 或 4090、a40、rtx a6000 或 8000。您还需要 64gb 的系统 ram。 对于 ggml / gguf cpu 推理,为 65b 和 70b 型号提供大约 40gb 的 ram。

添加**注释,不超过 140 字(可选)内存速度

运行 llama-2 ai 模型时,您必须注意 ram 带宽和 mdodel 大小如何影响推理速度。这些大型语言模型需要完全加载到 ram 或 vram,每次它们生成新令牌(一段文本)时。例如,一个 4 位 13b 十亿参数的 llama-2 模型占用大约 7.5gb 的 ram。

因此,如果您的 ram 带宽为 50 gbps(ddr4-3200 和 ryzen 5 5600x),您每秒可以生成大约 6 个令牌。 但是对于像每秒 11 个令牌这样的快速速度,您需要更多带宽 - ddr5-5600,大约 90 gbps。作为参考,像 nvidia rtx 3090 这样的高端 gpu 有大约 930 gbps 的 带宽到他们的 vram。最新的 ddr5 ram 可提供高达 100gb/s 的速度。因此,了解带宽是有效运行像 llama-2 这样的模型的关键。

建议:

为获得最佳性能:选择配备高端 gpu(如 nvidia 最新的 rtx 3090 或 rtx 4090)或双 gpu 设置的机器,以适应最大的型号(65b 和 70b)。具有足够 ram(最小 16 gb,但最好为 64 gb)的系统将是最佳选择。

对于预算限制:如果您受到预算的限制,请专注于适合系统ram的llama-2 ggml / gguf模型。请记住,虽然您可以将一些权重卸载到系统 ram,但这样做会以性能为代价。请记住,这些是建议,实际性能将取决于几个因素,包括特定任务、模型实现和其他系统流程。

对于预算限制:如果您受到预算的限制,请专注于适合系统ram的llama-2 ggml / gguf模型。请记住,虽然您可以将一些权重卸载到系统 ram,但这样做会以性能为代价。请记住,这些是建议,实际性能将取决于几个因素,包括特定任务、模型实现和其他系统流程。

cpu 要求

为获得最佳性能,建议使用现代多核 cpu。第 7 代以上的 intel core i8 或第 5 代以上的 amd ryzen 3 将运行良好。 具有 6 核或 8 核的 cpu 是理想的选择。更高的时钟速度也改善了即时处理,因此请以 3.6ghz 或更高为目标。

拥有 **x、**x2、**x-512 等 cpu 指令集可以进一步提高性能(如果可用)。关键是要有一个相当现代的消费级cpu,具有不错的内核数量和时钟。 以及通过 **x2 进行的基线向量处理(使用 llama.cpp 进行 cpu 推理所必需)。有了这些规格,cpu 应该可以处理 llama-2 模型大小。上述所有配置,代表最新硬件架构,同时保证是最完美,最快,欢迎咨询,定制

添加**

#创作灵感中心#

添加**注释,不超过 140 字(可选)

iPhone 15 各版本销量不如 iPhone 14!Max 版下降 14

手机中国 月 日,调研机构 counterpoint 发布数据显示 iphone 新机在中国表现疲软,但在美国表现强劲。iphone vs 在中国市场前 天的销售数量同比增长。counterpoint 表示,初步数据显示 iphone 在中国表现疲软,iphone 系列在中国发售 天的销量,与 ip...

Android各版本占比数据出炉,Android 13以22 4 份额排名第一

android takes the lead in market share,but is it the dominant force in the android ecosystemin a recent report released by google,it was revealed that...

职业技能以及各个职业的玩法 版本介绍

传奇光通版是一款备受玩家喜爱的网络游戏,其中最吸引人的就是游戏中的职业技能和各个职业的玩法。在这篇文章中,我们将为您详细介绍传奇光通版中的职业技能和各个职业的玩法。首先,让我们来看看游戏中的职业技能。在传奇光通版中,每个职业都有自己独特的职业技能。这些技能不仅具有强大的攻击力,还具有各种特殊效果,如...