FP8通过其独有的数值示意神态,不详在保握一定精度的同期,在大模子考试中提高考试速率、检朴内存占用露出 同人,最终裁汰考试本钱。
AI 大模子建立系统Colossal-AI的搀杂精度考试再度升级,复古主流的 BF16 ( O2 ) + FP8 ( O1 ) 的新一代搀杂精度考试决策。
仅需一瞥代码,即可对主流 LLM 模子不详取得平均 30% 的加快成果,裁汰相应大模子建立本钱,并保证考试治感性。
无需引入突出的手写 CUDA 算子,幸免了较长的 AOT 编译时刻和复杂的编译环境建立。
开源地址:https://github.com/hpcaitech/ColossalAI
低精度诡计一直是 GPU 硬件发展趋势。
从最早的 FP32,到当今通用的 FP16/BF16,再到 Hopper 系列芯片 ( H100, H200, H800 等)复古的 FP8,低精度诡计速率越来越快,所需的内存也越来越低,相配顺应大模子时期对硬件的需求。
当今 FP8 搀杂精度考试影响考试遗弃的最大身分即是 scaling 决策,常见的决策有两种:
蔓延 scaling
及时 scaling
蔓延 scaling选择之前一段时刻窗口内的 scaling 值来算计现时 scaling,同期将 scaling 的更新和矩阵乘法 ( gemm ) 会通起来。这种诡计治安效用较高,但由于是估算的 scaling,是以对治感性影响较大。
及时 scaling平直选择现时的张量值来诡计 scaling,是以诡计效用较低,然则对治感性影响较小。凭据英伟达的叙述,这两种 scaling 决策的诡计效用差距在 10% 以内。
Colossal-AI 选择了对考试治感性影响较小的及时 scaling 决策,同期赶走存着不输其他蔓延 scaling 赶走的性能。
在单卡 H100 上对矩阵乘法进行的测试,不错看到矩阵的维度越大,FP8 的加快成果越显明,而况 Colossal-AI 的赶走与 Transformer Engine 的性能果真一致,如图 1 所示。但 Transformer Engine 需要复杂的 AOT 编译环境建立和较长的编译时刻。
△图 1. 单卡 GEMM 性能测试
日本女优为了实验遗弃更面对施行,Colossal-AI 平直在主流 LLM 上进行了骨子考试的测试。
领先在 H100 单卡上进行了测试,以下测试中 Transformer Engine ( TE ) 选择的其默许的蔓延 scaling 决策。
同期进行了治感性测试,不错看到 FP8 搀杂精度考试的 loss 弧线与 bf16 的基本一致,如图 4 所示:
△图 4. H100 单卡 LLaMA2-7B 搀杂精度考试 loss 弧线
Colossal-AI 还测试了 H800 多卡并行考试场景下的性能。在单机 8 卡 H800 上考试 LLaMA2-7B,Colossal-AI FP8 对比 Colossal-AI BF16 有 35% 的轮廓提高,对比 Torch FSDP BF16 有 94% 的轮廓提高。
在单机 8 卡 H800 上考试 LLaMA2-13B,Colossal-AI FP8 对比 Colossal-AI BF16 有 39% 的轮廓提高。
在 2 机 16 卡 H800 上考试 Cohere Command-R 35B,Colossal-AI FP8 对比 Colossal-AI BF16 有 10% 的轮廓提高,如图 7 所示:
凭据英伟达的叙述和测试熏陶,对 FP8 搀杂精度考试性能调优有一些初步的意志:
尽量少使用张量并行,用活水线并行代替张量并行
模子 hidden size 越大,加快成果越显明
矩阵乘法占比高的模子加快成果大
由于上述实验中 Command-R 35B 选择了张量并行,是以加快成果不太显明。
Colossal-AI 对 FP8 的复古较为闲居,多样并办事貌王人能和 FP8 搀杂精度考试兼容。使用时,仅需在启动化 plugin 时开启 FP8 即可:
from colossalai.booster.plugin import GeminiPlugin, HybridParallelPlugin, LowLevelZeroPlugin...plugin = LowLevelZeroPlugin ( ..., use_fp8=True ) plugin = GeminiPlugin ( ..., use_fp8=True ) plugin = HybridParallelPlugin ( ..., use_fp8=True )
除此以外,无需充足的代码和 AOT 编译。
开源地址:https://github.com/hpcaitech/ColossalAI
* 本文系量子位获授权刊载,不雅点仅为作家系数。
— 完 —
量子位 QbitAI
վ ' ᴗ ' ի 跟踪 AI 技巧和家具新动态
一键三连「共享」、「点赞」和「在看」
科技前沿发扬日日重逢 ~