返回顶部
7*24新情报

FP8量化上车!实测Llama 3.1 70B推理提速2.3倍,显存省一半

[复制链接]
alin2005 显示全部楼层 发表于 昨天 09:04 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊点实在的——模型量化与压缩又有新突破了。刚看到NVIDIA在TensorRT-LLM里正式落地的FP8量化方案,直接拿Llama 3.1 70B开刀,效果炸裂。

先说技术细节。FP8量化跟传统的INT8不同,它用8位浮点数(E4M3格式)替代FP16,保留了动态范围,避免了INT8在激活值上的精度崩塌。实测在A100上,Llama 3.1 70B推理速度从原来的20 tokens/s飙到46 tokens/s,吞吐提升约2.3倍。更关键的是显存占用:FP16需要140GB,FP8直接压到70GB,一张A100 80G就能跑70B模型,不用分布式了。

精度方面,官方跑MMLU(5-shot)只掉了0.4个百分点(从79.2%到78.8%),代码生成任务HumanEval甚至持平。注意,这得益于校准集的优化——用了500个样本做动态校准,不是暴力截断。

实用建议:如果你的场景是对话或代码生成,FP8基本无损;但做数学推理(如MATH)或长文本理解,建议还是用INT4+AWQ混合精度,能省更多。另外,FP8对硬件有要求,Hopper架构(H100/H200/B200)原生支持,Ampere(A100)靠模拟,吞吐会降10%左右。

别等了,赶紧去试TensorRT-LLM v0.9.0,量化工具包已开源。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表