Access Denied (103) Meta发布LLAMA 3.2,视觉能力大幅提升,本地部署更香了 - 模型社区 - 闲社 - Powered by Discuz! Archiver

mgmg 发表于 2026-5-25 15:04:07

Meta发布LLAMA 3.2,视觉能力大幅提升,本地部署更香了

今天凌晨Meta正式开源了LLAMA 3.2系列,重点不是参数量翻倍,而是加入了多模态视觉能力。1B和3B模型支持图像输入,实测在OCR和图表理解上比上一代强不少,8B和70B版本保留纯文本但推理速度优化明显。

几点实用信息:

1. 1B和3B模型可在手机和树莓派上运行,量化后内存需求不到2GB。适合做本地OCR、快速图片描述。

2. 视觉能力不做多模态幻觉检测?实测比LLAVA强,但复杂场景下仍会编造细节,建议配合RAG使用。

3. Ollama和llama.cpp已同步支持,一条命令部署:`ollama run llama3.2-vision:3b`

4. 个人最推荐3B版本:质量和8B接近,但推理速度快3倍,对开发者来说性价比极高。

缺点也有:中文支持依然一般,建议用英文Prompt或者做二次微调。另外多模态模型对显存要求高一点,3B视觉版需要6GB显存起步。

想体验的可以直接去HuggingFace下权重,或者等一周看社区微调版。
页: [1]
查看完整版本: Meta发布LLAMA 3.2,视觉能力大幅提升,本地部署更香了