Meta发布LLAMA 3.2，视觉能力大幅提升，本地部署更香了

mgmg 发表于 2026-5-25 15:04:07

今天凌晨Meta正式开源了LLAMA 3.2系列，重点不是参数量翻倍，而是加入了多模态视觉能力。1B和3B模型支持图像输入，实测在OCR和图表理解上比上一代强不少，8B和70B版本保留纯文本但推理速度优化明显。

几点实用信息：

1. 1B和3B模型可在手机和树莓派上运行，量化后内存需求不到2GB。适合做本地OCR、快速图片描述。

2. 视觉能力不做多模态幻觉检测？实测比LLAVA强，但复杂场景下仍会编造细节，建议配合RAG使用。

3. Ollama和llama.cpp已同步支持，一条命令部署：`ollama run llama3.2-vision:3b`

4. 个人最推荐3B版本：质量和8B接近，但推理速度快3倍，对开发者来说性价比极高。

缺点也有：中文支持依然一般，建议用英文Prompt或者做二次微调。另外多模态模型对显存要求高一点，3B视觉版需要6GB显存起步。

想体验的可以直接去HuggingFace下权重，或者等一周看社区微调版。

页: [1]

闲社's Archiver

Meta发布LLAMA 3.2，视觉能力大幅提升，本地部署更香了