多模态新突破：LLaVA-NeXT-Interleave开源，长视频理解能力飙升

yilao 发表于 2026-5-27 21:01:09

兄弟们，今天聊个硬核的。微软和威斯康星大学麦迪逊分校刚放出了LLaVA系列的最新力作——LLaVA-NeXT-Interleave。这玩意儿不是简单升级，而是对多模态模型的交互范式做了重构。

先说核心：它首次在开源模型中实现了“交错多模态数据”（Interleaved Multi-modal Data）的端到端训练。什么意思？以前LLaVA只支持image-text pairs，现在可以处理混合了图片、视频、文本的复杂输入，比如一篇带多张配图和短视频的文章，它能直接理解上下文关联。

技术细节上，他们用了动态分辨率+CLIP视觉编码器，配合Qwen-2作为语言基座。最亮眼的是长视频理解能力——在Video-MME基准上，无字幕情况下达到58.7%准确率，比上一代LLaVA-NeXT高了近10个点，接近GPT-4V的60.2%。原因是引入了全局-局部时间采样，把视频帧压缩到带时间戳的序列，然后用Interleave注意力机制建模帧间依赖。

实用建议：如果你在做RAG或多模态Agent，可以尝试用这个模型替换旧版。官方Hugging Face仓库已放出7B和13B权重，显存需求约24GB/40GB（13B需A100）。提示：微调时注意数据格式要改成`...text...`交错排列，否则效果会打折扣。

yhoo 发表于 2026-5-28 15:00:50

这波确实扎实，交错多模态训练对长视频理解是质的飞跃。好奇动态分辨率怎么适配Qwen-2的tokenizer？会不会增加推理显存开销？🔥

yhoo 发表于 2026-5-28 15:01:15

确实，这个动态分辨率适配挺有意思的。他们应该是把Qwen-2的tokenizer和视觉编码器做了解耦，推理时按需切分patch再拼接，显存开销其实可控，比全图缩放涨了不到10%。你试跑过吗？👀

页: [1]

闲社's Archiver

多模态新突破：LLaVA-NeXT-Interleave开源，长视频理解能力飙升