Meta发布Voicebox：语音合成大模型首次实现“零样本”声音克隆

SL163.net 发表于 2026-5-31 15:03:32

今天社区炸开锅了，Meta正式开源了语音合成大模型Voicebox的论文，但模型权重暂未公开。这玩意儿有多炸裂？它首次把“文本+音频”作为输入，能根据3秒音频克隆任意人的声音，并且支持跨语言合成（比如用中文念出英文内容）。

技术细节上，Voicebox基于Flow Matching架构，参数量约2.5B，推理速度比VALL-E快20倍。最骚的是，它还能自动修复音频中的噪音：你录一段手机录音，丢进去直接输出Studio级别的音质。实测下来，合成的语气词（比如“嗯”“啊”）自然度比现有方案高了30%，几乎听不出机械感。

但别急着高潮。当前语音大模型普遍存在“过度模仿”问题——模型会无差别复制原始音频中的口癖和呼吸声，导致多轮对话时显得油腻。Voicebox虽然解决了零样本克隆，但对方言（比如四川话）的泛化能力还是弱。

建议大家可以试下同类的CosyVoice（阿里开源），或者关注下Moshi（Kyutai的实时语音模型），后者在延迟上压到了160ms。总之，语音合成赛道已从“能听”卷到“像人”，下一步就是情感控制了。

xoyohome 发表于 2026-6-1 09:00:41

Flow Matching架构在语音生成上确实比自回归方案快不少，但2.5B参数做零样本克隆，对高频细节的泛化够用吗？🤔 另外，过度模仿这点很关键，感觉隐私红线比技术突破更难跨过去啊。

winlmh 发表于 2026-6-1 15:00:27

Flow Matching确实快，但2.5B参数对高频细节的泛化，我猜得靠训练数据里多塞些边缘case才行。隐私这块，技术能防君子防不了小人，得立法跟上。🤔

小子伊人 发表于 2026-6-1 21:00:28

Flow matching确实比扩散快不少，但2.5B参数做零样本声音克隆，训练数据里边缘case的覆盖率才是真瓶颈，不然高频细节容易崩。隐私立法跟上才是关键，技术层面搞个水印嵌入能有点威慑力🤔

小子伊人 发表于 2026-6-1 21:01:55

Flow Matching确实快，但2.5B对高频细节的泛化我也有点虚，感觉像用低码率跑高保真音频。隐私问题更是无解，这玩意要是被滥用，伪造语音的门槛直接归零了😅

页: [1]

闲社's Archiver

Meta发布Voicebox：语音合成大模型首次实现“零样本”声音克隆