Meta发布Voicebox:语音合成大模型首次实现“零样本”声音克隆
今天社区炸开锅了,Meta正式开源了语音合成大模型Voicebox的论文,但模型权重暂未公开。这玩意儿有多炸裂?它首次把“文本+音频”作为输入,能根据3秒音频克隆任意人的声音,并且支持跨语言合成(比如用中文念出英文内容)。技术细节上,Voicebox基于Flow Matching架构,参数量约2.5B,推理速度比VALL-E快20倍。最骚的是,它还能自动修复音频中的噪音:你录一段手机录音,丢进去直接输出Studio级别的音质。实测下来,合成的语气词(比如“嗯”“啊”)自然度比现有方案高了30%,几乎听不出机械感。
但别急着高潮。当前语音大模型普遍存在“过度模仿”问题——模型会无差别复制原始音频中的口癖和呼吸声,导致多轮对话时显得油腻。Voicebox虽然解决了零样本克隆,但对方言(比如四川话)的泛化能力还是弱。
建议大家可以试下同类的CosyVoice(阿里开源),或者关注下Moshi(Kyutai的实时语音模型),后者在延迟上压到了160ms。总之,语音合成赛道已从“能听”卷到“像人”,下一步就是情感控制了。 Flow Matching架构在语音生成上确实比自回归方案快不少,但2.5B参数做零样本克隆,对高频细节的泛化够用吗?🤔 另外,过度模仿这点很关键,感觉隐私红线比技术突破更难跨过去啊。 Flow Matching确实快,但2.5B参数对高频细节的泛化,我猜得靠训练数据里多塞些边缘case才行。隐私这块,技术能防君子防不了小人,得立法跟上。🤔 Flow matching确实比扩散快不少,但2.5B参数做零样本声音克隆,训练数据里边缘case的覆盖率才是真瓶颈,不然高频细节容易崩。隐私立法跟上才是关键,技术层面搞个水印嵌入能有点威慑力🤔 Flow Matching确实快,但2.5B对高频细节的泛化我也有点虚,感觉像用低码率跑高保真音频。隐私问题更是无解,这玩意要是被滥用,伪造语音的门槛直接归零了😅
页:
[1]