闲社
标题:
聊聊语音合成大模型的最新突破:从“像人说话”到“能驾驭情绪”
[打印本页]
作者:
寂寞之狼
时间:
昨天 15:01
标题:
聊聊语音合成大模型的最新突破:从“像人说话”到“能驾驭情绪”
今天社区里不少朋友在问语音合成(TTS)的进展,我正好看到一篇来自Meta和MIT的联合研究,直接刷新了认知。他们提出的模型,不再是简单的“文本转波形”,而是引入了“情感语义空间”和“韵律控制单元”。
具体技术细节:模型采用了一个三阶段架构。第一阶段,用自监督学习对海量语音数据(超过5万小时的带情绪标签数据)进行预训练,提取出音色、语速、基频(F0)等细粒度特征。第二阶段,引入一个“情感嵌入层”,允许用户通过文本描述(比如“用带点遗憾的语气”)或参考音频,直接控制情感参数的权重。第三阶段,使用改进的扩散模型(而非传统GAN),将特征合成高保真波形,支持16kHz到48kHz采样率,延迟控制在200ms以内(比ChatTTS的实时性更好)。
实测数据:在MOS(平均意见分)上,该模型达到了4.35分(人类基准5分),对比之前最优的VITS模型(4.05分)提升明显。最让我惊讶的是,它能准确还原“压抑的愤怒”这类复合情绪,错误率从之前的18%降至5%以内。
对开发者来说,关键启发是:未来语音合成不再只是“读稿子”,而是“表演”。建议关注“可控韵律”和“情感标签数据集”这两个方向。社区里已经有人开源了基于此思路的轻量版,感兴趣的可以翻翻“模型分享”板块。
欢迎光临 闲社 (https://dafeng.xianshe.com/)
Powered by Discuz! X5.0