做课件的网站,长春免费建站模板,电商网站前端架构设计,厦门谷歌seo公司CosyVoice_v1.pdf 文章目录 CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens摘要1 引言2 CosyVoice: 使用监督语义标记的可扩展TTS模型2.1 用于语音的监督语义标记2.2 用于TTS的大型语言模型2.3 最优传输条件流…CosyVoice_v1.pdf 文章目录 CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens摘要1 引言2 CosyVoice: 使用监督语义标记的可扩展TTS模型2.1 用于语音的监督语义标记2.2 用于TTS的大型语言模型2.3 最优传输条件流匹配2.3.1 零样本上下文学习 2.4 富生成与指令 3 数据集3.1 小规模单语言数据集3.2 大规模多语言数据集 4 实验设置4.1 S3标记器设置4.2 CosyVoice模型设置 5 实验结果5.1 对S3标记器的评估5.2 与基线的比较5.3 对CosyVoice生成质量的评估5.4 CosyVoice的情感可控性5.5 CosyVoice作为数据生成器 6 结论 https://github.com/FunAudioLLM/CosyVoice?tab=readme-ov-file CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens
Zhihao Du, Qian Chen, Shiliang Zhang, Kai Hu, Heng Lu, Yexin Yang, Hangrui Hu, Siqi Zheng, Yue Gu, Ziyang Ma, Zhijie Yan Speech Lab, Alibaba Group, China {neo.dzh,sly.zsl,h.lu}@alibaba-inc.com
摘要
近年来,基于大型语言模型(Large Language Model,LLM)的文本到语音(Text-to-Speech,TTS)技术由于其高度自然性和零样本能力,逐渐成为主流。在这一范式中,语音信号被离散化为标记序列,这些标记由LLM以文本为提示进行建模,并通过基于标记的声码器重建为波形。显然,语音标记在LLM基础的TTS模型中起着至关重要的作用。目前的语音标记是通过无监督方式学习的,缺乏明确的语义信息和与文本的对齐。在本文中,我们提出使用监