当前位置：首页 > news >正文

学网站建设多少钱网站怎么做企业

news 2025/12/31 21:07:02

学网站建设多少钱,网站怎么做企业,根据链接获取网站名称,电商网站首页1.文字到语音的整个过程文字到语音的一般整体结构主要是下面这个流程#xff0c;每个网络可能会把其中两者或是三者融合在一起来#xff1b; 长度不同的问题生成的语音可能和文字的长度并不一样#xff0c;因此需要解决这个问题 Tactron使用的是交叉注意力的方式解…1.文字到语音的整个过程文字到语音的一般整体结构主要是下面这个流程每个网络可能会把其中两者或是三者融合在一起来长度不同的问题生成的语音可能和文字的长度并不一样因此需要解决这个问题 Tactron使用的是交叉注意力的方式解决他们长度不同的问题fastSpeech直接预测了输出的长度通过将文本信息拷贝几分的方式获得了相同的长度。 2.各种具体的网络结构 2.1WaveNet 2.1.1研究动机原有的语音生成模型大多采用RNN这个东西太慢了不如采用一个卷积的结构来进行替代;卷积是前后都感知的这不合适因此改一下只让其卷进去前面的部分这样就合理了。称为“因果卷积”既然使用了卷积那么使用空洞卷积就自然而然了。 2.1.2结构和类型输入输出将声学模型和发声器全部都融合在一起了输入处理过的字符串信息输出语音类型是自回归 2.1.3不能解决的问题虽然训练的时候比较快但是在预测的时候开始启动时候因为空洞卷积的问题需要多轮。这里不确定需要再确认 2.2tactron 2.2.1研究动机 1.前人的融合工作还是不太够不能真正的端到端因此作者这里再融合一下 2.文本序列较长的时候会导致较大的累计误差作者使用交叉注意力机制来解决这个问题这个貌似也是交叉注意力本身的研究动机 3.预测较慢由于语音信息前后比较相近因此作者就直接一次预测三帧。 2.2.2结构和类型输入输出将字符串分析和声学模型融合在一起了输入是字符串输出是梅尔频谱网络结构使用机器翻译借鉴过来的模型CBHG 类型是自回归 2.2.3奇怪的点虽然声学模块用的是自回归的但是这个交叉注意力一进去其实每个节点不都有全局信息了吗 2.3fastSpeech 2.3.1研究动机采用自回归是有一定问题的因为自回归是非常缓慢的并且由于累计误差会在最终结果当中产生重大错误前人采用自回归的问题是被迫为之主要是不知道每个文字需要说多长时间于是本文作者发明了一个先预测每个字说多长时间再整体预测全流程该怎么说的网络结果。想要实现这个预测说多久其实也不是很复杂因为可以用别人训练好的TTS模型直接来进行得到。 2.3.2 结构和类型输入输出也是将文本分析和声学模型融合在一起输入是文字串输出是梅尔谱类型是非自回归 2.4fastSpeech2 之前的网络较为复杂消除蒸馏可以更好的简化网络之前通过长度预测可以调整输入的长度对齐那么是否可以通过类似位置加入其他模块来增加更多语音信息音高、能量、情感等

查看全文

http://www.w-s-a.com/news/617169/