网站制作品牌有哪些,东莞网站推广渠道,移动端原型,wordpress 函数教程YuE是港科大提出的一个开源的音乐生成基础模型#xff0c;专为音乐生成而设计#xff0c;专门用于将歌词转换成完整的歌曲#xff08;lyrics2song#xff09;。它可以生成一首完整的歌曲#xff0c;时长几分钟#xff0c;包括朗朗上口的声乐曲目和伴奏曲目。YuE 能够模拟…YuE是港科大提出的一个开源的音乐生成基础模型专为音乐生成而设计专门用于将歌词转换成完整的歌曲lyrics2song。它可以生成一首完整的歌曲时长几分钟包括朗朗上口的声乐曲目和伴奏曲目。YuE 能够模拟多种流派/语言/声乐技巧。
YuE乐在中文中意为“音乐”和“幸福”。对于那些觉得以 Yu 开头的单词发音困难的人来说可以将其发音为“yeah”
论文介绍
从给定的歌词生成整首歌曲音乐音频称为 lyrics2song。虽然基于文本的音乐生成模型已在非人声音乐的短片段上产生了高质量的结果但生成包含人声和伴奏部分的长达数分钟的完整歌曲仍然是一个具有挑战性的问题我们只从几个闭源的商业系统中看到了一些令人满意的结果。
lyrics2song 的挑战主要在于: 音乐的长上下文性质 音乐信号与其他信号语音、音频效果相比的复杂性 扭曲的语言内容和 缺乏并行数据歌词-音频对。
本文提出的YuE是一系列用于 lyrics2song 的开放基础语言模型并入了 llama 系列。该方法可以建模长达5分钟的音乐音频在整首歌曲中遵循歌词条件保持连贯的音乐结构生成朗朗上口的声乐旋律和适当的伴奏。
方法 我们应用语义增强的音频标记器来降低训练成本并加速收敛 我们提出了一种双标记技术无需修改仅使用 llama 解码器的架构即可实现音轨同步的声乐乐器建模从而享受已建立的扩展和服务基础设施 3. 我们引入了歌词思路链让模型根据歌词条件在单一上下文中逐步生成整首歌曲 提出了一种 3 阶段训练方案以确保更好的可扩展性、音乐性和歌词可控性。
硬件和性能
GPU 内存
YuE 需要大量 GPU 内存来生成长序列。以下是推荐的配置 对于具有 24GB 或更少内存的 GPU最多运行 2 个会话以避免内存不足 (OOM) 错误。感谢社区对于那些 GPU 资源有限的用户我们有YuE-exllamav2和YuEGP。虽然两者都提高了生成速度和连贯性但它们可能会损害音乐性。PS 更好的提示和 ICL 帮助 对于完整的歌曲生成许多会话例如 4 个或更多使用具有至少 80GB 内存的 GPU。即 H800、A100 或具有张量并行的多个 RTX4090。 若要自定义会话数量界面允许您指定所需的会话数。默认情况下模型运行2 个会话1 个主歌 1 个副歌以避免 OOM 问题。
执行时间
在H800 GPU上生成 30 秒音频需要150 秒。在RTX 4090 GPU上生成 30 秒音频大约需要360 秒。
安装试用
Windows 用户快速入门 一键安装https://pinokio.computer/。 Gradio与Docker结合使用https://github.com/sdbds/YuE-for-windows
Linux/WSL 用户快速入门 Fahd视频教程https://www.youtube.com/watch?vRSMNH9GitbA GUI/Gradiohttps://github.com/WrongProtocol/YuE-exllamav2-UI
相关链接 主页https://map-yue.github.io/?continueFlag875c0131a704a7ce2658845b9fdc657b GitHubhttps://github.com/multimodal-art-projection/YuE