可以做设计兼职的网站有哪些,动易网站,wordpress水煮鱼,广告制作费前言
SenseVoice 是一种语音基础模型#xff0c;具有多种语音理解功能#xff0c;包括自动语音识别 (ASR)、口语识别 (LID)、语音情感识别 (SER) 和音频事件检测 (AED)。本博客将指导您安装和使用 SenseVoice 模型#xff0c;使其尽可能方便用户使用。 Github 仓库链接: ht…前言
SenseVoice 是一种语音基础模型具有多种语音理解功能包括自动语音识别 (ASR)、口语识别 (LID)、语音情感识别 (SER) 和音频事件检测 (AED)。本博客将指导您安装和使用 SenseVoice 模型使其尽可能方便用户使用。 Github 仓库链接: https://github.com/FunAudioLLM/SenseVoice
在线演示Demo: https://huggingface.co/spaces/FunAudioLLM/SenseVoice
SenseVoice的亮点
SenseVoice专注于高精度多语言语音识别、语音情感识别和音频事件检测。
多语言语音识别经过超过40万小时的数据训练支持50多种语言识别性能超越Whisper模型。
高效推理SenseVoice-Small 模型采用非自回归端到端框架从而实现极低的推理延迟。处理 10 秒的音频仅需 70ms比 Whisper-Large 快 15 倍。
情绪识别提供声音事件检测能力支持bgm、掌声、笑声、哭泣、咳嗽、打喷嚏等各种常见人机交互事件的检测。
便捷的微调提供方便的微调脚本和策略让用户根据自己的业务场景轻松解决长尾样本问题。
服务部署提供服务部署管道支持多并发请求客户端语言包括 Python、C、HTML、Java 和 C# 等。
如何部署安装SenseVoice
步骤 1. 克隆项目并创建 python 3.8 虚拟环境
首先克隆官方项目并创建一个独立的 Python 虚拟环境。
git clone https://github.com/FunAudioLLM/SenseVoice.git
cd SenseVoice#创建一个独立的 Python 3.8 虚拟环境并激活它
conda create -n sensevoice python3.8
conda activate sensevoice
步骤 2. 然后安装依赖项
至此虚拟环境已被激活。现在下载并安装项目所依赖的第三方软件包。
# 如果在GPUMart上租赁的服务器上
pip install -r requirements.txt# 如果租赁的服务器在中国大陆需要使用国内的镜像
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-hostmirrors.aliyun.com
步骤 3. 启动 SenseVoice WebUI
模型文件非常大下载需要很长时间。完成后使用以下命令启动服务
python webui.py
现在您可以通过访问局域网 IP 和端口号 7860 访问由gradient库构建的 WebUI 网络应用程序。 如何使用SenseVoice
方法 1. 在 Web UI 中使用
使用网页界面非常简单只需上传音频文件选择语言可选然后点击开始按钮等待后台处理完成识别出的文本就会输出到结果区域。
我们使用GPUMart 的 RTX A4000 测试了 90 分钟的音频耗时约七八分钟。
方法 2. 使用 Python 编程调用
如果需要基于模型进行应用程序开发或调整更详细的参数则需要对模型提供的应用程序接口进行封装和二次开发。 推理使用示例 - 支持任何格式和任何持续时间的音频输入。
from funasr import AutoModel
from funasr.utils.postprocess_utils import rich_transcription_postprocessmodel_dir iic/SenseVoiceSmallmodel AutoModel(modelmodel_dir,trust_remote_codeTrue,remote_code./model.py,vad_modelfsmn-vad,vad_kwargs{max_single_segment_time: 30000},devicecuda:0,
)# en
res model.generate(inputf{model.model_path}/example/en.mp3,cache{},languageauto, # zh, en, yue, ja, ko, nospeechuse_itnTrue,batch_size_s60,merge_vadTrue, #merge_length_s15,
)
text rich_transcription_postprocess(res[0][text])
print(text)
对于更高级的用户还可以使用以下命令将模型导出到 ONNX 或 Libtorch
# 以 Libtorch 为例
from pathlib import Path
from funasr_torch import SenseVoiceSmall
from funasr_torch.utils.postprocess_utils import rich_transcription_postprocessmodel_dir iic/SenseVoiceSmallmodel SenseVoiceSmall(model_dir, batch_size10, devicecuda:0)wav_or_scp [{}/.cache/modelscope/hub/{}/example/en.mp3.format(Path.home(), model_dir)]res model(wav_or_scp, languageauto, use_itnTrue)
print([rich_transcription_postprocess(i) for i in res])