Ubuntu20.04下CTC语音唤醒模型的完整安装教程

张开发
2026/4/19 19:39:14 15 分钟阅读

分享文章

Ubuntu20.04下CTC语音唤醒模型的完整安装教程
Ubuntu20.04下CTC语音唤醒模型的完整安装教程1. 引言语音唤醒技术让设备能够通过特定关键词激活就像说小云小云就能唤醒设备一样。今天我们要在Ubuntu20.04系统上部署一个轻量级的CTC语音唤醒模型这个模型只有750K参数非常适合在移动设备上运行。无论你是想为智能音箱添加唤醒功能还是为移动应用增加语音交互能力这个教程都能帮你快速搭建起开发环境。我会带你一步步完成从系统配置到模型测试的全过程包括CUDA环境搭建、Python虚拟环境配置、依赖库安装等关键步骤。2. 环境准备与系统要求在开始安装之前先确认你的系统满足以下要求硬件要求NVIDIA显卡建议GTX 1060或以上至少8GB内存20GB可用磁盘空间软件要求Ubuntu 20.04 LTSNVIDIA显卡驱动版本450或以上CUDA 11.3cuDNN 8.2首先更新系统包sudo apt update sudo apt upgrade -y安装基础开发工具sudo apt install -y build-essential cmake git wget curl3. CUDA和cuDNN安装配置3.1 安装NVIDIA驱动检查当前显卡驱动版本nvidia-smi如果没有安装驱动使用以下命令安装sudo ubuntu-drivers autoinstall sudo reboot3.2 安装CUDA 11.3下载并安装CUDA 11.3wget https://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.run sudo sh cuda_11.3.0_465.19.01_linux.run安装时注意取消勾选Driver选项如果已安装驱动只选择CUDA Toolkit。设置环境变量echo export PATH/usr/local/cuda-11.3/bin:$PATH ~/.bashrc echo export LD_LIBRARY_PATH/usr/local/cuda-11.3/lib64:$LD_LIBRARY_PATH ~/.bashrc source ~/.bashrc3.3 安装cuDNN 8.2从NVIDIA官网下载cuDNN 8.2 for CUDA 11.3然后安装tar -xzvf cudnn-11.3-linux-x64-v8.2.1.32.tgz sudo cp cuda/include/cudnn*.h /usr/local/cuda-11.3/include sudo cp cuda/lib64/libcudnn* /usr/local/cuda-11.3/lib64 sudo chmod ar /usr/local/cuda-11.3/include/cudnn*.h /usr/local/cuda-11.3/lib64/libcudnn*4. Python环境搭建4.1 安装Miniconda下载并安装Minicondawget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh bash Miniconda3-latest-Linux-x86_64.sh按照提示完成安装后初始化condasource ~/.bashrc4.2 创建虚拟环境创建名为kws的Python虚拟环境conda create -n kws python3.7 -y conda activate kws5. 模型依赖安装5.1 安装PyTorch安装与CUDA 11.3兼容的PyTorch版本pip install torch1.12.1cu113 torchvision0.13.1cu113 torchaudio0.12.1 --extra-index-url https://download.pytorch.org/whl/cu1135.2 安装ModelScope和其他依赖安装ModelScope语音相关包pip install modelscope[audio] -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html安装其他必要依赖pip install tensorboardX soundfile librosa numpy scipy5.3 验证安装检查所有依赖是否安装成功python -c import torch print(fPyTorch版本: {torch.__version__}) print(fCUDA可用: {torch.cuda.is_available()}) print(fCUDA版本: {torch.version.cuda}) import modelscope print(fModelScope版本: {modelscope.__version__}) 6. 模型下载与测试6.1 下载语音唤醒模型创建一个测试脚本下载并测试模型from modelscope.pipelines import pipeline from modelscope.utils.constant import Tasks import soundfile as sf import numpy as np # 创建测试音频 def create_test_audio(): sample_rate 16000 duration 2.0 # 2秒 t np.linspace(0, duration, int(sample_rate * duration)) audio 0.5 * np.sin(2 * np.pi * 440 * t) # 生成440Hz正弦波 return audio, sample_rate # 保存测试音频 audio, sr create_test_audio() sf.write(test_audio.wav, audio, sr) print(开始下载语音唤醒模型...) kws_pipeline pipeline( taskTasks.keyword_spotting, modeldamo/speech_charctc_kws_phone-xiaoyun ) print(模型下载完成开始测试...) result kws_pipeline(audio_intest_audio.wav) print(f测试结果: {result})6.2 运行测试保存上面的代码为test_model.py并运行python test_model.py7. 常见问题解决在安装过程中可能会遇到的一些问题及解决方法问题1: CUDA版本不匹配如果出现CUDA相关错误检查CUDA版本 nvcc --version确保版本为11.3问题2: 内存不足如果模型下载失败尝试单独下载 from modelscope import snapshot_download model_dir snapshot_download(damo/speech_charctc_kws_phone-xiaoyun)问题3: 依赖冲突如果出现依赖冲突尝试重新创建环境 conda deactivate conda env remove -n kws conda create -n kws python3.7 -y问题4: 音频处理错误安装额外的音频处理库 pip install pydub audiomentations8. 完整测试示例创建一个完整的测试脚本来验证整个流程import os from modelscope.pipelines import pipeline from modelscope.utils.constant import Tasks def test_complete_flow(): print( CTC语音唤醒模型完整测试 ) # 初始化管道 print(1. 初始化语音唤醒管道...) kws_pipeline pipeline( taskTasks.keyword_spotting, modeldamo/speech_charctc_kws_phone-xiaoyun ) # 测试在线音频 print(2. 测试在线音频...) online_result kws_pipeline( audio_inhttps://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/KWS/pos_testset/kws_xiaoyuxiaoyu.wav ) print(f在线音频测试结果: {online_result}) print(3. 测试完成) return True if __name__ __main__: test_complete_flow()9. 总结按照这个教程你应该已经在Ubuntu20.04上成功搭建了CTC语音唤醒模型的开发环境。整个过程从系统配置开始包括CUDA环境搭建、Python虚拟环境创建、依赖库安装到最后模型测试每个步骤都经过了实际验证。这个语音唤醒模型虽然参数量不大但效果很不错特别适合移动设备使用。你現在可以用它来检测小云小云这个唤醒词也可以根据自己的需求进行微调训练。如果在使用过程中遇到问题建议先检查CUDA和PyTorch的版本兼容性这是最常见的问题来源。大多数安装问题都可以通过重新创建虚拟环境来解决。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

更多文章