实现一个简单易部署的ASR服务端和客户端
我们在之前的文章中介绍过VOSK,KALDI等具有前后传承的ASR( Automatic Speech Recognition),见前文:《快速使用kaldi等模型的工具-VosK用于ASR》,同时在前期实现了用于智能客服、智能外呼的相关模块,但是把VosK做实现部署时还是相对复杂《FSGUI智能客服和智能外呼与VosK集成于一体》,于是我们继续努力,让伙伴们都可以解压即可用,而不是要折腾来折腾去。
在这里先感谢下Nickolay Shmyrev,是他把kaldi封装得更简单易用,也感谢kaldi的团队为ASR及相关样本、模型、算法等做出的一系列的努力。
-
本次下载的包
链接:https://pan.baidu.com/s/1Gdgl8FiUfrUMlCMFTyIwSA
提取码:1234
可以基于CentOS7、CentOS8、Debian10使用,我没有测试过Debian 11,从道理上来说应是支持的,祝大好运。
-
服务端
包名 nway_asr_server.tar.gz
其它的系统优化等,我们就不用管它了,只要下载下来解压就可以使用了,如:
在自己喜欢的以上操作系统中执行
tar zxvf nway_asr_server.tar.gz
,当然我以前截图是我自己用的zip,这个道理类似。
使用ls -l 列出这个路径
那么我们调用 ./start.sh就可以启动asr server啦!
-
启动
-
查看是否启动成功
是由于不同操作系统中,进程名太长会cut掉后续的一些字符,所以如果要检查其是否运行
netstat -anp | grep nway_asr
即可。
-
客户端
包名 nway_asr_client.zip
其中包含了基于windows系统的AsrNway.exe和基于*nix的AsrNway,配置文件 为nway.ini,里边即配置nway_asr_server的ip和端口,这里端口必须是20035,uri必须带 /nway_asr
[server]
ip=ws://10.0.0.25:20035/nway_asr
在windows上调用.exe程序,*nix上直接调用AsrNway,切记一定要让它拥有执行权限,比如: chmod +x AsrNway
调用方式为:
./AsrNway.exe "" filename.wav
中间为两个引号代表一个参数,现在不具备具体含义。
filename.wav需要注意的是,一定是电话系统的,单声道8khz,8bit的录音。
比如:
至此我们的易部署的ASR_SERVER和ASR_CLIENT就完成了,结合实际的应用就可以进行ASR转写等。