2020-03-12 22:51:56 IT充電寶

ESPnet簡介

ESPnet是一個端到端語音處理工具包。主要側重於端到端語音識別和端到端語音合成。ESPnet使用Chaine和PyTorch作為主要的深度學習引擎，並且還遵循Kaldi風格的數據處理、特徵提取/格式化和配方（recipe，Kaldi的處理方式），以提供用於語音識別和其他語音處理實驗的完整設置。

拉取Docker image

Docker image已預安裝ESPnet的依賴Kaldi。ESPnet使用Conda環境來安裝Python及其信賴。

<code> git pull espnet/espnet:200~gpu-cuda10.0-cudnn7-u18/<code>

也可以不使用Docker image，有兩種方式：

從源碼編譯安裝ESPnet，這時得自己編譯安裝Kaldi與Warp-CTC
使用ESPnet預編譯的二進制Kaldi與ESPnet

下載預訓練中文ASR模型

官方提供了使用Aishell數據集的中文預訓練ASR模型。

<code>| Task                   | CER (%) | WER (%) | Pretrained model                                                                                                                                                      |
| -----------            | :----:  | :----:  | :----:                                                                                                                                                                |
| Aishell dev            | 6.0     | N/A     | [link](https://github.com/espnet/espnet/blob/master/egs/aishell/asr1/RESULTS.md#transformer-result-default-transformer-with-initial-learning-rate--10-and-epochs--50) | 

| Aishell test           | 6.7     | N/A     | same as above                                                                                                                                                           |/<code>

克隆ESPnet源碼

<code> git clone [email protected]:espnet/espnet/<code>

預訓練模型放入egs/aishell目錄中

<code> ├── conf
 │   ├── decode.yaml
 │   └── train.yaml
 ├── data
 │   └── train_sp
 │       └── cmvn.ark
 └── exp
     ├── train_rnnlm_pytorch_lm
     │   ├── model.json
     │   └── rnnlm.model.best
     └── train_sp_pytorch_train_pytorch_transformer_lr1.0
         └── results
             ├── model.json
             └── model.last10.avg.best/<code>

啟動容器

一分部源碼目錄需要映射進容器中使用，這裡是參考egs/aishell/asr1/run.sh的內容。

<code>  docker run -it --rm \\
 -v /home/ubuntu/jack/espnet/egs:/espnet/egs \\
 -v /home/ubuntu/jack/espnet/espnet:/espnet/espnet \\
 -v /home/ubuntu/jack/espnet/test:/espnet/test \\
 -v /home/ubuntu/jack/espnet/utils:/espnet/utils \\
 -v /home/ubuntu/jack/espnet/demo_asr:/espnet/demo_asr \\
 --workdir /espnet/demo_asr/ \\
 espnet/espnet:gpu-cuda10.0-cudnn7-u18 \\
 /bin/bash/<code>

運行中文ASR識別示例

預訓練的中文ASR模型包含語言模型。使用的是transformer模型架構。此Demo沒有使用語言模型。

隨機挑選一個Aishell訓練集中的音頻文件作示例：BAC009S0730W0125.wav。

<code>import json
import torch
import argparse
from espnet.bin.asr_recog import get_parser
from espnet.nets.pytorch_backend.e2e_asr_transformer import E2E
import os
import scipy.io.wavfile as wav
from python_speech_features import fbank

filename = os.path.join(os.path.dirname(__file__), 'BAC009S0730W0125.wav')
sample_rate, waveform = wav.read(filename)
fbank = fbank(waveform,samplerate=16000,winlen=0.025,winstep=0.01,
      nfilt=86,nfft=512,lowfreq=0,highfreq=None,preemph=0.97)

root = "espnet/egs/aishell/asr1"
root = os.path.join(os.path.dirname(__file__), '../..', root)
model_dir = root + "/exp/train_sp_pytorch_train_pytorch_transformer_lr1.0/results"

# load model
with open(model_dir + "/model.json", "r") as f:
  idim, odim, conf = json.load(f)
model = E2E(idim, odim, argparse.Namespace(**conf))
model.load_state_dict(torch.load(model_dir + "/model.last10.avg.best"), strict=False)
model.cpu().eval()

# load tocken_list
token_list = conf['char_list']

# recognize speech
parser = get_parser()
args = parser.parse_args(["--beam-size", "2", "--ctc-weight", "1.0", "--result-label", "out.json", "--model", ""])

result = model.recognize(fbank, args, token_list)
s = "".join(conf["char_list"][y] for y in result[0]["yseq"]).replace("", "").replace("<space>", " ").replace("<blank>", "")

print("prediction: ", s)/<blank>/<space>/<code>

識別結果

識別結果為空，原因待分析。

<code>python demo_asr.py 
(280, 86)
result
[{'score': -5.416276266070469, 'yseq': [4232, 4232]}]
prediction:  /<code>

分享到:

閱讀更多 IT充電寶 的文章

關鍵字: Ubuntu 示例語音

ESPnet運行中文語音識別示例

ESPnet簡介

拉取Docker image

下載預訓練中文ASR模型

克隆ESPnet源碼

預訓練模型放入egs/aishell目錄中

啟動容器

運行中文ASR識別示例

識別結果

相關文章:

ESPnet運行中文語音識別示例

ESPnet簡介

拉取Docker image

下載預訓練中文ASR模型

克隆ESPnet源碼

預訓練模型放入egs/aishell目錄中

啟動容器

運行中文ASR識別示例

識別結果

相關文章:

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

在農村“立夏節”都有哪些民間習俗？

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

工程分包乙方人員傷殘誰承擔？

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？

本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？

現在存款有14萬，借了5萬還沒收回來，該做什麼好？

2070super和5700xt買哪個比較好？

生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？

人這一生遇到的人和事為什麼感覺都像是必然的經歷？

現在校內校外到底教的是美式英語還是英式英語還是混搭英語？

上有老下有小，我們真的跳不出這個人生循環了嗎？

如果外面正在下小雨，你會突然想起了誰？

初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？

現在我覺得認真對某個人說我喜歡你什麼的這種話好惡心，我愛你更說不出口，好惡心，是什麼心理？

劇版的《何以笙簫默》和《再見王瀝川》哪一個更好看呢？

計算機專業本科能夠進入字節跳動、華為這些公司做開發嗎？是否還需要繼續讀研？

生完二胎的你們，現在有什麼感想？

華北適合種植蠶豆嗎？

華為手機更新EMUI10.1系統後效果咋樣？

大熱天蜜蜂老是爬到箱外結群正常嗎？

辣椒正是生長最佳期，偏偏有的辣椒苗蔫，不是病蟲害是咋回事？

手機相機發展的最終形態會是怎樣的？

華為為什麼不出一款5寸全面屏手機呢？我想應該會有很多人支持吧？

生吃山芋，生吃胡蘿蔔，還有哪些蔬菜可以生吃呢？

為什麼馬鈴薯不宜過早過遲播種？

疫情愈發嚴重，原油為何反而大漲？

生菜球很好吃，怎麼種植才能高產呢？

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？ ？

大家幫忙看看這個房子如果要砸牆的話，怎麼改比較好？

意蜂夏季喝什麼水降溫？

黃瓜種子催芽後種植需要打底水嗎？

書友們展示一下自我感覺發揮較好的作品，一起學習？

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？