[Most-ai-contest] ASR refinement

Tue 4月 7 14:34:53 CST 2020

大家好，
目前語音辨識錯誤修正的實驗已調整到目前最好的模型，並且加入判斷是否為語音辨識輸出結果，修正前，針對英文、數字及中文數字做MASK，修正完畢之後，再回復文本中的
英文、數字及中文數字，最後將用NER資訊檢查修正結果。目的保證文章中的，數字、英文及專有名詞都不會因為修正模型做任何錯誤修改。

目前實驗結果，在完全正確的文本上的效能(Word Error Rate)為：
FGC_train:

   -   org:   0
   - cor:   0.00018594282023843658

FGC_dev:

   - org:   0
   -  cor:   0.0000897111860860755

FGC_test:

   - org:   0
   -  cor:   0.000259740259740259

FGC_ss_test:

   - org:   0
   -  cor:   0.00027056277056277

在我所產生的模擬錯誤文本上未使用NER資訊的效能(Word Error Rate)為：
FGC_train:

   - org:  0.021748749092941173
   - cor:  0.020160168661298827

FGC_dev:

   - org:  0.020304116315556498
   - cor:  0.020070100445681357

FGC_test:

   - org:  0.02140113807763209
   - cor:  0.021487314618834033

FGC_ss_test:

   - org:  0.02063941301076094
   - cor:  0.020729180241179628

目前來看，整體上都有變好，為預防決賽的文本和之前文本差異太大，我針對Bert給出機率做了一個調整，若Top-1分數很低，我將不做任何修正。

以上是語音辨識錯誤修正目前的實驗結果。感謝!

佳樺敬上
-------------- 下一部份 --------------
抹去了一個 HTML 附加檔...
URL: <http://www.iis.sinica.edu.tw/pipermail/most-ai-contest/attachments/20200407/497a90f6/attachment.html>