[Most-ai-contest] ASR refinement

吳佳樺 60447070s於gapps.ntnu.edu.tw
Tue 4月 7 14:34:53 CST 2020


大家好,
目前語音辨識錯誤修正的實驗已調整到目前最好的模型,並且加入判斷是否為語音辨識輸出結果,修正前,針對英文、數字及中文數字做MASK,修正完畢之後,再回復文本中的
英文、數字及中文數字,最後將用NER資訊檢查修正結果。目的保證文章中的,數字、英文及專有名詞都不會因為修正模型做任何錯誤修改。

目前實驗結果,在完全正確的文本上的效能(Word Error Rate)為:
FGC_train:

   -   org:   0
   - cor:   0.00018594282023843658

FGC_dev:

   - org:   0
   -  cor:   0.0000897111860860755

FGC_test:

   - org:   0
   -  cor:   0.000259740259740259

FGC_ss_test:

   - org:   0
   -  cor:   0.00027056277056277

在我所產生的模擬錯誤文本上未使用NER資訊的效能(Word Error Rate)為:
FGC_train:

   - org:  0.021748749092941173
   - cor:  0.020160168661298827

FGC_dev:

   - org:  0.020304116315556498
   - cor:  0.020070100445681357

FGC_test:

   - org:  0.02140113807763209
   - cor:  0.021487314618834033

FGC_ss_test:

   - org:  0.02063941301076094
   - cor:  0.020729180241179628

目前來看,整體上都有變好,為預防決賽的文本和之前文本差異太大,我針對Bert給出機率做了一個調整,若Top-1分數很低,我將不做任何修正。

以上是語音辨識錯誤修正目前的實驗結果。感謝!

佳樺敬上
-------------- 下一部份 --------------
抹去了一個 HTML 附加檔...
URL: <http://www.iis.sinica.edu.tw/pipermail/most-ai-contest/attachments/20200407/497a90f6/attachment.html>


More information about the Most-ai-contest mailing list