[Most-ai-contest] ASR refinement
吳佳樺
60447070s於gapps.ntnu.edu.tw
Tue 4月 7 14:34:53 CST 2020
大家好,
目前語音辨識錯誤修正的實驗已調整到目前最好的模型,並且加入判斷是否為語音辨識輸出結果,修正前,針對英文、數字及中文數字做MASK,修正完畢之後,再回復文本中的
英文、數字及中文數字,最後將用NER資訊檢查修正結果。目的保證文章中的,數字、英文及專有名詞都不會因為修正模型做任何錯誤修改。
目前實驗結果,在完全正確的文本上的效能(Word Error Rate)為:
FGC_train:
- org: 0
- cor: 0.00018594282023843658
FGC_dev:
- org: 0
- cor: 0.0000897111860860755
FGC_test:
- org: 0
- cor: 0.000259740259740259
FGC_ss_test:
- org: 0
- cor: 0.00027056277056277
在我所產生的模擬錯誤文本上未使用NER資訊的效能(Word Error Rate)為:
FGC_train:
- org: 0.021748749092941173
- cor: 0.020160168661298827
FGC_dev:
- org: 0.020304116315556498
- cor: 0.020070100445681357
FGC_test:
- org: 0.02140113807763209
- cor: 0.021487314618834033
FGC_ss_test:
- org: 0.02063941301076094
- cor: 0.020729180241179628
目前來看,整體上都有變好,為預防決賽的文本和之前文本差異太大,我針對Bert給出機率做了一個調整,若Top-1分數很低,我將不做任何修正。
以上是語音辨識錯誤修正目前的實驗結果。感謝!
佳樺敬上
-------------- 下一部份 --------------
抹去了一個 HTML 附加檔...
URL: <http://www.iis.sinica.edu.tw/pipermail/most-ai-contest/attachments/20200407/497a90f6/attachment.html>
More information about the Most-ai-contest
mailing list