<div dir="ltr">大家好,<br>目前語音辨識錯誤修正的實驗已調整到目前最好的模型,並且加入判斷是否為語音辨識輸出結果,修正前,針對英文、數字及中文數字做MASK,修正完畢之後,再回復文本中的 英文、數字及中文數字,最後將用NER資訊檢查修正結果。目的保證文章中的,數字、英文及專有名詞都不會因為修正模型做任何錯誤修改。<br><br>目前實驗結果,在完全正確的文本上的效能(Word Error Rate)為:<br>FGC_train: <div><ul><li style="margin-left:15px">  org:   0  <br></li><li style="margin-left:15px">cor:   0.00018594282023843658 </li></ul><div>FGC_dev:</div><div><ul><li style="margin-left:15px">org:   0 </li><li style="margin-left:15px"> cor:   0.0000897111860860755<br></li></ul>FGC_test:</div><div><ul><li style="margin-left:15px">org:   0 </li><li style="margin-left:15px"> cor:   0.000259740259740259<br></li></ul></div><div>FGC_ss_test: <br></div><div><ul><li style="margin-left:15px">org:   0</li><li style="margin-left:15px"> cor:   0.00027056277056277<br></li></ul></div><div>在我所產生的模擬錯誤文本上未使用NER資訊的效能(Word Error Rate)為:<br>FGC_train: </div><div><ul><li style="margin-left:15px">org:  0.021748749092941173<br></li><li style="margin-left:15px">cor:  0.020160168661298827<br></li></ul></div><div><div>FGC_dev: </div><div><ul><li style="margin-left:15px">org:  0.020304116315556498<br></li><li style="margin-left:15px">cor:  0.020070100445681357<br></li></ul>FGC_test: </div><div><ul><li style="margin-left:15px">org:  0.02140113807763209<br></li><li style="margin-left:15px">cor:  0.021487314618834033<br></li></ul></div><div>FGC_ss_test: </div></div><div><ul><li style="margin-left:15px">org:  0.02063941301076094<br></li><li style="margin-left:15px">cor:  0.020729180241179628<br></li></ul></div><div>目前來看,整體上都有變好,為預防決賽的文本和之前文本差異太大,我針對Bert給出機率做了一個調整,若Top-1分數很低,我將不做任何修正。<br><br>以上是語音辨識錯誤修正目前的實驗結果。感謝!<br><br>佳樺敬上</div></div></div>