[Most-ai-contest] Multi-span簡易說明

范正忠 jjfan於iis.sinica.edu.tw
Thu 1月 2 17:43:43 CST 2020


Hi 上堡, 

謝謝你的回覆, 也煩請在 1/14 會議上跟大家說明. 謝謝! 

jjfan 




From: "闍怵羅" <s2w81234 at gmail.com> 
To: "Most-ai Contest" <Most-ai-contest at iis.sinica.edu.tw> 
Sent: Thursday, January 2, 2020 4:09:18 PM 
Subject: [Most-ai-contest] Multi-span簡易說明 



各位好, 

我是負責Multi-span Extraction的人-羅上堡。 

本次的做法是全基於Rule-based去實作的,所以Step會有點多,可能有些也不是必要呈現的。 

以下會附上大概的整體流程共分為16步驟,由於過久沒有寫類似這樣流程的東西,所以會附上一張極簡的流程圖,來補充說明他們之間的關係。 




整體流程如下: 

Step1 :提取 Passage 與 Question 之文本和 NER 。 

Step2 :將 P 的特殊符號全部清除。 

※《『 ? 「》」』: ~@# ¥ % …… &* (): ]+... 

Step3 :將 NER 的 Begin 與 End 位置重算。 

※因為 Step2 , Begin 與 End 位置會有偏移錯誤。 

Step4 :創造 BERT 輸入矩陣: [CLS] Q [SEP] P [SEP] 。 

Step5 :提取 Question 的最後一句。 

Step6 :依照 Step5 的結果,提取關鍵字眼以獲得應回答幾個答案,如果沒有則視為非指定數量題目。 

Step7 :將 Step4 的矩陣丟給 BERT 產生出結果。 

Step8 :依照 Step7 的結果產生 top-k 的 Begin 與 End 。 

Step9 :去 top-k 裡面尋找答案,同時檢查是否超過 20 的長度,如果超過則繼續取下一個 top-k+1 的結果,直到數量滿足或是沒有候選答案為止。 

Step10 :依照 Step9 所選出的所有答案,進行內含 (Within) 與交疊 (Overrap) 的答案處理。 

※ Within condition 

Answer1: 今天是總統大選 

Answer2 :是總統大 

Result :今天是總統大選 

※ Overrap condition 

Answer1: 今天是總統大選 

Answer2 :總統大選的日子 

Result :總統大選 

※由於這部分的 code 有莫名不好處理的地方,所以在此琢磨的地方比較久。 

Step11 :尋找候選答案裡面,是否有『、』字眼,如果有執行 Step12 ;如果沒有則執行 Step13 。 

Step12-1 :尋找擁有『、』字眼的答案,往後擴充到句號。,並依照 jieba 的斷詞結果,來取得、後面的答案。 

Step12-2 :如果遇到『等』字眼時,需要再往後延伸找到等後面的字詞,來延伸擴充答案。 

Step13 :再度檢查 Within 與 Overrap 的情況判斷,如果有發生,則執行類 Step10 的結果判斷後,執行 Step15 :如果沒有,則進行 Step14 。 

Step14 :由於沒有遇到特殊情況,會將每個篩選後的答案,進行最簡單的 Rule 串接。 

Step15 :將選出來的答案,透過 NER 的資訊,去將有包含到該 NER 的部分字元全部擴充回來,讓答案更加完整。 

※ Example condition 

Answer: 統大選 

NER :總統 

Result :總統大選 

Step16 :輸出最終結果。 




謝謝。 

_______________________________________________ 
Most-ai-contest mailing list 
Most-ai-contest at iis.sinica.edu.tw 
https://www.iis.sinica.edu.tw/mailman/listinfo/most-ai-contest 
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://www.iis.sinica.edu.tw/pipermail/most-ai-contest/attachments/20200102/dc732ef7/attachment-0001.html>


More information about the Most-ai-contest mailing list