Page 67 - My FlipBook
P. 67
Brochure 2020

在計畫的第二年(2020 年)早期,我們發佈了詞彙語意 常識性知識庫(例如 WordNet、ConceptNet、E-HowNet)
類比測驗的數據集,目摽在評測詞彙的常識推理能力, 標注了詞彙的常識。E-HowNet 目前以結構化的方式進行
我們在 LREC 2020 中發佈了我們的研究結果。常識推理 詞彙常識的定義,共有 88,000 個中文詞彙。我們提出一
是自然語言推理任務的基礎。大多數模型依賴詞彙語意
向量來提供背景世界知識,但詞彙語意向量在常識上的 套從常識表示模型中提取常識類比題目的自動化作法,
覆蓋面十分有限。因此,我們將建立詞彙級別的常識推 從 E-HowNet 中提取了精確的類比,同時由語言學家進行
理任務。現有的詞彙級別推理任務大多不著重在常識層 確認。產生的測試集取名 CA-EHN,為第一個常識類比數
面。以中國詞彙類比測驗集(CA)為例;簡體中文數據 據集,包含 90,505 個類比,涵蓋 5,656 個詞彙和 763 個
集和從谷歌翻譯成英文的繁體中文數據集僅包含數十種
類比關係。此外,我們的實驗分析表明,考量常識的語
關係,其中大多數是形態上的(例如前綴)或關於專有 意向量在 CA-EHN 的評量上可以得到較高的分數。圖四
名詞間的知識關係(例如某城市是某國家的首都)。 顯示了 CA-EHN 的一些範例。

圖四:CA-EHN (word:word=word:synset) 的範例。

65
   62   63   64   65   66   67   68   69   70   71   72