Page 67 - My FlipBook

P. 67

Brochure 2020

在計畫的第二年（2020 年）早期，我們發佈了詞彙語意常識性知識庫（例如 WordNet、ConceptNet、E-HowNet）
類比測驗的數據集，目摽在評測詞彙的常識推理能力，標注了詞彙的常識。E-HowNet 目前以結構化的方式進行
我們在 LREC 2020 中發佈了我們的研究結果。常識推理詞彙常識的定義，共有 88,000 個中文詞彙。我們提出一
是自然語言推理任務的基礎。大多數模型依賴詞彙語意
向量來提供背景世界知識，但詞彙語意向量在常識上的套從常識表示模型中提取常識類比題目的自動化作法，
覆蓋面十分有限。因此，我們將建立詞彙級別的常識推從 E-HowNet 中提取了精確的類比，同時由語言學家進行
理任務。現有的詞彙級別推理任務大多不著重在常識層確認。產生的測試集取名 CA-EHN，為第一個常識類比數
面。以中國詞彙類比測驗集（CA）為例；簡體中文數據據集，包含 90,505 個類比，涵蓋 5,656 個詞彙和 763 個
集和從谷歌翻譯成英文的繁體中文數據集僅包含數十種
類比關係。此外，我們的實驗分析表明，考量常識的語
關係，其中大多數是形態上的（例如前綴）或關於專有意向量在 CA-EHN 的評量上可以得到較高的分數。圖四
名詞間的知識關係（例如某城市是某國家的首都）。顯示了 CA-EHN 的一些範例。

圖四：CA-EHN (word:word=word:synset) 的範例。

65

62 63 64 65 66 67 68 69 70 71 72