Page 127 - My FlipBook
P. 127
Brochure 2020

圖一:句子剖析範例。

向,增強系統性能,是傳統機器學習不容易做到 1. 情感分析與意見探勘
的。 主觀資訊的分析是自然語言處理中最具應用性的

3. 中文自然語言問答系統 研究領域之一,且相關技術需深入理解文本內容
中文自然語言問答是一項嶄新且充滿挑戰性的研 及特定領域知識。我們在新聞、部落格、網路論
究議題。 我們結合了實驗室各種中文技術,如問 壇、評論、讀者回應、對話及短訊文本中研究意
題理解、文句擷取、專有名詞辨識、候選答案排 見、情感、主觀性、表情、情緒、觀點等資訊,
序、語意模板等,研發出一套問答系統。這套系 並同時為中文及英文文件,研發分析主觀資訊的
統在 2007 年日本東京 NTCIR 舉辦的第二屆中文問 資源與技術。資源方面,我們建立了中文情感分
答系統競賽中,以 55.3% 正確率蟬聯第一名。目 析最完整的套件 CSentiPackage,其中包含辭典、
前,這個系統已經商品化,我們正在往流暢的對 語料、計分工具,與深度學習的社群網路文本分
談系統努力中。 析演算法 UTCNN;其中套件下載次數超過 250 次,
而字典更超過 1,000 次。目前我們基於過去所發展
4. 整合詞彙知識庫來表達詞彙向量 的各項技術,將情感分析帶入人類生活的各種情
詞彙知識庫,如廣義知網,是將每一個詞彙的屬 境中。除了利用最新的遠程監督技術收集推特的
性與語法語意以結構化的方式加以表達,好處在 情感與諷刺文本,有效提供研究社群更大更可靠
於提供清晰的解釋與穩定的應用,缺點在於人為 的語料以加速研究進程外,更開展與以色列及美
定義成本高且語意表達的範圍有所侷限。另一方 國的國際合作,其中正在進行的工作包括目前研
面,深度學習的作法則是利用大量語料訓練出每 究社群關注的熱門新議題謊言偵測與假新聞干預,
個詞彙的一組向量,面對實際的 NLP 問題時可以 也都獲得豐碩的研究成果。
把詞彙向量當作後續可訓練調整的參數,提供一
般化與語意表達擴張的能力。結合這兩者的長處 2. 機器閱讀
具有很高的學理價值與應用突破。我們結合知識 我們將用之前所建立之不同分析模組 ( 如中文分
庫與語料共同從事詞彙向量的生成,將結果發表 詞、句法剖析、語意角色標註、邏輯型式轉換等 ),
在 EACL 2017 及 IALP 2017,後者更得到大會的最 來建立一個中文自然語言理解系統。我們會首先
佳論文獎。此外,在 IALP 2017 的預測情緒詞彙與 為這個長期的研究計劃建立一個中文機器閱讀程
片語的國際競賽中,我們利用語料訓練出的詞彙
向量與廣義知網的同義詞集來預測情緒維度,奪 式,使本計劃可以用閱讀測驗來評估。我們將從
得整體第三名以及片語 arousal 項目的冠軍。 國小課本開始,然後再進一步到中學課本,最後
到專業智慧型問答系統。
三、自然語言應用
3. 口語處理
我們所發展的注音自動轉國字的軟體─自然輸入法, 我們的研究涵蓋了多種口語處理主題。最近的成
正確率接近 96%,已經普遍受到大眾的歡迎與接受。 果包括用於語音 / 說話人辨識的鑑別式自動編碼
最近我們朝著更加國際化的方向前進,以針對常用 器、基於子空間的口語語言辨識模型、基於變分
字串「搜尋」為概念,發展中英文「快打」輸入法。 自動編碼器的語音轉換、自動語音評估模型及視
未來,我們將發展情感分析,機器閱讀,以及口語 聽語音增強。實驗室成員黃文勁獲得 ISCSLP2018
處理技術以支援不同的應用系統。 最佳學生論文獎。進行中的研究包括閩南語語音
辨識、跨語言語音辨識及口語問答系統。

125
   122   123   124   125   126   127   128   129   130   131   132