古倫維的首頁

研究員 | 古倫維

Research Descriptions

本實驗室主要研究方向為自然語言處理、資訊檢索、計算語言學的相關基本技術開發與應用，特別在情緒與意見分析的主題上已累積了許多研究成果。目前正在進行的研究主題與方向如下：

1. 基於知識的語意角色標記：

在自然語言的處理中，需要理解句子的語法及語意，再進行進一步的分析。目前語法的部份主要由詞性標記、具名實體辨識、及句子剖析來完成，語法標記則通常待建立剖析樹後，基於剖析結果再進行標記如主事者 (agent)、主題 (theme) 等，為一個循序的程序。想精準地完成以上的任務，讓電腦由各種來源學習真實知識並加以累積是必要的工作。然而，因為每個步驟都需要使用到真實世界的知識來協助產生更正確的結果，傳統循序的方式就產生了問題：每個步驟都需要重新學習知識，產生的錯誤將影響到之後的工作，且所有步驟所產生的結果無法同時考量以動態調整。有鑑於此，我們提出一個基於知識的語意角色分析方法，同時考慮詞性標記、具名實體辨識與句子剖析時經由學習真實世界的知識，所產生的各種可能結果的機率值，再搭配自動學習而來的各個語意標籤與詞彙、具名實體、句子結構之間的關係，並引入知識本體的資源，使語意角色標記的方法能達到更佳的效果。

2. 提升自動化意見分析效能之研究

過去我們發展了網路的自動分析技術，可以根據特定的題目，將網路上的意見擷取下來，並分析其為正面、中立、或負面。在找尋到的意見中，我們可以用句子分析的技術，找出意見元素，例如何者為意見持有者及意見所發表的對象。在分析意見傾向的部份目前皆可達到不錯的成果，但在其他意見元素的辨識上，效能仍有相當限制，主要原因是因此技術牽涉到語言理解的問題。因此我們研究的重點在於利用基於知識的語意角色分析方法，並引入知識本體的資源，以導入真實世界的知識幫助語言理解，期望能在意見元素的辨識上得到更好的效能。

3. 網路意見分析問題與傳統問卷調查問題之比較

在網路資訊中進行意見分析，好處是能夠自動分析大量的資料，比起傳統的人工式問卷，不僅節省人力，所獲得的資訊來源也廣泛得多。然而，真正實作在調查之上時，在網路上的應用技術卻未必能符合過去利用傳統問卷調查的調查者之要求。因此我們研究的重點將從資料量、資料種類、資料來源、受調者(樣本)、調查正確性、調查問題對結果的影響、及時間因素的面向做定性與定量的研究分析，以歸結出何種傳統意見調查之題目適合利用網路意見分析技術，以及可能需要的輔助，進而將網路意見分析技術做最適當的應用。

4. 讀者閱讀意向偵測

電子讀物的增加與網路的普及，使得利用電子設備閱讀的使用者越來越難以找到有興趣的讀物。過去為提升讀者閱讀的興趣，技術上多著墨於提供與目前文本相關度高的內容，這種作法雖可專注於同一主題上，但一方面使用者的閱讀興趣是廣泛且會變換的，這種作法可能無法提供使用者延伸的閱讀內容並使其繼續不斷地閱讀；另一方面，讀者本身經常無法一開始就知道有興趣的主題是什麼，而是看到之後才覺得有趣，進而繼續閱讀，因此在此種狀況下，使用者難以自行做進一步的興趣搜尋。我們研究的主要內容即在發展閱讀意向偵測的技術，預測讀者本身可能進行的下一個行為及活動，並由其他對此文章有興趣的讀者共同提出他們所感興趣的內容給原讀者，以自動為讀者找出可能有興趣的文件讓讀者選擇，改善並加速讀者閱讀網路文章的流程，減低搜尋目標的困難，進而鼓勵閱讀。

5. 利用網路檢索技術從輸入症狀自動提示可能罹患的疾病

研究目標為利用自然語言與資訊檢索的技術，根據輸入的 (多個) 症狀，提供使用者可供參考的醫療資訊，特別是病症，與可獲得醫療協助的地點。我們探討如何從大量網頁資訊中，找出所有可能的相關病症並依可能性排序。使用者查詢的記錄則以使用網頁瀏覽記錄的技術，用來改進提出病症的正確性，並做成症狀記錄供醫師參考。這個研究並進一步建立一個Android App，將目前使用者所在地連接地圖資訊或既有的醫院系統，讓忙碌的現代人在身體出現警訊時，能快速得到減緩病痛的可能方法，再盡速尋求進一步的醫療協助。