Page 86 - My FlipBook
P. 86
Collaborative Projects所
內
合
作
計
畫
圖二: 問答操作流程。
給定一個問題、維基百科、和一些外部資源(例如 WordNet、ConceptNet 和 Freebase 等),我們的任務
是從維基百科和線上檢索的文本中,找出(或推論出)最可能的答案。為了減少計算量,我們會先在預
處理階段使用現成的訊息檢索工具(例如 Lucene 搜索引擎),摘錄出相關的維基百科頁面(Wikipages)。
此外,詢問不同類型的問題 ( 例如詢問某個人 / 事 / 時 / 地 / 物、程序、原因等 ),其結果類別也會不一樣
( 例如答案可為:人名 / 位置 / 組織 / 產品 / 事件名稱、日期 / 時間、持續時間、距離、程序、原因等 ),
且預期的答案形式亦不相同(例如可為:是 / 否、某個特定答案、或自由文本)。但不同類型的問題,
往往需要以不同的機制(在圖二中稱為答案模式 (Answer-Mode))來獲取所需的答案。例如,電腦需要執
行以下不同的操作來分別找出結果:從給定的文本中定位一個或多個文字片段、從提取的信息中進行命
題成立與否判斷(針對是 / 否問題)、執行邏輯(如:交集、聯集、補數等)、算術(如:求和、求差等)、
以及匯總運算(如:比較、求最大 / 最小、計數等)。
很明顯的,僅靠一個通用模組來總合處理上述各種尋求答案的機制,將是一件很困難的事情。我們因此
提出了「分而治之」(Divide-and-Conquer) 的框架,將這一個複雜的任務轉換為一組簡單的子任務。也
就是說,每個特定的答題機制將由不同的個別答案生成模組 / 模型來處理;而且對同一個答題機制,亦
可採用集成模式 (ensemble approach) 來整合出答案(即答案是由多個不同的答案生成模組之結果匯整而
成)。在這種運作模式下,分發器 (Dispatcher) 模組將首先識別問題的可能答案類型和答題模式 ( 如圖二
所示 ),然後分別啟動各個相應的答案生成模組,以獲得一組可能的答案。然後,聚合器 (Aggregator) 模
組通過合併那些獲得的結果,來生成最終答案。
84
內
合
作
計
畫
圖二: 問答操作流程。
給定一個問題、維基百科、和一些外部資源(例如 WordNet、ConceptNet 和 Freebase 等),我們的任務
是從維基百科和線上檢索的文本中,找出(或推論出)最可能的答案。為了減少計算量,我們會先在預
處理階段使用現成的訊息檢索工具(例如 Lucene 搜索引擎),摘錄出相關的維基百科頁面(Wikipages)。
此外,詢問不同類型的問題 ( 例如詢問某個人 / 事 / 時 / 地 / 物、程序、原因等 ),其結果類別也會不一樣
( 例如答案可為:人名 / 位置 / 組織 / 產品 / 事件名稱、日期 / 時間、持續時間、距離、程序、原因等 ),
且預期的答案形式亦不相同(例如可為:是 / 否、某個特定答案、或自由文本)。但不同類型的問題,
往往需要以不同的機制(在圖二中稱為答案模式 (Answer-Mode))來獲取所需的答案。例如,電腦需要執
行以下不同的操作來分別找出結果:從給定的文本中定位一個或多個文字片段、從提取的信息中進行命
題成立與否判斷(針對是 / 否問題)、執行邏輯(如:交集、聯集、補數等)、算術(如:求和、求差等)、
以及匯總運算(如:比較、求最大 / 最小、計數等)。
很明顯的,僅靠一個通用模組來總合處理上述各種尋求答案的機制,將是一件很困難的事情。我們因此
提出了「分而治之」(Divide-and-Conquer) 的框架,將這一個複雜的任務轉換為一組簡單的子任務。也
就是說,每個特定的答題機制將由不同的個別答案生成模組 / 模型來處理;而且對同一個答題機制,亦
可採用集成模式 (ensemble approach) 來整合出答案(即答案是由多個不同的答案生成模組之結果匯整而
成)。在這種運作模式下,分發器 (Dispatcher) 模組將首先識別問題的可能答案類型和答題模式 ( 如圖二
所示 ),然後分別啟動各個相應的答案生成模組,以獲得一組可能的答案。然後,聚合器 (Aggregator) 模
組通過合併那些獲得的結果,來生成最終答案。
84