Page 86 - My FlipBook

P. 86

Collaborative Projects所
內
合
作
計
畫

圖二：問答操作流程。

給定一個問題、維基百科、和一些外部資源（例如 WordNet、ConceptNet 和 Freebase 等），我們的任務
是從維基百科和線上檢索的文本中，找出（或推論出）最可能的答案。為了減少計算量，我們會先在預
處理階段使用現成的訊息檢索工具（例如 Lucene 搜索引擎），摘錄出相關的維基百科頁面（Wikipages）。
此外，詢問不同類型的問題 ( 例如詢問某個人 / 事 / 時 / 地 / 物、程序、原因等 )，其結果類別也會不一樣
( 例如答案可為：人名 / 位置 / 組織 / 產品 / 事件名稱、日期 / 時間、持續時間、距離、程序、原因等 )，
且預期的答案形式亦不相同（例如可為：是 / 否、某個特定答案、或自由文本）。但不同類型的問題，
往往需要以不同的機制（在圖二中稱為答案模式 (Answer-Mode)）來獲取所需的答案。例如，電腦需要執
行以下不同的操作來分別找出結果：從給定的文本中定位一個或多個文字片段、從提取的信息中進行命
題成立與否判斷（針對是 / 否問題）、執行邏輯（如：交集、聯集、補數等）、算術（如：求和、求差等）、
以及匯總運算（如：比較、求最大 / 最小、計數等）。
很明顯的，僅靠一個通用模組來總合處理上述各種尋求答案的機制，將是一件很困難的事情。我們因此
提出了「分而治之」(Divide-and-Conquer) 的框架，將這一個複雜的任務轉換為一組簡單的子任務。也
就是說，每個特定的答題機制將由不同的個別答案生成模組 / 模型來處理；而且對同一個答題機制，亦
可採用集成模式 (ensemble approach) 來整合出答案（即答案是由多個不同的答案生成模組之結果匯整而
成）。在這種運作模式下，分發器 (Dispatcher) 模組將首先識別問題的可能答案類型和答題模式 ( 如圖二
所示 )，然後分別啟動各個相應的答案生成模組，以獲得一組可能的答案。然後，聚合器 (Aggregator) 模
組通過合併那些獲得的結果，來生成最終答案。

84

81 82 83 84 85 86 87 88 89 90 91