Page 56 - My FlipBook
P. 56


智慧

畫 具深度理解之對話系統及智慧型輔助學習機器人

Arti cial Intelligence Projects 計畫主持人:許聞廉博士、馬偉雲博士、呂菁菁博士、張詠淳博士
計畫期程:2018/1~2021/12

中文由於沒有詞界,文法鬆散,大量省略,且詞序自由, components(BC)。 以往, 選取 BC 並沒有一個清楚 的
電腦處理起來相當困難。以往的中文斷詞,語音輸入, 依據,純粹由程式決定。因此,選出的 BC 無法保證能
以及文句剖析都是使用不同的演算法。我們在科技部 AI 掌握句子主要結構。現在,我們可以先將句子作某種程
計畫中,藉由小學數學解題,以及對話系統的語言理解 度的簡化,將某些修飾語縮進其搭配詞內,讓結構上重
經驗,發展出一套展嶄新的中文處理演算法,稱之為「簡 要的 components 顯示出來,再進行 SPBA 分群時,選出
化還原法」(簡稱「簡化法」)。簡化法結合我們早期開 的 BC 之代表性就更為顯著。這個現象在專有名詞辨識
發的統計式準則模型 SPBA(合併稱為 RPBA)可同時處 上相當清楚。因此,Reduction + SPBA (或簡稱 RPBA)
理中文斷詞,語音輸入,文句剖析,甚至中文語言生成, 就是我們目前所發展的語言分析演算法。由於 SPBA 及
和機器翻譯。RPBA 的原理頗類似人類處理語言的方式, reduction 都不受語言限制,因此 RPBA 可以應用在任何
結合規則與印象(統計)於一身,且可運用到各個不同 語言。
層面。
詞與詞之間語意搭配(或依存)的關係在句子中極為重
簡化法是奠基於詞與詞的搭配關係。一個詞 X 的修飾語, 要。我們可以說,沒有一個詞在句子中是獨立存在的,
通常是語意上能夠和 X 搭配的詞(稱為「搭配詞」)。例 每一個詞一定會與句子中另一個詞有語意搭配關係。許
如「漂亮」可以描述球賽,但美麗」則不行。一個複雜 多這類的搭配關係是約定俗成的。譬如,我們會說「打
的句子通常是由簡單句逐步地加上許多語意上適合搭配 了一場漂亮的球賽」,而不會說「打了一場美麗的球賽」,
即使「漂亮」與「美麗」意義相近。不瞭解這樣的搭配
的修飾語,修飾子句,或者修飾語的修飾語,補語等等。 關係,電腦經常會產生錯誤的剖析。譬如下面的例子:
如果我們對每個詞 X 蒐集其搭配詞集合 FB(X)。就可以利
用搭配詞之間的修飾關係,將一個複雜句反推回原來的 1. 完成清掃家裡的工作 (Finish the job of house cleaning)
簡單句。要進行這個計算,我們需要將句子中所有合理 • 完成 { [ 清掃家裡 ] 的 工作 } --- ( 完成,工作 )
的修飾關係利用 FB 和句子結構推導出來。如此,就會得
到這個句子的依存剖析樹。將一個詞 X 的修飾語「併入」 2. 完成清掃家裡的垃圾 (Finish cleaning the household
X 的動作,我們稱之為「簡化」(reduction)。對一個句子 garbage)
進行簡化,我們要從依存剖析樹的端點詞(leaf node) • 完成 { 清掃 [ 家裡的 垃圾 ] } --- ( 完成,( 清掃,垃圾 )
遞迴地與上面的搭配詞合併,回推至其原來的簡單句。 事件 )
簡化法是一個利用 FB 產生依存剖析樹的方法,可同時幫
助進行語音辨識及語言生成。 一般的剖析器很容易將第二句話剖析成和第一句類似,
也就是主要事件是 ( 完成,垃圾 )。然而正確的方式卻是:
我們可以將常用的語言模型,N-gram,與簡化法作一個 完成了「清掃垃圾」這個事件。也就是說,(完成,工作)
比較。N-gram 作為語音辨識的語言模型非常有效,然而 是一個合適的語意搭配詞組,但(完成,垃圾)則否。
當 N ≧ 3 時統計數量就非常龐大,簡化法就沒有這個問
題。簡化法可以看成是詞的 bigram,但是經由遞迴運算, 這類有意義的搭配關係可能有上億個配對,需要在非常
可以合成長的 N-gram。譬如,從 AB,BC 兩個搭配詞可 大的資料中才能統計得到,在任何有限的機器學習訓練
以自動合成 ABC 的搭配詞串,不需事先儲存。同理,可 語料中是無法看出的。這也說明了,為何一般機器學習
以自動合成 ABCD…等更長的詞串。換句話說,就某個層 的正確率在自然語言中有其瓶頸。
面而言,簡化法具有 N-gram 的果效。

但 是, 句 子 中 有 許 多 文 法 上 的 遠 距 相 依 性 不 容 易 在
N-gram 表 達。 這 類 結 構 上 的 性 質 就 可 以 藉 由 我 們 早
期 發 展 的 統 計 式 準 則 模 型(Statistical Principle based
Approach, SPBA)來精準描述。SPBA 可以將句子自動分
群,讓每一群的句子都可以被一組 backbone components
( 如 ABCD 四 個 詞, 以 及 兩 兩 之 間 適 當 的 insertions)
所 涵 蓋。SPBA 分 群 的 好 壞 依 賴 其 所 選 取 的 backbone

54
   51   52   53   54   55   56   57   58   59   60   61