中央研究院資訊所 許聞廉老師實驗室介紹
一、跨領域研究的源起──自然輸入法
許老師大學時讀數學,研究所轉攻作業研究(Operations
Research)。博士畢業後到美國西北大學教書,開始了圖論演算法的研究。九年之後(1989年)返回中研院,和陳克健老師開始進行中文輸入法「音轉字」的研究。其實,早在他回台前的四、五年,美國華人就對於中文電腦研究頗感興趣,經常舉行這類的會議。只可惜的是,他們都潛心研究如何創造出一個完美的「拆字」輸入法,讓大部分的中文字都能有「唯一」的輸入碼,以避免選字的問題。對於同音字眾多的「注音」輸入法則嗤之以鼻!
這使得許老師對於如何利用人工智慧技巧,將「音轉字」處理最佳化發生了興趣。回台經過了兩年多的努力,終於建立了一個智慧型注音輸入法的雛形。後來經由一些中文廠商的協助,製作介面,在1992年底完成了一個PC上的「國音」輸入法。再經過不斷的改良,才演變成1994年的「自然輸入法」。看到現在國中生,快樂地在網上打字聊天,再想想當年許多對注音輸入不屑一顧的人,不禁莞爾。
二、知識管理與軟體代理人
1996年暑假,許老師到史丹福大學語言資訊中心(CSLI)進行為期一年的訪問。這次的訪問對於他日後的研究有著極大的影響。他每星期都去聽六、七個不同領域的演講,逐漸讓他覺得,許多問題的解決或改進的關鍵在於知識表達的方式。有了合適的知識表達,才能發展出有效且快速的演算法。此外,網路上的程式模組或知識區塊多得不可勝數,如何能發展出有效的知識管理以及代理人軟體將之整合,才是大勢所趨。因此,1997年回台之後許老師就將實驗室的名稱改為「智慧型代理人系統實驗室」。並且從1998年起逐漸發展出後來的InfoMap系統,目的在於整合常識,語言知識以及專業知識,並根據這些知識做相關的推理。希望能將自然語言上面的音轉字,字轉音,語音輸入,以及機器翻譯所需要的知識整合在同一套系統內,以便知識分析師和程式設計師能夠分頭努力,相輔相成。
三、轉向生物資訊研究領域
1994年在一個偶然的場合,和生醫所常蘭陽老師談到將DNA以及蛋白質序列看成是一種語言的方式來研究生物資訊,許老師就開始接觸一些簡單的基因體知識。由於和圖論演算法關係密切,他也花了相當多的時間研究DNA序列組合的問題,在1998年發表了第一篇在實驗雜訊下整合序列的論文。然而,這時正逢網路熱潮,很難從資訊領域找到願意作生物資訊研究的學生,這方面的進度就暫時停滯下來。許老師真正有計畫地進行生物資訊的研究約從2001年中研院主辦的暑期生物資訊研習會開始,將他在演算法以及自然語言方面的研究都應用在相關的生物資訊領域上。
以下就是目前在許老師實驗室進行的研究項目:
演算法
許老師早期在西北大學的研究偏重於圖形演算法的理論,主要的貢獻在完美圖以及一些具有幾何性質的圖形上面,作品大多在JACM以及SIAM
J.
Computing發表。他在平面完美圖上的兩篇論文是這個領域的經典之作。此外,他在許多特殊圖形上都設計了精闢的演算法。最近,他在平面圖的辨認以及極大平面子圖建構的線性演算法上,利用「PC
-- 樹」資料結構獲得了突破性的進展。
生物資訊
生物資訊是一門跨領域的學問。許老師實驗室經常與不同的生物學家合作,以獲得一手資料。他和中研院化學所合作MS
Spectrometry的資料分析,目前在ICAT以及ITRAQ實驗分析上都有最先進的發展;和中研院生醫所合作NMR蛋白質結構分析,他們的作品被計算生物學最重要的會議RECOMB’05接受,是國內多年來的第一篇。此外,他並與所內宋定懿老師合作蛋白質結構預測以及生物知識管理,文獻搜尋等研究。他們在蛋白質二級結構以及區域結構的預測上也領先全球。目前正在進行蛋白質三級結構的預測。
知識管理
許老師實驗室從1998年開始自然語言知識表達系統的研究,開發了InfoMap系統,能夠整合各種概念知識與進行簡單的框架推論,並作為其他自然語言應用系統的知識共享架構。他們在InfoMap上發展中文問答系統,做為自然語言理解的基礎,並以此進行企業內部知識管理以及生物知識管理系統的建構。
數位學習
InfoMap的另一個重要的應用方向,在於發展學生模型以及教學內容的概念整理。其目的不但要能建立學生錯誤自動偵測系統,並提供教師撰寫相應的解題步驟以及連結到相關教材內容的工具。兩者皆牽涉到靜態以及動態解題知識的表達與管理。利用InfoMap框架推論的機制,他們很容易地在自然語言幾何問題上建立了一個雛形系統。他們並在智慧型助教代理人的研究上,將自動問答機制建立在MSN
Messenger Agent上,可自動協助上網的學生,支援網路共同學習的機制。 |