Institute of Information Science
資料處理與探勘實驗室
Principal Investigators:
陳孟彰 Meng-Chang Chen (Chair) 陳銘憲 Ming-Syan Chen 張原豪 Yuan-Hao Chang
葉彌妍 Mi-Yen Yeh 楊得年 De-Nian Yang 廖弘源 Hong-Yuan Liao

[研究群介紹]
在資料爆炸的時代裡,各種資料,例如感應器資料、軌跡資料、交易資料、多媒體資料,以飛快的速度時時刻刻產生。目前硬體與網路高質與量,價錢相對便宜,是最佳時刻發展相關研究議題,以善用這些資料來改進現有服務,或用來解決目前無法解決的問題。所以本研究小組的主要目標在於起始相關創新研究以達科學與技術的卓越性。 目前我們著重於以下研究領域 (1)有效收集、表現、儲存、與處理大量各式資料,(2)探討資料探勘技術來有效率、有效益的發現有價值之知識。目前我們研究的議題包括(1)時間序列資料分析與探勘,(2)社群網路分析與查詢處理,(3)適地性資料收集平台與應用,(4)資料中心儲存系統設計。 各計畫簡述於下:

1. 時間序列資料的分析與探勘
時間序列可視為以時間為索引排序的連續資料。由於許多種資料都可以用時間序列的形式來表示,故時間序列分析被廣泛的應用在各個領域上。例如:感測器每小時所記錄的資料、金融市場上每日產生的交易資料以及透過具衛星定位功能的行動設備的移動軌跡記錄等。透過分析與挖掘時間序列資料,我們不但能夠觀察到資料的特性,更能在其中發現對後續服務與應用有所幫助的寶貴知識。本研究的目的在設計有效率的演算法以找出同一條時間序列之內或是多條序列彼此之間有意義的樣式和與其他有趣的知識,並同時考量實務應用中所存在的各種條件限制。為了能處理不斷增加、高維度且資料量龐大的資訊,我們必須開發高效率且同時能有效地找出各種樣式的方法。時間序列分析可被廣泛的應用在各個領域上。例如:我們可以分析股票交易資料,把具有共同變化趨勢的股票組合提供給交易員做為決策參考。另外,透過分析人與車輛之衛星定位軌跡資料,可用來瞭解人們行動與駕駛的行為模式,進而發展出更好的位置感知服務或是作為城市規畫的參考。目前我們已針對多重時間序列串流研發出可在線上或是離線執行的摘要與分群演算法。我們也設計了相似資料搜尋演算法,可運用在單一或是多重時間串流下,並同時考量各種限制條件,例如:時間資料流分散於不同地點、資料含有隨機誤差等雜訊、考慮各種不同相似性量測方法等。我們嘗試開發出軌跡資料探勘與搜尋演算法,可以從龐大的歷史軌跡資料中擷取出有用的資訊。

2. 社群網路分析與查詢處理
隨著社群應用普及與興盛,社群網路資料量目前正迅速地成長。在社群網路柘樸分析中,列舉所有可能之子圖模式乃不切實際,且目前的研究多著重於同質性社群網路之分析。然對於異質性社群網路,目前同質性社群網路之拓樸分析法並無法適用,且由於其節點與連結會存在多種類型(例如節點之身份,連結之關係),故異質性社群網路之拓樸分析仍為十分困難之研究議題。此外,在社群網路中,查詢處理與最佳化之相關研究仍在剛起步之階段。對於複雜之社群網路架構與多種可能的節點、連結參數設定,在短暫的時間內求得符合多種限制之查詢答案,乃是一個具挑戰性之研究議題。 排版插圖 從大量社群網路資料中求得常用模式,對社群服務與應用十分重要。對於此研究議題,我們已探討社群網路本質上之特性,如節點與連結的類型分布,並已研究各式取樣演算法,使所取出的樣本能忠實反映整個社群網路之特性。在未來我們將設計有效之可適性異質社群網路取樣演算法,以期能在求得子圖模式與網路特性之同時,並得到角色群體偵測成果。社群查詢對於未來的社群應用十分具有潛力。我們已經提出了一種新的社群查詢,在給定社群網路與每個使用者之時程,允許查詢者能夠指定群體大小、活動時間長度、群體內熟悉程度,以自動安排與建議最適合之一個群體,其符合查詢者指定之群體大小、熟悉程度,以及群體中每個成員擁有之共同時間。在未來中,我們將繼續提出不同之查詢問題並設計有效查詢最佳化演算法與技術,以期能在較短計算時間內得到最佳解或近似解。

3. 適地性資料收集平台與應用
適地性資料可用來探勘出有用的資訊以支援或強化各種應用,或解決困難的位置相關之問題。然而,從一般使用者身上擷取大量的適地性資料仍然存在著各種難題與挑戰。在這份研究專案中,我們提出一個PLASH平台,用以協助適地性服務(LBS)提供者方便地部署與分享他們的應用服務,如此,一般使用者將可以更直接且更方便地使用這些應用服務來貢獻出自己的位置相關資料。這些特性是主要有別於傳統位置感知服務的創新之處。兼顧到擴展性與相容性,此PLASH平台提供一個圖形使用者介面(GUI)之操作環境,提供使用者拖曳建構自己的LBS應用,系統將直接在智慧型手機與PLASH伺服器產生相對應的程式碼內容。此平台亦允許使用者貢獻自己的軟體元件,供其他使用者混搭出整合式的LBS應用,然而不可避免的,此做法也將挾帶著潛藏的資訊安全性問題與其他系統風險。從PLASH平台收集而來的資料,將可用來做進一步的分析,以強化既有的應用服務或支援更困難的任務。

4. 資料中心儲存系統設計
近年來由於行動運算系統的數量大幅成長,其已成資訊探勘的重要資訊蒐集平台。這些行動運算系統通常採用快閃記憶體為其存儲系統,因此快閃記憶體已成為行動運算系統中重要的存儲媒體,並被廣泛地使用在不同的領域。近年來,快閃記憶體為主的固態硬碟已成為取代傳統硬碟的熱門產品,同時企業也在新一代的資料中心設計上採用快閃記憶體。另外,新的儲存媒體如相變化記憶體也提供儲存系統在設計上的新可能。我們的研究主要著重在提升儲存系統的資料存取速度、資料可靠性及能耗問題。我們透過研究作系統的檔案系統及存儲裝置的管理韌體來提出新的設計以解決上述問題。例如:我們開發新的快閃記憶體檔案系統,以提升行動運算系統的資料可靠性及資訊讀寫效能;同時我們提出新的整合管理機制及資料檢索機制來節省資料中心的能耗問題。未來我們將研究新的技術(如資料去重覆性技術)並整合新的儲存媒體並來提升資料中心的效能,以解決以傳統資料中心所面臨的挑戰。

相關資訊

TOP
Academia Sinica 資訊科學研究所 Academia Sinica