Institute of Information Science
資料處理與探勘實驗室
Principal Investigators:
陳孟彰 Meng-Chang Chen (Chair) 陳銘憲 Ming-Syan Chen 張原豪 Yuan-Hao Chang
葉彌妍 Mi-Yen Yeh 楊得年 De-Nian Yang 廖弘源 Hong-Yuan Liao

[研究群介紹]
在資料爆炸的時代裡,各種資料,例如感應器資料、軌跡資料、交易資料、多 媒體資料,以飛快的速度時時刻刻產生。目前硬體與網路高質與量,價錢相對 便宜,是最佳時刻發展相關研究議題,以善用這些資料來改進現有服務,或用 來解決目前無法解決的問題。所以本研究小組的主要目標在於起始相關創新研 究以達科學與技術的卓越性。 目前我們著重於以下研究領域 (1)有效收集、表 現、儲存、與處理大量各式資料,(2)探討資料探勘技術來有效率、有效益的發 現有價值之知識。目前我們研究的議題包括(1)時間序列資料分析與探勘,(2)社 群網路分析與查詢處理,(3)適地性資料收集平台與應用,(4)資料中心儲存系統 設計。 各計畫簡述於下:

1. 時間序列資料的分析與探勘
時間序列可視為以時間為索引排序的連續資料。由於許多種資料都可以用時間 序列的形式來表示,故時間序列分析被廣泛的應用在各個領域上。例如:感測 器每小時所記錄的資料、金融市場上每日產生的交易資料以及透過具衛星定位 功能的行動設備的移動軌跡記錄等。透過分析與挖掘時間序列資料,我們不但 能夠觀察到資料的特性,更能在其中發現對後續服務與應用有所幫助的寶貴知 識。 本研究的目的在設計有效率的演算法以找出同一條時間序列之內或是多條序列 彼此之間有意義的樣式和與其他有趣的知識,並同時考量實務應用中所存在的 各種條件限制。為了能處理不斷增加、高維度且資料量龐大的資訊,我們必須 開發高效率且同時能有效地找出各種樣式的方法。時間序列分析可被廣泛的應 用在各個領域上。例如:我們可以分析股票交易資料,把具有共同變化趨勢的 股票組合提供給交易員做為決策參考。另外,透過分析人與車輛之衛星定位軌 跡資料,可用來瞭解人們行動與駕駛的行為模式,進而發展出更好的位置感知 服務或是作為城市規畫的參考。目前我們已針對多重時間序列串流研發出可在 線上或是離線執行的摘要與分群演算法。我們也設計了相似資料搜尋演算法, 可運用在單一或是多重時間串流下,並同時考量各種限制條件,例如:時間資 料流分散於不同地點、資料含有隨機誤差等雜訊、考慮各種不同相似性量測方 法等。我們嘗試開發出軌跡資料探勘與搜尋演算法,可以從龐大的歷史軌跡資 料中擷取出有用的資訊。
2. 社群網路分析與查詢處理
隨著社群應用普及與興盛,社群網路資料量目前正迅速地成長。在社群網路柘 樸分析中,列舉所有可能之子圖模式乃不切實際,且目前的研究多著重於同質 性社群網路之分析。然對於異質性社群網路,目前同質性社群網路之拓樸分析 法並無法適用,且由於其節點與連結會存在多種類型(例如節點之身份,連結之 關係),故異質性社群網路之拓樸分析仍為十分困難之研究議題。此外,在社群 網路中,查詢處理與最佳化之相關研究仍在剛起步之階段。對於複雜之社群網 路架構與多種可能的節點、連結參數設定,在短暫的時間內求得符合多種限制 之查詢答案,乃是一個具挑戰性之研究議題。 排版插圖 從大量社群網路資料中求得常用模式,對社群服務與應用十 分重要。對於此研究議題,我們已探討社群網路本質上之特 性,如節點與連結的類型分布,並已研究各式取樣演算法, 使所取出的樣本能忠實反映整個社群網路之特性。在未來我 們將設計有效之可適性異質社群網路取樣演算法,以期能 在求得子圖模式與網路特性之同時,並得到角色群體偵測成 果。社群查詢對於未來的社群應用十分具有潛力。我們已經 提出了一種新的社群查詢,在給定社群網路與每個使用者之 時程,允許查詢者能夠指定群體大小、活動時間長度、群體 內熟悉程度,以自動安排與建議最適合之一個群體,其符合 查詢者指定之群體大小、熟悉程度,以及群體中每個成員擁 有之共同時間。在未來中,我們將繼續提出不同之查詢問題 並設計有效查詢最佳化演算法與技術,以期能在較短計算時 間內得到最佳解或近似解。
3. 適地性資料收集平台與應用
適地性資料可用來探勘出有用的資訊以支援或強化各種應 用,或解決困難的位置相關之問題。然而,從一般使用者身 上擷取大量的適地性資料仍然存在著各種難題與挑戰。在這 份研究專案中,我們提出一個PLASH平台,用以協助適地性 服務(LBS)提供者方便地部署與分享他們的應用服務,如此, 一般使用者將可以更直接且更方便地使用這些應用服務來貢 獻出自己的位置相關資料。這些特性是主要有別於傳統位置 感知服務的創新之處。 兼顧到擴展性與相容性,此PLASH平台提供一個圖形使用 者介面(GUI)之操作環境,提供使用者拖曳建構自己的LBS應 用,系統將直接在智慧型手機與PLASH伺服器產生相對應 的程式碼內容。此平台亦允許使用者貢獻自己的軟體元件, 供其他使用者混搭出整合式的LBS應用,然而不可避免的, 此做法也將挾帶著潛藏的資訊安全性問題與其他系統風險。 從PLASH平台收集而來的資料,將可用來做進一步的分析, 以強化既有的應用服務或支援更困難的任務。
4. 資料中心儲存系統設計
近年來由於行動運算系統的數量大幅成長,其已成資訊探勘 的重要資訊蒐集平台。這些行動運算系統通常採用快閃記憶 體為其存儲系統,因此快閃記憶體已成為行動運算系統中重 要的存儲媒體,並被廣泛地使用在不同的領域。近年來,快 閃記憶體為主的固態硬碟已成為取代傳統硬碟的熱門產品, 同時企業也在新一代的資料中心設計上採用快閃記憶體。另 外,新的儲存媒體如相變化記憶體也提供儲存系統在設計上 的新可能。 我們的研究主要著重在提升儲存系統的資料存取速度、資料 可靠性及能耗問題。我們透過研究作系統的檔案系統及存儲 裝置的管理韌體來提出新的設計以解決上述問題。例如:我 們開發新的快閃記憶體檔案系統,以提升行動運算系統的資 料可靠性及資訊讀寫效能;同時我們提出新的整合管理機 制及資料檢索機制來節省資料中心的能耗問題。未來我們將 研究新的技術(如資料去重覆性技術)並整合新的儲存媒體並 來提升資料中心的效能,以解決以傳統資料中心所面臨的挑 戰。

相關資訊

Academia Sinica 資訊科學研究所 Academia Sinica