Institute of Information Science
資料處理與探勘實驗室
Principal Investigators:
陳孟彰 Meng-Chang Chen (Chair) 陳銘憲 Ming-Syan Chen 張原豪 Yuan-Hao Chang
葉彌妍 Mi-Yen Yeh 楊得年 De-Nian Yang 廖弘源 Hong-Yuan Liao

[研究群介紹]
在資料爆炸的時代裡,各種資料,例如感應器資料、軌跡 資料、交易資料、多媒體資料,正以飛快的速度時時刻刻 產生。目前硬體與網路高質與量且價錢相對便宜,是最佳 時刻來發展相關研究議題,以善用這些資料來改進現有服 務,或解決目前無解的問題。所以本研究小組的主要目標 在於起始相關創新研究以達科學與技術的卓越性。目前我 們著重於以下研究領域:(1)有效收集、表現、儲存、與處 理大量各式資料,(2)探討資料探勘技術以有效率、有效益 來發現有價值的知識。目前我們研究的議題包括:(1)時間 序列資料分析與探勘,(2)社群網路分析與查詢處理,(3)適 地性資料收集平台與應用,(4)資料中心儲存系統設計。各 計畫簡述於下:
1. 時間序列資料的分析與探勘
時間序列可視為以時間為索引排序的連續資料。由於許多 種資料都可以用時間序列的形式來表示,故時間序列分析 被廣泛的應用在各個領域上。例如:感測器每小時所記錄 的資料、金融市場上每日產生的交易資料以及透過具衛星 定位功能的行動設備的移動軌跡記錄等。透過分析與挖掘 時間序列資料,我們不但能夠觀察到資料的特性,更能在 其中發現對後續服務與應用有所幫助的寶貴知識。 本研究的目的在設計有效率的演算法以找出同一條時間序 列之內或是多條序列彼此之間有意義的樣式和與其他有趣 的知識,並同時考量實務應用中所存在的各種條件限制。 為了能處理不斷增加、高維度且資料量龐大的資訊,我們 必須開發高效率且同時能有效地找出各種樣式的方法。時 間序列分析可被廣泛的應用在各個領域上。例如:我們 可以分析股票交易資料,把具有共同變化趨勢的股票組合 提供給交易員做為決策參考。另外,透過分析人與車輛之 衛星定位軌跡資料,可用來了解人們行動與駕駛的行為模 式,進而發展出更好的位置感知服務或是作為城市規劃的 參考。目前我們已針對多重時間序列串流研發出可在線上 或是離線執行的摘要與分群演算法。我們也設計了相似 資料搜尋演算法,可運用在單一或是多重時間串流下,並 同時考量各種限制條件,例如:時間資料流分散於不同地 點、資料含有隨機誤差等雜訊、考慮各種不同相似性量測 方法等。我們嘗試開發出軌跡資料探勘與搜尋演算法,可 以從龐大的歷史軌跡資料中擷取出有用的資訊。
2. 社群網路分析與查詢處理
隨著社群應用普及與興盛,社群網路資料量目前正迅速地 成長。在社群網路柘樸分析中,列舉所有可能之子圖模式 乃不切實際,且目前的研究多著重於同質性社群網路之分 析。然對於異質性社群網路,目前同質性社群網路之拓樸 分析法並無法適用,且由於其節點與連結會存在多種類型( 例如節點之身份,連結之關係),故異質性社群網路之拓樸 分析仍為十分困難之研究議題。此外,在社群網路中,查 詢處理與最佳化之相關研究仍在剛起步之階段。對於複雜 之社群網路架構與多種可能的節點、連結參數設定,在短 暫的時間內求得符合多種限制之查詢答案,乃是一個具挑 戰性之研究議題。 從大量社群網路資料中求得常用模式,對社群服務與應用 十分重要。對於此研究議題,我們已探討社群網路本質上 之特性,如節點與連結的類型分布,並已研究各式取樣演 算法,使所取出的樣本能忠實反映整個社群網路之特性。 在未來我們將設計有效之可適性異質社群網路取樣演算 法,以期能在求得子圖模式與網路特性之同時,並得到角 色群體偵測成果。社群查詢對於未來的社群應用十分具有 潛力。我們已經提出了一種新的社群查詢,在給定社群網 路與每個使用者之時程,允許查詢者能夠指定群體大小、 活動時間長度、群體內熟悉程度,以自動安排與建議最適 合之一個群體,其符合查詢者指定之群體大小、熟悉程 度,以及群體中每個成員擁有之共同時間。在未來中,我 們將繼續提出不同之查詢問題並設計有效查詢最佳化演算 法與技術,以期能在較短計算時間內得到最佳解或近似解。
3. 適地性資料收集平台與應用
適地性資料可用來探勘出有用的資訊以支援或強化各種應用,或解決困 難的位置相關之問題。然而,從一般使用者身上擷取大量的適地性資料 仍然存在著各種難題與挑戰。在這份研究專案中,我們提出一個PLASH 平台,用以協助適地性服務(LBS)提供者方便地部署與分享他們的應用服 務,如此,一般使用者將可以更直接且更方便地使用這些應用服務來貢 獻出自己的位置相關資料。這些特性是主要有別於傳統位置感知服務的 創新之處。 兼顧到擴展性與相容性,此PLASH平台提供一個圖形使用者介面(GUI) 之操作環境,提供使用者拖曳建構自己的LBS應用,系統將直接在智慧 型手機與PLASH伺服器產生相對應的程式碼內容。此平台亦允許使用者 貢獻自己的軟體元件,供其他使用者混搭出整合式的LBS應用,然而不 可避免的,此做法也將挾帶著潛藏的資訊安全性問題與其他系統風險。 從PLASH平台收集而來的資料,將可用來做進一步的分析,以強化既有 的應用服務或支援更困難的任務。
4. 資料中心儲存系統設計
近年來由於行動運算系統的數量大幅成長,其已成資訊探勘的重要資訊 蒐集平台。這些行動運算系統通常採用快閃記憶體為其儲存系統,因此 快閃記憶體已成為行動運算系統中重要的儲存媒體,並被廣泛地使用在 不同的領域。近年來,快閃記憶體為主的固態硬碟已成為取代傳統硬碟 的熱門產品,同時企業也在新一代的資料中心設計上採用快閃記憶體。 另外,新的儲存媒體如相變化記憶體也提供儲存系統在設計上的新可 能。 我們的研究主要著重在提升儲存系統的資料存取速度、資料可靠性及能 耗問題。我們透過研究作系統的檔案系統及存儲裝置的管理韌體來提出 新的設計以解決上述問題。例如:我們開發新的快閃記憶體檔案系統, 以提升行動運算系統的資料可靠性及資訊讀寫效能;同時我們提出新的 整合管理機制及資料檢索機制來節省資料中心的能耗問題。未來我們將 研究新的技術(如資料去重覆性技術)並整合新的儲存媒體並來提升資料 中心的效能,以解決以傳統資料中心所面臨的挑戰。

相關資訊

Academia Sinica 資訊科學研究所 Academia Sinica