Institute of Information Science
多媒體技術實驗室
Principal Investigators:
廖弘源 Hong-Yuan Liao(Chair) 呂俊賢 Chun-Shien Lu 陳祝嵩 Chu-Song Chen
黃文良 Wen-Liang Hwang 劉庭祿 Tyng-Luh Liu

[研究群介紹]
多媒體相關技術在過去二、三十年影響並改善了人類的生 活方式。它與生物科技及奈米科技各自擁有了二十一世紀 最具影響力的科技產業。多媒體的研究涵蓋的範圍極廣, 舉凡視訊、音樂、三維動畫、影像、聲音,均屬於其範疇。 過去十年中,多媒體技術實驗室將研發重心放在多媒體訊 號處理及多媒體應用兩大領域。本實驗室在過去已研發出 多項具指標性的系統並將之技轉給業界。其中,我們的「 雞尾酒浮水印」技術於2001年技轉給美國 Digi Bits 公司, 它的相關美國專利於2008年由中研院售予其他相關公司。 在2008年,本實驗室研發一套「廣告機人數計數」系統, 此系統透過學界科專技轉給竹科桓基公司,其使用正確率 達到90%。另外,本實驗室於2006~2009年之間陸續將「 人臉偵測」系統技轉給數家科技公司。在2010年,本實驗 室研發的「模糊車牌辨識」系統透過學界科專技轉給工研 院,這個辨識系統能有系統地解決模糊車牌辨識的相關問 題。另外,本實驗室亦執行『數位典藏暨數位學習』國家 型科技計畫,並將所研發之數位化老影片修補技術於2011 年年底技轉給「國家檔案局」。 在未來數年中,本實驗室將研究重心放在三大項目,分別 是(1)視訊鑑識 (Video Forensics);(2)Compressive Sensing 及稀疏表達法 (Sparse Representation);(3)多方位電 腦視覺 (Multi-perspective Computer Vision)。茲分述如 下:
1.視訊鑑識:
自從美國遭遇 911 攻擊後,反恐變成許多先進 國家最關心的議題。近年來,視訊監控攝影機幾乎佈滿於 所有現代城市中。因此,在龐大的視訊片段中做有效地搜 尋變成一個很重要的議題。未來數年中,我們會將部份研 究心力投注於如何在一個由異質相機所拍攝的大量視訊片 段中做犯罪跡證探勘。這是一個相當具有挑戰性的領域。 投入此領域必須具有視訊處理、人工智慧,及傳統鑑識科 學的能力。我們將由兩項子題切入,分別是(1)多相機人數 計算;及(2)在異質相機間的視覺知識傳遞。在多相機環境 之下執行人數計算有幾項困難點。首先,如果這些相機所 觀看的範圍屬於同一個範圍,那麼這個問題便成為如何運 用此組異質相機執行互補式的人數計算。也就是說,當其 中某一相機看到的人群相互遮蔽時,能否利用其他相機所 觀察的將人數確定下來。因此,視覺知識在不同相機之間 的傳遞變成支援此議題的重要支柱。此外,如果這些相機 所監看的範圍屬於不同的範圍,如何將各相機之重要跡證 加以採集並互相印證成為重要的議題。在視覺知識傳遞方 面,我們將從相互註記(registration)開始。有時因為遮蔽 的效應使得註記產生困難,我們打算以影像區塊(blob)為基 礎,利用自身設計的新對應技術將子區塊(sub-blob)的對應 精準算出,解決視覺知識傳遞的第一步。接下來,我們打 算利用更精細的對應技術,改善原先的註記技術,使視覺 知識傳遞能更準確。
2.Compressive Sensing and Sparse Representation:
壓縮感測 (Compressive Sensing) 是一具革命性的新壓縮技 術,因為它將取像及壓縮同時完成,而且發展了一個新的 理論,超越了 Nyquist rate 的範疇。此項新的壓縮感測理 論,將大部份的計算由編碼端(適用於資源有限之行動裝置 與感測器)移到解碼端。基於訊號稀疏性的假設,壓縮感測 理論上能藉由一些最佳演算法,由(極)少數的取樣資料,重 建回原來的訊號。如此一個全新的理論,使得壓縮感測自 從2006年第一次發表以來,近年來於訊號處理相關領域成 為一個熱門研究議題。此外,針對某些問題其所要處理訊 號本身已具備稀疏性或可被稀疏化,壓縮感測已被廣泛應 用於包含訊號處理在內的不同領域上。無疑地,這個新興 研究議題已打開研究相關根本與應用問題的機會。未來幾 年中,我們計畫主攻以下數項議題:(1) 快速壓縮影像感測 法;(2) 快速OMP演算法(Fast Orthogonal Matching Pursuit);( 3) 利用訊號稀疏表示法探討多重輸入系統; (4) 利 用訊號稀疏表示法之single-pass碼簿學習。
3.多方位電腦視覺:
讓電腦瞭解真實世界中的視覺觀念是極 具挑戰性的一項工作。主要的原因是自然界中涵蓋了複雜 的物體類別,各種變化的環境,以及高自由度的運動等。 由於視覺上的觀念很難用簡單清晰的法則來加以描述,統 計式機器學習在近年來扮演了重要的角色,這可以由頂尖的國際會議( 如CVPR, ICCV, NIPS)所發表的論文得到印證,預期在未來機器學習仍會 是推動電腦視覺研究進步的一大動力。此外,進入網際網路時代,資料 量遠大於過去,然而其中也包含一定比例的錯誤,如何在巨量資料之下 進行有效且容錯的機器學習成為另一個具挑戰的議題。而電腦視覺資訊 的取得方式,經過多年的演進,除了利用傳統攝影機以及一般目視角度 取像外,藉由三維影像取代二維影像以賦予額外的深度資訊,或者透過 飛行的攝影機來產生更多方面的觀看視角,也提供了更多元化的選擇; 預期此方面將在不久的未來帶動新穎的應用發展。另外在視覺觀念的探 索上,也逐漸走出物體辨認層次的侷限,開始探討更高層之觀念如視覺 關注區域、美感判斷等。未來數年,本實驗室將花部份心力於多方位電 腦視覺之研究。議題包括:(1)由視覺關注區域為基礎進行物件分割、偵 測,及辨識;(2)飛行攝影機追蹤特定目標,及其與人互動的研究;(3) 即時美感計算及拍攝建議反饋之研究;(4)由傳統影像推導出三維影像結 構。
排版插圖

相關資訊

Academia Sinica 資訊科學研究所 Academia Sinica