Institute of Information Science
多媒體技術實驗室
Principal Investigators:
廖弘源 Hong-Yuan Liao(Chair) 呂俊賢 Chun-Shien Lu 陳祝嵩 Chu-Song Chen
黃文良 Wen-Liang Hwang 劉庭祿 Tyng-Luh Liu

[研究群介紹]
多媒體技術與生物科技及奈米科技,被公認為是二十一世紀最具影響力的科技 產業。在過去二十多年來,我們已見證了多媒體相關技術對於日常生活中的多 層面影響與改善。多媒體科技的應用極廣,促使了包含視訊、音樂、三維動 畫、影像、聲音等技術上的進步,並衍生出更多科學研究的持續挑戰。 多媒體技術實驗室的成員,其主要研究方向包括多媒體訊號處理、電腦視覺和 機器學習。每位研究人員除了專注於個人有興趣的研究專題外,也透過共同參 與大型計劃,以及在重要研究議題上能有關鍵性突破。目前本實驗室正在執行 的大型合作計畫共有兩項,分別是(1)結合視訊及音訊之多媒體應用;(2)壓縮 感知(Compressive Sensing)及稀疏表達法 (Sparse Representation)。茲分述 如下:

1. 結合視訊及音訊之多媒體應用:
我們的研究重點,在於開發結合視訊及音訊特徵的多媒體技術和應用。更詳細 地來說,我們探討以下所述之應用。給定一段音樂,本計畫所發展的多媒體系 統,首先將自動分析並萃取此段音樂的主要情感元素,接著將這些情感元素對 應到目標視訊中的關鍵物件。亦即透過改變視訊中主角物件的動作,讓改變後 的視訊呈現出配合給定音樂的情感。要能成功地完成這些工作,我們至少需要 發展出以下三項核心技術。首先,我們必須能從二維的視訊片段中,摘取出主 角物件的幾何和外觀資訊。另一方面,透過分類器的學習,我們需要能系統化 地辨識音樂片段之情感與其強度。最後,根據所擷取出來的情感元素,經由電 腦圖學方法來改變主角物件的三維動作。
預期本研究計畫所面臨的挑戰,主要有三方面。(1)要從二維RGB視訊中,擷取 重要主題物件,並能夠在後續過程中加以任意操控,是頗具挑戰性的。其技術 上最大的困難點,在於二維及三維分析之間的顯著差異。為了有效解決此難題, 我們將轉換原本二維的動作成為三維骨架之運動,以便系統化地操控主角物件 的三維動作。(2) 我們需要建構一個定義完備的分析模型,將音樂片段的情感 加以量化,藉此來計算情緒的強度與節奏。(3)為了讓三維骨架動作看起來更生 動,本系統將無縫地整合三維紋理,來對應其情緒強度和節奏。

2. 壓縮感知及稀疏表達法:
目前我們在此計畫的進展,已達成數個重要的研究成果。在處理信號分離的問 題,我們提出了一個權重分配的演算法,相對於現有的方法,其效果可得到 相當程度的改善。其次,我們針對分析式算子學習的問題,提出了兩階段遞迴 的方法,並能在每階段求得解析度,來達到學習的目的。此外,我們在加速 稀疏快速傅立葉轉換(sFFT)也獲得不錯的成果。我們利用時間軸上的縮減抽樣 (downsampling)提出了新的sFFT演算法,不僅執行速度更快速且容易實作, 並可和原始的sFFT獲得相當的成效。

展望在此計畫的未來工作,我們的研究將會持續朝著上述的 主題做更深入的探討,特別是著重於以下問題:
1. 基於分析模型來研究訊號分離的問題,且其中每個子 訊號可以被單一字典來分析。我們亦會討論諸如結構性 的稀疏性表示法之一般性的問題,並發展針對此類問題 的分析模型與演算法。
2. 將分析式算子學習拓展到監督式學習,以便能建構更 有效能的特徵表示。另一方面,我們將探討如何統一學 習分析式與合成式算子學習。
3. 研究如何能在壓縮感測的架構裡,直接取樣 Fourier measurements。現今稀疏訊號的重建演算法,其理論 的重建條件遠比實際更嚴苛。我們欲研究將理論的條件 限制與實際的重建性能拉近。
排版插圖
圖:在一段影片中,我們擷取人物的關節位置(圖左上以及圖左下),用來重建人物的完整骨架(圖右),加上逆運動學(Inverse Kinematics)的技術讓骨架做出我們需要的姿勢,因此我們能成功地改變原本影片中的人物姿勢。

相關資訊

Academia Sinica 資訊科學研究所 Academia Sinica