中央研究院 資訊科學研究所
中央研究院資訊科學研究所
  
多媒體技術實驗室
Principal Investigators:
廖弘源 Hong-Yuan Liao(Chair) 王新民 Hsin-Min Wang 呂俊賢 Chun-Shien Lu
陳祝嵩 Chu-Song Chen 黃文良 Wen-Liang Hwang 劉庭祿 Tyng-Luh Liu
蘇黎 Su Li

[研究群介紹]
多媒體技術與生物科技及奈米科技,被公認為是二十一世 紀最具影響力的科技產業。在過去二十多年來,我們已見 證了多媒體相關技術對於日常生活中的多層面影響與改善。 多媒體科技的應用極廣,促使了包含視訊、音樂、三維動 畫、影像、聲音等技術上的進步,並衍生出更多科學研究 的持續挑戰。
多媒體技術實驗室成員的主要研究方向,包括多媒體訊號 處理、電腦視覺和機器學習。每位研究人員除了專注於個 人有興趣的研究專題外,也透過共同參與大型計劃,以期 在重要研究議題上能有關鍵性突破。目前本實驗室正在執 行的大型合作計畫共有兩項,分別是(1) 結合視訊及音訊之 多媒體應用;(2) 深度學習於多媒體資料處理之研發及應用。 茲分述如下:

1. 結合視訊及音訊之多媒體應用:
我們的研究重點,在於開發結合視訊及音訊特徵的多媒體 技術和應用。更詳細地來說,我們探討下述應用:鑑於手 持式裝置越來越流行,很多年輕人可以輕易在演唱會現場 錄製一段現場演唱視訊片段,然後在回家後將之上傳到 YouTube 或者Vimeo 與朋友共享。觀賞業餘觀眾以手持裝 置在不同位置所錄得的視訊片段,感覺往往非常吃力且不 愉快。原因是眾多觀眾在錄影時並未事先協調好誰先錄, 誰取那一段來錄等細節問題。因此,放在YouTube 上面的 眾多視訊片段難免重複播放或短少某些片段。為了能讓未 到演唱會現場的觀眾有一愉快的「再次欣賞」機會,吾人 需要一個有系統的「整合」演算法則。通常,吾人稱此整 合為「視訊雜湊」(Video mashup)。

演唱會視訊雜湊會面臨的挑戰,主要有三方面:(1)通常 要完成一個有水準的視訊雜湊,必須遵守導演的編導語言 (language of film)。通常,導演會透過轉換鏡頭,用距 離長短、拍攝角度及特寫鏡頭等方式來呈現其藝術、情感 及技巧。如何自動「解讀」拍攝距離及角度,是一項艱鉅 的挑戰;(2)眾多由不同角度拍攝之視訊片段如何在「視 覺」上找出其先後順序,並有效加以銜接,也是一挑戰;(3) 演唱會視訊片段不僅只有視覺的部分,聲音的部分如何判 定其先後順序及判斷其音質好壞,也是一項挑戰。例如, 如何自動向用戶生成的視頻建議音軌( 亦即幫用戶拍攝的影 片自動配樂) 是一個具有挑戰性但值得嚮往的任務,最難的 部分是視頻和音樂之間的距離不能直接測量。隨著最近多 媒體信號的情感計算的發展,我們將低階的聲學和視覺特 徵映射到情感空間中,並且在那裡匹配這兩種模態。我們 的研究同時處理視頻編輯和音軌推薦問題。音樂,視頻和 諸如情感的語義註釋之間的相關性將被積極地探索和建模。 我們相信以這種方式組成的音樂影片是吸引人的,因為情 感的感知自然發生在視頻觀看和音樂收聽期間。

2. 壓縮感知及稀疏表達法:
深度學習在近幾年是一火紅的研究方向。Alpha Go 打敗韓 國世界棋王更突顯了這個領域之可行性及未來性。多媒體 資料處理領域有許多老問題及新興議題。深度學習已被證 明在Pattern Matching 上面極具效用,既存的多媒體資料處 理議題有一些原本在辨識上效果並不好,我們打算引入深 度學習來處理一些既存的議題,希望能大大提升原本不易 突破的瓶頸。在新研究議題方面,我們打算針對較困難, 與視訊相關的議題進行研發。

在未來數年,我們打算從事以下深度學習應用於多媒體資 料處理的相關議題:
1. 視覺資訊處理:
基於最近大型資料庫與GPU 的進 展,深層卷積網路獲得了廣泛的重視。其可學習豐 富的特徵表示,並在影像分類與物品偵測上展現良 好效果。然而目前大部分的深度學習方法都是針對 分類問題作設計,擅長於標籤判斷的工作,但不一 定適合於相關例(relevant instance) 的搜尋與檢索。 我們的研究著重於開發新的深度學習方法,以利於 影像或視訊檢索。考量深度學習在檢索方面仍存在 兩大問題。其一是所訓練特徵之存取效率不彰,其 二是特徵比對的準確性受限。由於檢索所需之空間 龐大,常需以二元(binary) 或雜湊(hash) 碼的方式 儲存以降低所需空間。而深層網路訓練的特徵大部 分為多維的實數向量,因此如何改造深層網路,使 其具備學習高效率的二元特徵碼的能力,是亟需探 討的問題。此外,目前的特徵通常以分類損失函數 (loss function) 加以訓練而成,所習之特徵空間具 備異類分開的特性,雖適合於分類,但不一定適用 於檢索。針對以上問題,我們發展了新的的方法。 在檢索效率方面,我們在2015 年提出一個以潛在 層(latent layer) 學習二元特徵碼的方法,能夠在不 影響分類準確率的方式下,強化檢索的速度,這是 目前深層學習二元雜湊碼的代表方法之一,發表於 CVPRW 2015,完整成果並於2017 年被期刊IEEE TPAMI 接受。另一方面, 我們也將分類損失函數改良為檢索損失函數,並發展跨批次的學習方法,以 訓練出同時具備異類與同類(或相關)樣本集中之特徵空間,讓檢索結果更 準確,此成果發表於國際會議ACM MM 2016 之長篇論文。

2. 群眾行為分析:
群眾行為分析牽涉到許多人在時間軸上的位置變化,要利用 深度學習網路原本慣用的架構去分析群眾並非易事。我們打算設計適當的深 層網路去分析動態的群眾行為。

3. 音樂資訊檢索:
音樂訊號往往包涵多種樂器、階層式的拍號結構和混雜的曲 風,通常皆以多重標記描述。因此,音樂資訊檢索問題可以利用多重任務學 習架構之下的深度神經網路來處理。此方法已經被證實在音樂和弦辨識的問 題上(即同時處理和弦名稱和根音名稱)有其實用性。

此外,我們正在進行的研究還包括用於視聽語音增強和用戶識別的多模式深度學習。 未來我們將開發於視訊中結合影像與自然語言,挖掘出人物相關資訊的方法,以利 於更高階的語意檢索。
排版插圖
圖:以AlexNet 為例,我們於原本網路的特徵層與輸出層間嵌入一個潛在的0-1 表示層, 並令其輸出值接近0 或1。輸出的分類或標籤則依賴於這些0 或1 的隱觀念來加以學 習,藉此以獲得涵蓋語意資訊的二元特徵碼。此處雖以AlexNet 為例,本法亦可與其 它深層網路配合以有效獲取二元雜湊碼。