Page 122 - My FlipBook
P. 122
大
實驗
室
多媒體技術實驗室
Research Laboratories 研究人員 多媒體技術與生物科技及奈米科技,被公認為是二十一世紀最具影響力的科技產業。在過
去二十多年來,我們已見證了多媒體相關技術對於日常生活中的多層面影響與改善。多媒
蘇 黎 / 召集人 體科技的應用極廣,促使了包含視訊、音樂、立體動畫、影像、聲音等技術上的進步,並
衍生出更多科學研究的持續挑戰。多媒體技術實驗室成員的主要研究方向,包括多媒體訊
助研究員 號處理、電腦視覺和機器學習。每位研究人員除了專注於個人有興趣的研究專題外,也透
過共同參與大型計劃,以期在重要研究議題上能有關鍵性突破。目前本實驗室正在執行的
王新民 大型合作計畫共有兩項:一、結合視訊及音訊之多媒體應用;二、深度學習於多媒體資料
處理之研發及應用。茲分述如下:
研究員
一、結合視訊及音訊之多媒體應用:
呂俊賢
我們的研究重點,在於開發結合視訊及音訊特徵的多媒體技術和應用。更詳細地來
研究員 說,我們探討視訊混搭 (Video mashup) 的問題:鑑於手持式裝置越來越流行,人們可
以輕易在演唱會現場錄製一段現場演唱視訊,並上傳到 YouTube 或者 Vimeo 與朋友
林仁俊 共享。觀賞這些手持裝置在不同位置所錄得的視訊片段,往往感覺吃力且不愉快,原
因是眾多觀眾在錄影時並未事先協調好誰先錄,誰取那一段來錄等細節。因此,放在
助研究員 YouTube 上的眾多視訊片段難免重複播放或短少某些片段。為了能讓未到演唱會現場
的觀眾有愉快的「再次欣賞」機會,吾人需要一個有系統的「整合」演算法則。
陳祝嵩
演唱會視訊混搭面臨的挑戰有四個方面:(1) 要使混搭後的視訊扣人心弦,我們必須考
研究員 慮音樂與鏡頭敘事的關聯性。通常,導演會根據歌曲的曲風、節奏等因素,適當地切
換鏡頭,如距離長短、拍攝角度等,來彰顯歌曲所欲傳達的情感以及想法。因此,如
黃文良 何從音樂預測導演會使用的鏡頭類型,是一項艱鉅的挑戰;(2) 眾多由不同角度拍攝之
視訊片段如何從「視覺」或「聽覺」上找出其先後順序,並有效加以銜接,也是一挑
研究員 戰;(3) 觀眾所拍攝的演唱會視訊片段多半由手機所錄製,為了提升聆賞者在視聽上的
體驗,如何增強「畫面」及「聲音」的品質,也是一項挑戰;(4) 為了使視訊混搭系統
廖弘源 更容易落實,如何在不降低效能的前提下,輕量化類神經網路模型,也是一項艱鉅的
挑戰。舉例而言,要如何從音樂自動預測導演的鏡頭敘事方式,其最難的部分是音樂
特聘研究員 和鏡頭之間的關係很難被發現並建模。受到電影分鏡概念的啟發,我們發展了一套機
率式集成模型,使其能夠整合各種時間解析度的信息,編碼音樂以及鏡頭之間的關係,
劉庭祿 如下圖所示。另一方面,為了使模型更有效率,我們進一步提出一種模型蒸餾的技術,
通過與集成模型的合作訓練來學習出一個輕量級的分類器。我們相信考量音樂與鏡頭
研究員 之間的關聯性來混搭視訊是具吸引力的,因為音樂和視覺敘事被自然地融合在一起。
而輕量化的模型也將有希望地被落實在我們的生活中。
多
媒 二、深度學習於多媒體資料處理之研發及應用:
體
科 深度學習在近幾年是一火紅的研究方向。多媒體資料處理領域有許多經典問題及新興
技 議題。深度學習已被證明在樣式比對 (pattern matching) 極具效用,既存的多媒體資料
形 處理議題有一些原本在辨識上效果並不好,我們打算引入深 度學習來處理一些既存的
塑 議題,希望能大大提升原本不易突破的瓶頸。在新研究議題方面,我們一方面解決較
我 困難,例如與視訊、邊緣運算 (edge computing) 相關的議題,另一方面也進行深度學
們 習理論研究,發展新的機器學習架構。具體研究內容如下:
的
未 1. 半線性化 (un-rectifying) 神經網路技術:在神經網路中最難處理的部分是分析非線
來
120
實驗
室
多媒體技術實驗室
Research Laboratories 研究人員 多媒體技術與生物科技及奈米科技,被公認為是二十一世紀最具影響力的科技產業。在過
去二十多年來,我們已見證了多媒體相關技術對於日常生活中的多層面影響與改善。多媒
蘇 黎 / 召集人 體科技的應用極廣,促使了包含視訊、音樂、立體動畫、影像、聲音等技術上的進步,並
衍生出更多科學研究的持續挑戰。多媒體技術實驗室成員的主要研究方向,包括多媒體訊
助研究員 號處理、電腦視覺和機器學習。每位研究人員除了專注於個人有興趣的研究專題外,也透
過共同參與大型計劃,以期在重要研究議題上能有關鍵性突破。目前本實驗室正在執行的
王新民 大型合作計畫共有兩項:一、結合視訊及音訊之多媒體應用;二、深度學習於多媒體資料
處理之研發及應用。茲分述如下:
研究員
一、結合視訊及音訊之多媒體應用:
呂俊賢
我們的研究重點,在於開發結合視訊及音訊特徵的多媒體技術和應用。更詳細地來
研究員 說,我們探討視訊混搭 (Video mashup) 的問題:鑑於手持式裝置越來越流行,人們可
以輕易在演唱會現場錄製一段現場演唱視訊,並上傳到 YouTube 或者 Vimeo 與朋友
林仁俊 共享。觀賞這些手持裝置在不同位置所錄得的視訊片段,往往感覺吃力且不愉快,原
因是眾多觀眾在錄影時並未事先協調好誰先錄,誰取那一段來錄等細節。因此,放在
助研究員 YouTube 上的眾多視訊片段難免重複播放或短少某些片段。為了能讓未到演唱會現場
的觀眾有愉快的「再次欣賞」機會,吾人需要一個有系統的「整合」演算法則。
陳祝嵩
演唱會視訊混搭面臨的挑戰有四個方面:(1) 要使混搭後的視訊扣人心弦,我們必須考
研究員 慮音樂與鏡頭敘事的關聯性。通常,導演會根據歌曲的曲風、節奏等因素,適當地切
換鏡頭,如距離長短、拍攝角度等,來彰顯歌曲所欲傳達的情感以及想法。因此,如
黃文良 何從音樂預測導演會使用的鏡頭類型,是一項艱鉅的挑戰;(2) 眾多由不同角度拍攝之
視訊片段如何從「視覺」或「聽覺」上找出其先後順序,並有效加以銜接,也是一挑
研究員 戰;(3) 觀眾所拍攝的演唱會視訊片段多半由手機所錄製,為了提升聆賞者在視聽上的
體驗,如何增強「畫面」及「聲音」的品質,也是一項挑戰;(4) 為了使視訊混搭系統
廖弘源 更容易落實,如何在不降低效能的前提下,輕量化類神經網路模型,也是一項艱鉅的
挑戰。舉例而言,要如何從音樂自動預測導演的鏡頭敘事方式,其最難的部分是音樂
特聘研究員 和鏡頭之間的關係很難被發現並建模。受到電影分鏡概念的啟發,我們發展了一套機
率式集成模型,使其能夠整合各種時間解析度的信息,編碼音樂以及鏡頭之間的關係,
劉庭祿 如下圖所示。另一方面,為了使模型更有效率,我們進一步提出一種模型蒸餾的技術,
通過與集成模型的合作訓練來學習出一個輕量級的分類器。我們相信考量音樂與鏡頭
研究員 之間的關聯性來混搭視訊是具吸引力的,因為音樂和視覺敘事被自然地融合在一起。
而輕量化的模型也將有希望地被落實在我們的生活中。
多
媒 二、深度學習於多媒體資料處理之研發及應用:
體
科 深度學習在近幾年是一火紅的研究方向。多媒體資料處理領域有許多經典問題及新興
技 議題。深度學習已被證明在樣式比對 (pattern matching) 極具效用,既存的多媒體資料
形 處理議題有一些原本在辨識上效果並不好,我們打算引入深 度學習來處理一些既存的
塑 議題,希望能大大提升原本不易突破的瓶頸。在新研究議題方面,我們一方面解決較
我 困難,例如與視訊、邊緣運算 (edge computing) 相關的議題,另一方面也進行深度學
們 習理論研究,發展新的機器學習架構。具體研究內容如下:
的
未 1. 半線性化 (un-rectifying) 神經網路技術:在神經網路中最難處理的部分是分析非線
來
120