Page 123 - My FlipBook
P. 123
Brochure 2020

圖一:所提出的機率式集成模型,用於音樂到鏡頭敘事的翻譯。
STFT 代表短時距傅立葉轉換,而 VQ 代表向量量化。

性的激活函數。半線性化的技術,將分段連續的 要。我們發展了濃縮化 (shrink) 與擴張化 (expand)
激活函數轉換成與輸入相關的方程及限制函數。 的交替步驟,能夠在避免任務遺忘的情況下,發
將這個技術運用到非線性神經網路的分析,可以 展出實現多工任務的緊緻模型。達成在學習新任
將神經網路轉成一系列跟輸入有關的方程式及限 務的同時,持續完整地保有舊任務的功能。我們
方法的特色是可完全避免遺忘,並在維持深度模
制函數。雖然輸入的數目是連續不可數的,但是 型緊緻性 (compactness) 的狀況下來進行擴充。
限制函數的數目是有限的,所以可以利用這個技
術可以將神經網路優化的問題轉換成為一般的有 3. 群眾行為分析:群眾行為分析牽涉許多人在時間
軸上的位置變化,要利用深度學習網路原本慣用
限制函數的優化問題。利用這個技術與分析神經 的架構去分析群眾並非易事,另外,在實際的應
網路,可得到以下結論:(1) 一個神經網路將輸入 用情境中往往需要即時偵測資訊,需要以執行邊
空間分割成一堆多邊形的組合,每增加一層神經 緣運算搭配輕量化的神經網路架構。我們打算設
網路會將原多邊形的組合切得更細,因此在輸入 計適當的深層網路去分析動態群眾行為。
空間的切割上,神經網路的行為很像分類樹;(2)
在每一個多邊形的定義域上計算一個仿射變換, 4. 音樂資訊檢索:音樂訊號往往包涵多種樂器、階
神經網路上所有的仿射變換的線性的部分都可以 層式的拍號結構和混雜的曲風,通常皆以多重標
用一個跟輸入有關的矩陣表示;(3) 假如以輸出 記描述。因此,音樂資訊檢索問題可以利用多重
兩點的距離與輸入兩點的距離放大率來度量神經 任務學習 (multi-task learning) 架構之下的深度神
經網路來處理。此方法已經被證實在音樂和弦辨
網路的穩定性的話,一個神經網路若要穩定,那 識的問題上(即同時處理和弦名稱和根音名稱)
麼它的連結的數目便要稀疏或者連結的強度要夠 有其實用性。此外,我們引入和弦斷詞的概念,
首先訓練神經網路辨識和弦單元的位置,繼而在
小。目前研究的重點,是在深化半線性化技術與 和弦的層級上模擬和聲進行,有效提昇神經網路
神經網路上的分析與應用,包含神經網路的學習, 對於和弦辨識與和聲分析的表現力。我們正在進
包含發展可逆的神經網路及有迴圈的神經網路。 行的研究還包括用於視聽語音增強和用戶識別的
多模式深度學習。未來我們將開發於視訊中結合
2. 永續深度學習:監督式深度學習主要利用已蒐集 影像與自然語言,挖掘出人物相關資訊的方法,
完成的資料集來進行學習。這面臨一個困難:資 以利於更高階的語意檢索。
料並非一次性即可蒐集與建構完成,而是分批獲
得;而學習的任務或技能也並非一次可達成,而
是 在 過 去 以 某 些 資 料 集 學 習 完 相 對 應 任 務 後,
接 著 再 以 新 的 資 料 集 學 習 新 的 任 務。 因 此 永 續
性 (continuous) 或終身 (life-long) 學習變得益加重

121
   118   119   120   121   122   123   124   125   126   127   128