Page 40 - My FlipBook
P. 40
人
智慧
計
畫 深度學習智慧系統整合:異質性深度模型整合與檢索特徵學習
Arti cial Intelligence Projects 計畫主持人:陳祝嵩博士;共同主持人:王新民博士、古倫維博士
計畫期程:2018/1~2021/12
深度學習系統是 AI 領域的重要工具,滲透到各個領域的 目前眾多訓練好的深度模型都在網路開源可取得,本計
應用之中,如電腦視覺、訊號分析、生醫影像、工業檢 畫的核心課題之一即為「如何整合既有的模型來開創多
測、語音處理、自然語言理解、資訊檢索等。深度學習 功能的應用?」除了單一的訊號源外,智慧型系統也可
的模型主要是針對不同的功能加以開發,例如在電腦視 能需要不止一個的感測裝置 (sensor),故亦需整合不同感
覺領域,不同的任務常具備不同的深度模型。如人臉辨 測器取得的訊號源 - 如結合影像與聲音訊號來進行同步
認、物體偵測、街景偵測、行人偵測、車輛偵測、場景 意圖理解與辨認的工作。當需進行多個任務時,過去的
文字、衣著辨認等,都有各自的深度學習模型,個別在 方法多以重行訓練新設計的網路 (learn-them-all) 或橋接
其專門的任務上都可達到很好的表現。而隨著不同領域 多個網路來達成,然而如此作法之模型設計與訓練耗時,
深度學習模型的發展,不同模態 (modal) 的 AI 功能在處 不易掌控並缺乏使用彈性,且複雜的模型不利於端點或
理上也有同樣的需求。例如在語音處理的領域,語音辨 嵌入式裝置上推論 (inference) 工作的實現。
認及語者識別的深度學習模型可能有所不同。而一個智
慧系統需要結合多模態的深度學習模型,例如整合視覺 本計畫目標包括了:
人臉辨認、聽覺語者辨認、與自然語言情感分析,來進 ( 一 ) 開發多類異質深度模型間整合機制
行對話人物身份判斷及狀態理解。因此亦需要深度學習 ( 二 ) 結合基礎技術,達成不同功能深度模型之整合,廣
模型之整合,讓多模態的功能統一建構於單一的模型之
中,達到計算資源的有效運用。 泛建立整合經驗
重點項目與成果如下:
( 一 ) 多類異質深度模型間整合機制
推論階段深度 CNN 分類網路整合方法研發
我們開發已經訓練好之 CNN 分類網路模型之整合方法。 盡相同。(2) 網路共編碼與校正學習:將不同網路的權重
藉由發掘出多個已經訓練後之模型權重值間的相關性,
進行跨模型之統一編碼,達成權重值之壓縮且共用的目 進行對應層之間的共編碼,原本的網路結構因而得以維
的。過去雖已有單一深度模型的壓縮與簡化方法,然仍 持,並可持續利用倒傳遞演算法將共編碼的 codebook 進
未有同時兼顧模型權重值之壓縮與共用的方法出現。本 行校正訓練與優化。成果發表於 AI 頂尖國際會議 IJCAI
法是世界上首見可於推論階段進行深度模型整合之技 2018。 我 們 並 藉 由 此 方 法 開 發 在 推 論 端 整 合 人 臉 及 語
者 辨 認 之 深 度 模 型, 成 果 於 CVPR 2019 Workshop on
術。特點包括 (1) 異質性 CNN 網路整合:所整合的 CNN Multimodal Learning and Applications 口頭報告論文。
模型可具備不同的層數,其卷積核大小與數目等也可不
圖一:深度模型之整合與共壓縮。於推論端將多個已經充分訓練好之深度類神經網路模型,合成為單一模型,
以提升系統執行速度與減少耗能。
38
智慧
計
畫 深度學習智慧系統整合:異質性深度模型整合與檢索特徵學習
Arti cial Intelligence Projects 計畫主持人:陳祝嵩博士;共同主持人:王新民博士、古倫維博士
計畫期程:2018/1~2021/12
深度學習系統是 AI 領域的重要工具,滲透到各個領域的 目前眾多訓練好的深度模型都在網路開源可取得,本計
應用之中,如電腦視覺、訊號分析、生醫影像、工業檢 畫的核心課題之一即為「如何整合既有的模型來開創多
測、語音處理、自然語言理解、資訊檢索等。深度學習 功能的應用?」除了單一的訊號源外,智慧型系統也可
的模型主要是針對不同的功能加以開發,例如在電腦視 能需要不止一個的感測裝置 (sensor),故亦需整合不同感
覺領域,不同的任務常具備不同的深度模型。如人臉辨 測器取得的訊號源 - 如結合影像與聲音訊號來進行同步
認、物體偵測、街景偵測、行人偵測、車輛偵測、場景 意圖理解與辨認的工作。當需進行多個任務時,過去的
文字、衣著辨認等,都有各自的深度學習模型,個別在 方法多以重行訓練新設計的網路 (learn-them-all) 或橋接
其專門的任務上都可達到很好的表現。而隨著不同領域 多個網路來達成,然而如此作法之模型設計與訓練耗時,
深度學習模型的發展,不同模態 (modal) 的 AI 功能在處 不易掌控並缺乏使用彈性,且複雜的模型不利於端點或
理上也有同樣的需求。例如在語音處理的領域,語音辨 嵌入式裝置上推論 (inference) 工作的實現。
認及語者識別的深度學習模型可能有所不同。而一個智
慧系統需要結合多模態的深度學習模型,例如整合視覺 本計畫目標包括了:
人臉辨認、聽覺語者辨認、與自然語言情感分析,來進 ( 一 ) 開發多類異質深度模型間整合機制
行對話人物身份判斷及狀態理解。因此亦需要深度學習 ( 二 ) 結合基礎技術,達成不同功能深度模型之整合,廣
模型之整合,讓多模態的功能統一建構於單一的模型之
中,達到計算資源的有效運用。 泛建立整合經驗
重點項目與成果如下:
( 一 ) 多類異質深度模型間整合機制
推論階段深度 CNN 分類網路整合方法研發
我們開發已經訓練好之 CNN 分類網路模型之整合方法。 盡相同。(2) 網路共編碼與校正學習:將不同網路的權重
藉由發掘出多個已經訓練後之模型權重值間的相關性,
進行跨模型之統一編碼,達成權重值之壓縮且共用的目 進行對應層之間的共編碼,原本的網路結構因而得以維
的。過去雖已有單一深度模型的壓縮與簡化方法,然仍 持,並可持續利用倒傳遞演算法將共編碼的 codebook 進
未有同時兼顧模型權重值之壓縮與共用的方法出現。本 行校正訓練與優化。成果發表於 AI 頂尖國際會議 IJCAI
法是世界上首見可於推論階段進行深度模型整合之技 2018。 我 們 並 藉 由 此 方 法 開 發 在 推 論 端 整 合 人 臉 及 語
者 辨 認 之 深 度 模 型, 成 果 於 CVPR 2019 Workshop on
術。特點包括 (1) 異質性 CNN 網路整合:所整合的 CNN Multimodal Learning and Applications 口頭報告論文。
模型可具備不同的層數,其卷積核大小與數目等也可不
圖一:深度模型之整合與共壓縮。於推論端將多個已經充分訓練好之深度類神經網路模型,合成為單一模型,
以提升系統執行速度與減少耗能。
38