Page 34 - My FlipBook
P. 34
工
智
慧
計
畫
Arti cial Intelligence Projects 基於自然語言的電腦視覺技術
對於電影問答(QA)問題,我們開發了一個交互注意力 深度學習網路架構如圖二所示,該網路聚合了自下而上
推論之深度學習網路架構來解決電影問答。所提出的這 和自上而下的視覺與文本資訊來完成此分割任務。這項
項解決方法在 MovieQA 排行榜中直到 2018 年 8 月前都 工作發表於 ICCV 2019,據我們所知,此項技術在當前的
是該電影問答資料庫的最準確解決方案。語提示影像分 主要數據集上是最準確的語提示影像分割技術。
割任務是根據任務所提供之句子提示來準確地分割圖像
中的目標區域。對於語提示影像分割問題,我們提出的
應用於電腦視覺之小樣本學習
人類在有限指導之下去學習新概念的能力非常出色。即 (co-excitation) 的深度學習網路模組,來解決單一樣本物
便沒有某物件類別的先驗知識,人類視覺系統也能透過 件偵測問題。 圖三顯示了該模組如何透過特徵擠壓和共
執行不同的功能來處理該物件識別任務,這些功能包括 同激勵機制驅使單一樣本學習模型去自動偵測出查詢影
將影像中歸屬於物體的像素進行分群,提取重要影像特
徵進行比較以及應用注意力機制來做物件定位。在初步 像和目標影像間的共同特徵。這項工作的階段性成果發
研 究 中, 我 們 提 出 共 同 注 意 (co-attention) 與 共 同 激 勵 表在 NeurIPS 2019 上,我們目前正在進一步發展該技術。
圖三:Non-local proposals and co-excitation for one-shot object detection.
32
智
慧
計
畫
Arti cial Intelligence Projects 基於自然語言的電腦視覺技術
對於電影問答(QA)問題,我們開發了一個交互注意力 深度學習網路架構如圖二所示,該網路聚合了自下而上
推論之深度學習網路架構來解決電影問答。所提出的這 和自上而下的視覺與文本資訊來完成此分割任務。這項
項解決方法在 MovieQA 排行榜中直到 2018 年 8 月前都 工作發表於 ICCV 2019,據我們所知,此項技術在當前的
是該電影問答資料庫的最準確解決方案。語提示影像分 主要數據集上是最準確的語提示影像分割技術。
割任務是根據任務所提供之句子提示來準確地分割圖像
中的目標區域。對於語提示影像分割問題,我們提出的
應用於電腦視覺之小樣本學習
人類在有限指導之下去學習新概念的能力非常出色。即 (co-excitation) 的深度學習網路模組,來解決單一樣本物
便沒有某物件類別的先驗知識,人類視覺系統也能透過 件偵測問題。 圖三顯示了該模組如何透過特徵擠壓和共
執行不同的功能來處理該物件識別任務,這些功能包括 同激勵機制驅使單一樣本學習模型去自動偵測出查詢影
將影像中歸屬於物體的像素進行分群,提取重要影像特
徵進行比較以及應用注意力機制來做物件定位。在初步 像和目標影像間的共同特徵。這項工作的階段性成果發
研 究 中, 我 們 提 出 共 同 注 意 (co-attention) 與 共 同 激 勵 表在 NeurIPS 2019 上,我們目前正在進一步發展該技術。
圖三:Non-local proposals and co-excitation for one-shot object detection.
32