Page 111 - My FlipBook
P. 111
Brochure 2020
與轉錄異構物。為了對基因體生物學透過電腦科學 管使用廣受歡迎的 TransProteomic Pipeline (TPP),仍
來進行實驗分析,我們整合各種體學的資料,結合 需一連串的人工操作;為了方便使用者自動分析資
電腦科學、統計學與分子生物學來開發新的生物資 料,我們開發名為 WinProphet 的軟體。此軟體結合
訊分析工具並回答生物問題。例如在研究心室肥大 TPP 強大的功能和外部命令行的程式,讓使用者透過
在小鼠實驗的基因調控機制,我們藉由分析基因和 圖形介面方便地建構、管理分析流程,並自動執行
miRNA 在不同時間點全轉譯組的表達差異,並建立 流程。使用者所建構的流程,亦能以 XML 檔案格式
基因調控的動態網路。我們發現不少已知跟心室肥 下載,重複使用。其次,我們開發名為 Multi-Q 2 的
大的轉譯因子和 miRNAs,並非在一開始就有顯著地 定量軟體,是和我們之前發表的 Multi-Q 軟體完全不
表達,許多都是在後期才有表達。藉由這個網路, 同的全新開發,可達到高準確率和涵蓋率。我們也
讓我們更清楚的了解,在心臟受壓迫時所造成心室 進行許多不同資料正規化和其他多種設定的分析比
肥大的過程中,調控網路的動態變化。 較,以便瞭解達到較高準確率的關鍵。
二、醣合成、蛋白體及蛋白基因體 人類蛋白體計畫是世界蛋白體組織所發起的計畫,
主旨為確定人體所有的蛋白質。最近幾年計畫的重
智能化的一鍋式反應: 醣和製藥有著極為密切的關 點,在於從鑑定出失蹤蛋白,這些蛋白質目前尚未
係。翁啟惠教授聞名世界的「程式化一鍋式反應」 有蛋白質層次的實驗證據;我們進行相關研究。首
(one pot) 是第一個也是唯一可自動化而快速合成寡 先,我們從資訊分析角度探討為何失蹤蛋白質不易
醣 的 方 法。 利 用 library 中 類 似 於 LEGO 的 building 從現有的質譜實驗中被鑑定。其次,要鑑定失蹤蛋
blocks ( 基塊 : 目前有一百多個單醣及少數雙醣 ),他 白質,必須遵守人類蛋白體計畫嚴謹的資料分析準
們早期的軟體能推薦合成寡醣的多種基塊組合,再 則,因此我們探討同質量替代效應對鑑定失蹤蛋白
由生物學家做最後的定奪。其中翁教授最大的貢獻 質的影響。第三,由於為要能偵測失蹤蛋白質,必
就是提出,「只需要安排這些基塊反應數值 (RRV) 的 須確認該蛋白質有獨一的水解胜肽,因此我們開發
適當差距就可以讓合成反應有效地一鍋完成」,解 名為 iHPDM 的網站服務,其後端包含一個龐大的由
決了以往依賴嘗試與錯誤來處理保護基及多重反應 15 種蛋白酶剪切的所有胜肽資料庫,以便研究者選
的實驗困境。然而,one pot 有兩大限制 : (1) 目前的 擇合適的蛋白酶進行尋找失蹤蛋白質的質譜實驗。
library 約有 150 個基塊,僅能合成單調的寡醣 ; (2) 此外,我們也協助中研院團隊分析質譜實驗的資料,
由於 RRV 差距的限制,one pot 能夠合成的寡醣最多 以確保所鑑定的失蹤蛋白質符合人類蛋白體計畫的
不超過 10 個單醣。為了祛除 (1) 的限制,我們首先 資料分析準則。
提出「虛擬單醣基塊」的概念,用程式產生五萬多
個虛擬單醣基塊。並利用機器學習預測每個基塊的 蛋白基因體的生物資訊:蛋白質編碼區的變異,如:
RRV 數值 ( 準確度在 97% 以上 ),使得學者能事先評 單胺基酸變異、序列插入或刪除、剪接點,可能和
估需要產生何種基塊,大量增加可合成醣的種類。 癌症相關;例如:在台灣肺癌病人可看到表皮生長
對於限制 (2),我們則提出「組合式多醣基塊」的概 因 子 受 體( 蛋 白 質 ) 在 基 因 體 層 次 的 L858R 單 胺
念,以程式模擬多層次的 one pot,理論上幾可合成 基酸變異。在蛋白質層次驗證蛋白質編碼區變異,
任何形狀及大小的多醣體。這個新智能化方法將可 也就是從質譜儀實驗資料中鑑定出變異胜肽;此蛋
讓多醣體及醣合成的研究跨入一個新的境界。 白基因體研究,近年來逐漸受到重視。然而,此研
究領域有兩項挑戰;首先,要從質譜儀資料鑑定變
圖一:使用 Auto-CHO 進行 異胜肽,必須先建構客製化的蛋白質序列資料庫,
Globo H 之一鍋化合成。 此資料庫需必須有充足的包含變異胜肽的蛋白質序
列;其次,即使從質譜實驗鑑定出變異胜肽,仍必
蛋白體生物資訊: 蛋白體是重要研究課題,因為蛋 須進行一些檢測來確認的確是變異胜肽,如:檢查
白質執行細胞內的各種功能,也是藥物標的。質譜 這些變異胜肽是否經由已知的胜肽經質量修飾後可
儀目前是研究蛋白體最重要的實驗技術,分析質譜 得。我們針對第一個挑戰,提出名為 MinProtMaxVP
儀資料最主要的任務,就是要針對生物樣本進行蛋 的演算法,將產生最少數量蛋白質序列包含所有單
白質鑑定(定性)與定量。就此,我們提出計算方法, 胺基酸變異的組合之變異胜肽的計算問題,轉化為
並開發軟體以進行分析。首先,質譜儀資料分析儘 傳統的集合覆蓋問題。未來我們將發展一個軟體系
統來建構上述客製化蛋白質資料庫,此軟體將利用
MinProtMaxVP 演算法及合適的產生 decoy database
的方法。針對第二個挑戰,我們探究同質量替代效
應對變異胜肽鑑定的影響;此外,並提出一個名為
LeTE-fusion 的流程,來評估鑑定出變異胜肽的可能
性,並可以此來評估質譜儀資料鑑定出的變異胜肽
是否可能。未來我們將繼續發展方法,以嚴謹地確
認質譜儀資料所鑑定變異胜肽。希望我們的成果能
有助於癌症的蛋白基因體研究。
109
與轉錄異構物。為了對基因體生物學透過電腦科學 管使用廣受歡迎的 TransProteomic Pipeline (TPP),仍
來進行實驗分析,我們整合各種體學的資料,結合 需一連串的人工操作;為了方便使用者自動分析資
電腦科學、統計學與分子生物學來開發新的生物資 料,我們開發名為 WinProphet 的軟體。此軟體結合
訊分析工具並回答生物問題。例如在研究心室肥大 TPP 強大的功能和外部命令行的程式,讓使用者透過
在小鼠實驗的基因調控機制,我們藉由分析基因和 圖形介面方便地建構、管理分析流程,並自動執行
miRNA 在不同時間點全轉譯組的表達差異,並建立 流程。使用者所建構的流程,亦能以 XML 檔案格式
基因調控的動態網路。我們發現不少已知跟心室肥 下載,重複使用。其次,我們開發名為 Multi-Q 2 的
大的轉譯因子和 miRNAs,並非在一開始就有顯著地 定量軟體,是和我們之前發表的 Multi-Q 軟體完全不
表達,許多都是在後期才有表達。藉由這個網路, 同的全新開發,可達到高準確率和涵蓋率。我們也
讓我們更清楚的了解,在心臟受壓迫時所造成心室 進行許多不同資料正規化和其他多種設定的分析比
肥大的過程中,調控網路的動態變化。 較,以便瞭解達到較高準確率的關鍵。
二、醣合成、蛋白體及蛋白基因體 人類蛋白體計畫是世界蛋白體組織所發起的計畫,
主旨為確定人體所有的蛋白質。最近幾年計畫的重
智能化的一鍋式反應: 醣和製藥有著極為密切的關 點,在於從鑑定出失蹤蛋白,這些蛋白質目前尚未
係。翁啟惠教授聞名世界的「程式化一鍋式反應」 有蛋白質層次的實驗證據;我們進行相關研究。首
(one pot) 是第一個也是唯一可自動化而快速合成寡 先,我們從資訊分析角度探討為何失蹤蛋白質不易
醣 的 方 法。 利 用 library 中 類 似 於 LEGO 的 building 從現有的質譜實驗中被鑑定。其次,要鑑定失蹤蛋
blocks ( 基塊 : 目前有一百多個單醣及少數雙醣 ),他 白質,必須遵守人類蛋白體計畫嚴謹的資料分析準
們早期的軟體能推薦合成寡醣的多種基塊組合,再 則,因此我們探討同質量替代效應對鑑定失蹤蛋白
由生物學家做最後的定奪。其中翁教授最大的貢獻 質的影響。第三,由於為要能偵測失蹤蛋白質,必
就是提出,「只需要安排這些基塊反應數值 (RRV) 的 須確認該蛋白質有獨一的水解胜肽,因此我們開發
適當差距就可以讓合成反應有效地一鍋完成」,解 名為 iHPDM 的網站服務,其後端包含一個龐大的由
決了以往依賴嘗試與錯誤來處理保護基及多重反應 15 種蛋白酶剪切的所有胜肽資料庫,以便研究者選
的實驗困境。然而,one pot 有兩大限制 : (1) 目前的 擇合適的蛋白酶進行尋找失蹤蛋白質的質譜實驗。
library 約有 150 個基塊,僅能合成單調的寡醣 ; (2) 此外,我們也協助中研院團隊分析質譜實驗的資料,
由於 RRV 差距的限制,one pot 能夠合成的寡醣最多 以確保所鑑定的失蹤蛋白質符合人類蛋白體計畫的
不超過 10 個單醣。為了祛除 (1) 的限制,我們首先 資料分析準則。
提出「虛擬單醣基塊」的概念,用程式產生五萬多
個虛擬單醣基塊。並利用機器學習預測每個基塊的 蛋白基因體的生物資訊:蛋白質編碼區的變異,如:
RRV 數值 ( 準確度在 97% 以上 ),使得學者能事先評 單胺基酸變異、序列插入或刪除、剪接點,可能和
估需要產生何種基塊,大量增加可合成醣的種類。 癌症相關;例如:在台灣肺癌病人可看到表皮生長
對於限制 (2),我們則提出「組合式多醣基塊」的概 因 子 受 體( 蛋 白 質 ) 在 基 因 體 層 次 的 L858R 單 胺
念,以程式模擬多層次的 one pot,理論上幾可合成 基酸變異。在蛋白質層次驗證蛋白質編碼區變異,
任何形狀及大小的多醣體。這個新智能化方法將可 也就是從質譜儀實驗資料中鑑定出變異胜肽;此蛋
讓多醣體及醣合成的研究跨入一個新的境界。 白基因體研究,近年來逐漸受到重視。然而,此研
究領域有兩項挑戰;首先,要從質譜儀資料鑑定變
圖一:使用 Auto-CHO 進行 異胜肽,必須先建構客製化的蛋白質序列資料庫,
Globo H 之一鍋化合成。 此資料庫需必須有充足的包含變異胜肽的蛋白質序
列;其次,即使從質譜實驗鑑定出變異胜肽,仍必
蛋白體生物資訊: 蛋白體是重要研究課題,因為蛋 須進行一些檢測來確認的確是變異胜肽,如:檢查
白質執行細胞內的各種功能,也是藥物標的。質譜 這些變異胜肽是否經由已知的胜肽經質量修飾後可
儀目前是研究蛋白體最重要的實驗技術,分析質譜 得。我們針對第一個挑戰,提出名為 MinProtMaxVP
儀資料最主要的任務,就是要針對生物樣本進行蛋 的演算法,將產生最少數量蛋白質序列包含所有單
白質鑑定(定性)與定量。就此,我們提出計算方法, 胺基酸變異的組合之變異胜肽的計算問題,轉化為
並開發軟體以進行分析。首先,質譜儀資料分析儘 傳統的集合覆蓋問題。未來我們將發展一個軟體系
統來建構上述客製化蛋白質資料庫,此軟體將利用
MinProtMaxVP 演算法及合適的產生 decoy database
的方法。針對第二個挑戰,我們探究同質量替代效
應對變異胜肽鑑定的影響;此外,並提出一個名為
LeTE-fusion 的流程,來評估鑑定出變異胜肽的可能
性,並可以此來評估質譜儀資料鑑定出的變異胜肽
是否可能。未來我們將繼續發展方法,以嚴謹地確
認質譜儀資料所鑑定變異胜肽。希望我們的成果能
有助於癌症的蛋白基因體研究。
109