Institute of Information Science
生物資訊實驗室
Principal Investigators:
宋定懿Ting-Yi Sung(Chair) 何建明 Jan-Ming Ho 林仲彥 Chung-Yen Lin
施純傑 Arthur Chun-Chieh Shih 許聞廉 Wen-Lian Hsu 蔡懷寬Huai-Kuang Tsai

Postdoctoral Fellow:
朱德清 Te-Chin Chu 林可軒 Ke-Shiuan Lynn 林信男 Hsin-Nam Lin
林展賢 Chan-Hsien Lin 張育榮 Yu-Jung Chang 蔡宗曄 Zing Tsung-Yeh Tsai
蔡郁偉 Yu-Wei Tsay 鄭家胤 Chia-Ying Cheng

[ 相關網站 ]
     人工智慧抗癌實驗室

[ 研究群介紹 ]
我們的研究是以資訊研究技術為主,針對不同生物體學(omics)上的生物醫學問題進行解析,大致分為(一)基因體與轉錄體研究,(二)蛋白體與代謝體研究,分述如下。
(一)基因體和轉錄體研究
近年新世代定序技術已成為基因體和轉錄體研究的主要實驗技術,我們致力於發展此技術資料分析的新計算方法及應用工具。首先,我們利用高產出的短序序列來重組大型基因組和無參考基因組的轉譯子,並已經完成一套以延伸為基礎的組裝程式,名為JR-Assembler。此系統不僅記憶體的使用率和執行時間都比其他基因組組裝程式更有效率,而且組裝結果的品質也相當好。其次,我們也提出一個多源基因體資料分析平台MetaABC,藉由整合多個常見資料處理法來降低資料偏差對分析的影響。第三,為了解析新世代定序所產生的大量基因表現數據背後所代表的生物意義,我們結合開放源碼與自家研發工具,建置完成一套可以適用模式生物與非模式生物多重體學比較的線上分析平台Multi-Omics Online Analysis System (http://molas.iis.sinica.edu.tw),讓使用者透過高親和度網頁介面,進行表現量比較與叢集分析,進而針對代謝網路與基因分類等生物意義進行分析,以深入探討特定基因群的調控方式。第四,我們進行新世代定序的序列排比。隨著新世代定序的技術不斷演進,定序序列隨之增長,目前大多數序列排比方法是針對短序列所開發的,因此我們開發了一個新的排比方法Kart,在處理長序列資料所花的時間遠少於目前主流的方法,且獲得更準確的排比結果,亦能準確處理PacBio的超長定序序列。第五,由於生物數據的計算需求的急速攀昇,傳統計算資源不敷所需,為了對既有資源做更好的利用,資訊所團隊便著手建構一套Hadoop cloud的快速佈建程式CloudDOE(http://clouddoe.iis.sinica.edu.tw/),除有效減低程式佈建的複雜度,也方便既有雲端程式上傳運算,更能透過此一平台之API端口,開發更多與MapReduce相關的生物資訊高速解析工具。

利用上述所提出的計算方法及工具,我們特別針對以下的生物主題進行研究:(1)基因複製在C4植物葉片演化扮演的角色,(2)重建玉米葉片發育的調控網路,(3)重建在心室肥大和B細胞分化的miRNA和基因調控網路,(4)尋找在自閉症病人的基因組結構變異,(5)整合轉錄因子、miRNA與表觀遺傳資料以建構調控網路,(6)人類非編碼RNA之功能解析,(7)鑑別可施藥之致癌融合基因與其致病機轉,以及(8)病毒基因體重組與基因型定性。

(二)蛋白體及代謝體研究
質譜儀分析的蛋白體學及代謝體學:質譜儀是目前研究蛋白體學最重要的實驗技術,利用質譜高通量數據,進行蛋白質定性與定量分析。之前我們已經完成三套蛋白質定量自動化分析系統Multi-Q、MaXIC-Q及IDEAL-Q,涵蓋幾乎所有重要的定量技術;目前我們特專注於改善蛋白質定性的研究。首先,由於醣蛋白是重要的修飾蛋白且是重要的生物標記,我們發展世界上第一套能夠自動化分析複雜生物樣本的大規模醣蛋白質譜數據的軟體。其次,由於SWATH的質譜實驗方法,近年被提出並在targeted 蛋白體學分析受到重視,我們提出一個名為ProDIA的計算方法及系統,從SWATH的質譜數據產出大規模MS/MS圖譜,進行蛋白質定性分析;結合傳統實驗方法的鑑定,可提升蛋白體的整體鑑定。此外,在醣蛋白研究過程中,我們發現圖譜轉成peak list是研究上的瓶頸,現有的轉檔程式無法提供電荷資訊或有質量不準確的問題,因此我們正在進行圖譜轉檔程式的發展。
排版插圖 Figure 1. The Web framework for Integrated Omic Data to reveal the hidden biological regulations and pathways.

近年我們也進行代謝體的高通量質譜分析的研究。由於目前代謝體的定量與定性工具不多,且有其限制,故此我們發展代謝體定量分析的計算方法及軟體,結果顯示具高準確率。同時,我們也完成一套代謝體定性的計算方法,嚴謹地進行數據資料的叢集,進而透過搜尋代謝體資料庫,進行高準確率的代謝物定性分析。

蛋白質結構與細胞定位預測:在蛋白質結構預測上,我們特別針對膜蛋白發展一系列的預測工具,包括:膜蛋白的穿膜螺旋區塊及其拓樸性質、螺旋間交互作用及接觸點的預測、穿膜區塊的lipid exposure預測,並建構完成一個已知螺旋結構間交互作用的知識庫。此外,我們也特別進行訊號胜肽的預測,因為訊號胜肽容易和穿膜螺旋混淆,且和蛋白質分泌有關。

在蛋白質細胞定位預測上,我們發展通用的蛋白質細胞定位預測方法稱為UniLoc。此方法利用自然語言處理的技術定義蛋白質同義字,其為一小段連續的胺基酸序列,可用來表明該蛋白質在演化的過程中已發生或可能發生的序列變化;我們經由分析大量的蛋白質序列,定義許多的蛋白質同義字。UniLoc可以同時預測原核與真核生物的蛋白質細胞定位,且有效率地辨別單一與多重定位的蛋白質,並且達到很高的準確率,高於目前其他著名的細胞定位預測方法。

以疾病中心的人類蛋白知識庫:我們蛋白體學生物資訊研究,最終目標是找到疾病偵測的生物標記。因此,我們開發一個人類蛋白體知識庫,特別針對人類膜蛋白提供詳細資訊,透過整合現有的各種資料庫及預測工具,發展視覺化工具,並提供使用者勾選生物標記篩選條件,找出候選名單。此外,使用這個蛋白體知識庫,我們和台灣其他實驗室共同參與國際人類蛋白體計畫負責第四號染色體分析。該計畫目前階段共同的使命,是找出至今未被實驗偵測出的蛋白質,我們提供未被偵測蛋白質名單給團隊成員,讓他們進行後續實驗找出這些蛋白質。

生物資訊研究是跨領域研究,我們的研究合作夥伴包含本院的化學研究所、生物化學研究所、植物與微生物研究所、細胞生物與個體生物研究所、生物醫學研究所、生物多樣性中心、基因體中心,及院外的國衛院、台大生命科學院、台大生物資源暨農學院、台大醫院、陽明大學生命科學院,以及美國密西根州立大學醫學院和植物生物學研究所、加州大學洛杉磯分校醫學院和美國微軟公司等。
排版插圖 Figure 2. Omics Database for Model and non-Model Organisms

相關資訊

Academia Sinica 資訊科學研究所 Academia Sinica