他開發(fā)了基因界的百科全書,貢獻卻少有人知

日本京都大學(xué)金久實(Minoru Kanehisa)教授| 圖源:kanehisa.jp/
生物信息要解決的問題是生物數(shù)據(jù)的產(chǎn)生、管理和挖掘。這種曠日持久的系統(tǒng)性推動與支撐,與通常意義上星光燦爛的概念和技術(shù)進展相比,似乎更容易被人們忽略低估。
生物信息確實在各個方向上有力地推動了生物學(xué)研究和應(yīng)用的發(fā)展。其尷尬之處在于,作為實用工具缺乏深度,而概念和技術(shù)突破又非常依賴實驗設(shè)計和數(shù)據(jù)質(zhì)量。就諾獎而言,生物信息最大的痛點是自身很難閉環(huán),很難達到普遍接受的高度。
撰文|張小牛
責編|陳曉雪
● ● ●
2018年,日本京都大學(xué)金久實教授被美國咨詢公司科睿維安列為可能獲諾貝爾生理醫(yī)學(xué)獎的人選之一,提名理由是 “對生物信息學(xué)的杰出貢獻,特別是開發(fā)了京都基因和基因組大百科全書”。京都基因和基因組大百科全書英文全稱是 “Kyoto Encyclopedia of Genes and Genomes”,簡稱KEGG。即使從事專業(yè)生物信息工作的人也未必知道金久實教授,但略微接觸過生物信息的人都會知道KEGG。
基因之間通過相互作用實現(xiàn)生物功能,發(fā)揮特定生物功能的基因集合被稱之為通路,例如代謝通路、信號轉(zhuǎn)導(dǎo)通路等等。KEGG正是通過不斷整理收錄通路數(shù)據(jù)集,并在此基礎(chǔ)上開發(fā)了一系列生物信息工具,長期為日常生物學(xué)研究提供基因功能信息支撐。這是一項龐大繁復(fù)的系統(tǒng)性工作,顯然對現(xiàn)代生物學(xué)研究貢獻卓著。
但是這種曠日持久的系統(tǒng)性推動與支撐,與通常意義上星光燦爛的概念和技術(shù)進展相比,似乎更容易被人們忽略低估。這可能是金久實教授至今沒有獲得諾貝爾獎的原因之一。這也反映了傳統(tǒng)生物信息學(xué)的窘狀,作為實用工具而言缺乏深度,而概念和技術(shù)突破又非常依賴實驗設(shè)計和數(shù)據(jù)質(zhì)量。
金久實教授1976年畢業(yè)于東京大學(xué)物理系,后在霍普金斯醫(yī)學(xué)院從事博士后研究,1981年成為阿拉莫斯國家實驗室的研究科學(xué)家。在此期間,他參與了生物數(shù)據(jù)庫GenBank的開發(fā)工作。這個經(jīng)歷顯然對他此后開發(fā)KEGG專業(yè)數(shù)據(jù)庫有很大幫助。時至今日,GenBank已經(jīng)是全世界最重要的一級基因數(shù)據(jù)庫之一,絕大多數(shù)人類研究產(chǎn)生的生物序列相關(guān)信息都能在這個數(shù)據(jù)庫中找到。
1985年,他回到京都大學(xué)擔任副教授,并于1987年晉升為正教授。1995年,他開始了人生中最重要的項目,KEGG數(shù)據(jù)庫建設(shè)。KEGG數(shù)據(jù)庫收錄了大量通路信息,通路以基因互作(指非等位基因之間通過相互作用影響同一性狀表現(xiàn)的現(xiàn)象)的形式呈現(xiàn)。隨著研究技術(shù)的發(fā)展,通路信息數(shù)據(jù)不斷積累更新。KEGG數(shù)據(jù)庫最典型的應(yīng)用是通路映射,通過對目標基因的富集分析,預(yù)測目標基因可能的生物學(xué)功能。
金久實 | 圖源kyoto-u.ac.jp/
他在1999年成為日本生物信息學(xué)會第一任主席,2013年成為國際計算生物學(xué)會榮譽資深會員??梢哉f,金久實教授為日本生物信息學(xué)乃至國際生物信息學(xué)的發(fā)展做出了許多堅實的推動工作。
KEGG的核心價值
KEGG數(shù)據(jù)庫于1999年首次見刊,目標是把各物種的實驗數(shù)據(jù)在通路層面上組織起來,開發(fā)生物信息工具注釋和比較通路。KEGG中的基礎(chǔ)數(shù)據(jù)單元是基因,基因具有不同功能身份,通過與其他基因或者小分子互作實現(xiàn)特定功能,特定功能相關(guān)的基因和小分子在數(shù)據(jù)庫中被組織為通路。
Kegg數(shù)據(jù)庫的Logo 圖源:Kegg官網(wǎng)(https://www.genome.jp/kegg/)
最開始,KEGG數(shù)據(jù)庫只有若干完成測序的物種,上百個來源于生物化學(xué)實驗的手繪通路。經(jīng)過多年發(fā)展,目前KEGG2版本由四個部分組成:系統(tǒng)信息、基因組信息、化學(xué)信息和健康信息。
系統(tǒng)信息是在通路的基礎(chǔ)上進一步構(gòu)建了結(jié)構(gòu)化的功能模塊,從而可以將不同通路組織在一個統(tǒng)一的架構(gòu)下進行分析?;蚪M信息包括了基因組序列信息、基因注釋和直系同源基因映射。化學(xué)信息主要是各類代謝物、糖蛋白、生物化學(xué)反應(yīng)信息和酶。健康信息包括了疾病相關(guān)的突變和網(wǎng)絡(luò)信息、人類疾病信息和藥物相關(guān)信息。
可以說,KEGG是傳統(tǒng)關(guān)聯(lián)數(shù)據(jù)庫的技術(shù)形式在基因功能注釋方向上的極致發(fā)展,通過對基因的功能注釋,在各個方向上有力地推動了生物學(xué)研究和應(yīng)用的發(fā)展。
KEGG的歷史定位
人類基因組草圖2001年發(fā)布,這意味著KEGG的設(shè)計早于大規(guī)?;蚪M數(shù)據(jù)的產(chǎn)生。實際上KEGG早期核心通路信息也是基于實驗數(shù)據(jù)人工繪制。在數(shù)據(jù)量相對少的年代,流程式的數(shù)據(jù)組織方式能夠非常好地反應(yīng)基因功能。然而,隨著測序技術(shù)的快速發(fā)展,生物序列信息爆炸式增長,對基因功能的解讀就不僅僅停留在通路層面,例如近年來生物學(xué)研究從基因為基本功能單位,逐步拓展到單細胞為基本功能單位。
本質(zhì)上,自然選擇在各個層面發(fā)揮作用,基因、細胞、器官、個體、群體、物種乃至生態(tài)系統(tǒng)?;蝾愋秃突蛘{(diào)控的組合形成細胞,細胞類型和細胞分布的組合形成器官,以此類推。
KEGG通過記錄基因之間或者基因和代謝物之間的相互關(guān)系來提供靜態(tài)功能信息。然而,更為復(fù)雜的生命現(xiàn)象,例如細胞類型是由不同通路組合而成,這超越了KEGG現(xiàn)有數(shù)據(jù)架構(gòu)的能力。
KEGG是生物信息早期數(shù)據(jù)庫形態(tài),是生物信息學(xué)發(fā)展的重要里程碑,今后也將是生物信息學(xué)重要的基礎(chǔ)工具,但是KEGG對于復(fù)雜生命現(xiàn)象探索的支撐呈現(xiàn)很明顯的天花板效應(yīng)。
生物信息的諾獎會從哪里來?
生物信息領(lǐng)域有一些很奇怪的現(xiàn)象。一方面,到處招不到做生物信息的人,而做生物信息研究的人又常常被主流認為提不出科學(xué)問題。另一方面,誰都可以宣稱自己是做生物信息的,而生物信息具體包括哪些方向又眾說紛紜。
本質(zhì)上,生物信息是一個工學(xué)學(xué)科,而不是理學(xué)學(xué)科。生物信息要解決的問題是生物數(shù)據(jù)的產(chǎn)生、管理和挖掘。生物信息并不需要解決生物學(xué)問題,因為生物學(xué)問題也可以通過實驗技術(shù)進步而繞開生物信息。那么,生物信息的重點應(yīng)當是圍繞特定生物數(shù)據(jù)開展的一系列研究和開發(fā)工作。
重大而有影響力的工作應(yīng)當針對有長遠存續(xù)價值的目標。例如,基于某種特定測序技術(shù)開發(fā)的數(shù)據(jù)分析方法會因為測序技術(shù)的發(fā)展而失去價值,但是針對基因功能的數(shù)據(jù)分析,例如KEGG,并不會因為時間的推移而失去價值。
金久實教授目前尚未獲得諾貝爾獎?wù)J可,很可能只是因為通路作為功能的表征略顯平實,同時KEGG本身的架構(gòu)也限制了其對更復(fù)雜生命現(xiàn)象的解析?,F(xiàn)代生物信息學(xué)面對的兩大數(shù)據(jù)類型分別是生物序列和生物圖像,方法學(xué)上基于大數(shù)據(jù)的機器學(xué)習(xí)工具也越來越強大。那么,下一波生物信息學(xué)的高點基本也就明確了。概念上具有長期存續(xù)價值,同時能夠完整解決一些重要問題的數(shù)據(jù)對象,無疑是細胞類型。
細胞類型與基因類型比較,同時增加了空間復(fù)雜性和時間復(fù)雜性,那么數(shù)據(jù)對象顯然也就具備了多模態(tài)的性質(zhì)。具體而言,整合生物學(xué)大數(shù)據(jù)在細胞層面解決問題,例如在理解生物腦結(jié)構(gòu)的基礎(chǔ)上推動人工智能發(fā)展,有機會做出諾獎級別的工作。
制版編輯 | 盧卡斯