要警惕精確醫(yī)學(xué)的“白象”陷阱 | 吳家睿專(zhuān)欄
? 美國(guó)現(xiàn)任NIH主任弗朗西斯·科林斯,精確醫(yī)療計(jì)劃主要推動(dòng)者之一,圖片來(lái)自mscperu.org
前言:
2015年,美國(guó)政府啟動(dòng)了一個(gè)“精確醫(yī)學(xué)計(jì)劃先導(dǎo)專(zhuān)項(xiàng)”,計(jì)劃招募百萬(wàn)美國(guó)志愿者以組成研究隊(duì)列,并進(jìn)行至少10年時(shí)間的生物學(xué)大數(shù)據(jù)采集,然后再將這些大數(shù)據(jù)進(jìn)行整合,構(gòu)建為用于維護(hù)健康和抗擊疾病的知識(shí)網(wǎng)絡(luò)。這樣一個(gè)龐大而復(fù)雜的研究計(jì)劃,需要恰當(dāng)?shù)仄胶夂媒?jīng)費(fèi)、效率和任務(wù)等各種關(guān)鍵要素之間的關(guān)系。否則就是一只耗錢(qián)、耗時(shí)而收益很低的”白象“。
撰文 | 吳家睿(中國(guó)科學(xué)院上海生命科學(xué)研究院生物化學(xué)與細(xì)胞生物學(xué)研究所研究員)
● ● ●
術(shù)語(yǔ)“白象”(White Elephant)特指一種需要花費(fèi)大量財(cái)力和物力去維護(hù)而經(jīng)濟(jì)效益卻很低的資產(chǎn)。它源于一個(gè)古代的傳說(shuō):暹羅(今泰國(guó))的國(guó)王如果不喜歡某人,就會(huì)專(zhuān)門(mén)送一個(gè)珍稀的大白象給他,讓其花大錢(qián)長(zhǎng)期飼養(yǎng)這頭昂貴的大白象,從而導(dǎo)致其破產(chǎn)。作為經(jīng)費(fèi)投入巨大的重大科學(xué)研究計(jì)劃或項(xiàng)目,我們不僅要考慮其科學(xué)意義,也要考慮其實(shí)施過(guò)程的研究成本和研究成果的經(jīng)濟(jì)價(jià)值。這類(lèi)項(xiàng)目一旦出現(xiàn)失誤,將導(dǎo)致巨大的損失,至少是得不償失。
2000年,美國(guó)國(guó)會(huì)曾提出一 個(gè)“國(guó)家兒童研究”(National Children’s Study, NCS)的重大研究項(xiàng)目,擬跟蹤10萬(wàn)名健康的美國(guó)兒童,從他們出生直到21歲,分析一系列影響兒童發(fā)育和健康的因子。美國(guó)政府為此于2007年啟動(dòng)了一個(gè)名為“先鋒研究”的NCS試點(diǎn),招募了5000名兒童進(jìn)行試點(diǎn)研究。在該項(xiàng)目籌備和“先鋒研究”花費(fèi)了13億美元之后,美國(guó)國(guó)立衛(wèi)生研究院(NIH)主任弗朗西斯·柯林斯(Francis Collins)在2014年12月宣布終止整個(gè)NCS項(xiàng)目,因?yàn)樵谠擁?xiàng)目的設(shè)計(jì)、管理和花費(fèi)等方面均發(fā)現(xiàn)了問(wèn)題。有此前車(chē)之鑒,人們有必要在精確醫(yī)學(xué)(Precision Medicine)啟動(dòng)之際,從經(jīng)濟(jì)學(xué)的角度思考一下該計(jì)劃應(yīng)該如何實(shí)施。
大數(shù)據(jù)需要大投入
最近,筆者撰文詳細(xì)介紹和分析了美國(guó)的精確醫(yī)學(xué)計(jì)劃,指出該計(jì)劃注重從個(gè)體層次盡可能完整地獲取數(shù)據(jù),包括個(gè)體的微觀層次(基因組、轉(zhuǎn)錄組、蛋白質(zhì)組、代謝組等)、個(gè)體的宏觀層次(分子影像、行為方式、電子健康檔案等)、個(gè)體的外部層次(腸道菌群、物理環(huán)境、社會(huì)條件等);然后對(duì)這些不同層次的數(shù)據(jù)利用各種信息分析技術(shù)進(jìn)行整合,形成一個(gè)各個(gè)信息層之間不同類(lèi)型數(shù)據(jù)有著高度連接的疾病知識(shí)網(wǎng)絡(luò)[1]。
顯然,如此規(guī)模化和完整地收集個(gè)體的相關(guān)大數(shù)據(jù)需要巨大的投入。在各種組學(xué)研究技術(shù)方面,核酸測(cè)序技術(shù)的成本下降最為明顯,已經(jīng)從2000年人類(lèi)基因組計(jì)劃大約一美元測(cè)1個(gè)堿基降至當(dāng)前一美元測(cè)300萬(wàn)個(gè)堿基。也就是說(shuō),如果采用目前的高通量測(cè)序儀,檢測(cè)人體基因組所擁有30億個(gè)堿基序列需要大約1000美元。盡管現(xiàn)在的全基因組測(cè)序費(fèi)用如此便宜,美國(guó)NIH的主任柯林斯依然強(qiáng)調(diào)說(shuō),只有“當(dāng)經(jīng)費(fèi)允許時(shí)可進(jìn)行全基因組測(cè)序”[2]。我們知道,美國(guó)“精確醫(yī)學(xué)先導(dǎo)專(zhuān)項(xiàng)” (The Precision Medicine Initiative,PMI)計(jì)劃招募1百萬(wàn)個(gè)美國(guó)志愿者組成研究隊(duì)列。假設(shè)每個(gè)人做一次全基因組測(cè)序,那么這100萬(wàn)人的測(cè)序費(fèi)用按照1000美元1個(gè)人計(jì)算就需要10億美元。
? 美國(guó)NIH設(shè)計(jì)精確醫(yī)療計(jì)劃長(zhǎng)期以及近期目標(biāo),圖片來(lái)自NIH
最新的核酸測(cè)序技術(shù)不僅成本明顯下降,而且靈敏度也有了明顯提高。過(guò)去要完成1個(gè)全基因組測(cè)序可能要用到上萬(wàn)甚至百萬(wàn)個(gè)細(xì)胞,而今天則可以實(shí)現(xiàn)單細(xì)胞的全基因組測(cè)序;當(dāng)然后者的檢測(cè)費(fèi)用要超過(guò)前者。單細(xì)胞全基因組測(cè)序有助于人們理解個(gè)體發(fā)育等基礎(chǔ)生物學(xué)過(guò)程,同時(shí)還有可能揭示腫瘤患者體內(nèi)不同腫瘤細(xì)胞間的差異。因此,目前已經(jīng)發(fā)表了許多利用單細(xì)胞基因組測(cè)序技術(shù)研究人體生理或者病理現(xiàn)象的研究成果。隨著精確醫(yī)學(xué)的興起,有些研究者也希望能夠?qū)€(gè)體開(kāi)展更為精準(zhǔn)的單細(xì)胞基因組分析。但是,人體是由天文數(shù)字般的細(xì)胞所組成,一顆米粒大小的腫瘤組織通常擁有上百萬(wàn)個(gè)細(xì)胞。顯然,即使不考慮技術(shù)方面的難度,在精確醫(yī)學(xué)的研究中開(kāi)展單細(xì)胞基因組測(cè)序工作的成本也是巨大的。
在美國(guó)“精確醫(yī)學(xué)先導(dǎo)專(zhuān)項(xiàng)”的研究方案中,不僅計(jì)劃對(duì)這些個(gè)體進(jìn)行基因組序列分析,而且還計(jì)劃開(kāi)展轉(zhuǎn)錄組、蛋白質(zhì)組和代謝組等各種類(lèi)型生物分子的分析。需要強(qiáng)調(diào)的是,不同于恒定不變的基因組DNA序列、RNA和蛋白質(zhì)及代謝小分子在體內(nèi)不同組織或者不同條件下發(fā)生著不同的變化。即使研究者只限于對(duì)個(gè)體的血液樣本中這些不同種類(lèi)分子進(jìn)行組學(xué)分析,其組學(xué)分析的費(fèi)用肯定不會(huì)比測(cè)序便宜,1000美元是不夠的。由于該先導(dǎo)專(zhuān)項(xiàng)預(yù)定對(duì)這百萬(wàn)人群至少要進(jìn)行10年的追蹤。即使每年對(duì)每一個(gè)體只進(jìn)行一次各種組學(xué)的檢測(cè),10年下來(lái)1百億美元都明顯不夠用。更何況一年一次的檢測(cè)不能稱(chēng)為精確,最少也應(yīng)該半年檢測(cè)一次。此外,“精確醫(yī)學(xué)先導(dǎo)專(zhuān)項(xiàng)”還計(jì)劃采用可穿戴設(shè)備檢測(cè)個(gè)體的生理變化和體能活動(dòng),并研究環(huán)境暴露是如何影響個(gè)體的健康。因此,不僅僅生物學(xué)方面的組學(xué)檢測(cè)需要花費(fèi)很大,在個(gè)體的行為分析和環(huán)境分析等方面也需要很大的投入。
美國(guó)政府計(jì)劃花多少錢(qián)來(lái)開(kāi)展這個(gè)“精確醫(yī)學(xué)先導(dǎo)專(zhuān)項(xiàng)”?目前關(guān)于專(zhuān)項(xiàng)10年所需要的總經(jīng)費(fèi)還沒(méi)有一個(gè)明確的說(shuō)法。根據(jù)該專(zhuān)項(xiàng)2015年發(fā)布的工作報(bào)告,2016財(cái)政年度將由4個(gè)政府部門(mén)提供2.15億美元的研究經(jīng)費(fèi),其中NIH提供1.3億,國(guó)立癌癥研究所(NCI)提供7千萬(wàn),美國(guó)食品藥品管理局提供1千萬(wàn),國(guó)家項(xiàng)目協(xié)調(diào)辦公室提供5百萬(wàn)[3]。筆者注意到,這些錢(qián)不僅用來(lái)支持百萬(wàn)人群隊(duì)列研究,還用來(lái)支持了其它非隊(duì)列的研究,如NIH的一部分經(jīng)費(fèi)和NCI的經(jīng)費(fèi)將被用來(lái)開(kāi)展腫瘤治療方面的研究[3]。顯然,用這樣的一點(diǎn)小錢(qián)來(lái)做這樣一個(gè)宏偉的研究計(jì)劃肯定是不夠的。事實(shí)上,針對(duì)招募百萬(wàn)志愿者作為研究隊(duì)列這樣一個(gè)“精確醫(yī)學(xué)先導(dǎo)專(zhuān)項(xiàng)”的核心任務(wù),項(xiàng)目的設(shè)計(jì)者就已經(jīng)在想節(jié)約費(fèi)用的招數(shù)了,比如在在招募志愿者時(shí)優(yōu)先挑選已經(jīng)擁有電子健康檔案的美國(guó)人;這些人將主要來(lái)自保健服務(wù)組織(Healthcare Provider Organizations,HPOs),如凱薩醫(yī)療機(jī)構(gòu)的健康研究項(xiàng)目和退伍軍人健康管理局的百萬(wàn)老兵項(xiàng)目等[3]??梢哉f(shuō),美國(guó)的精確醫(yī)學(xué)計(jì)劃目前只是處在一個(gè)“雷聲大、雨點(diǎn)小”的階段。
大數(shù)據(jù)需要大設(shè)施
人類(lèi)基因組計(jì)劃最初設(shè)定的核心目標(biāo)只是要認(rèn)識(shí)人體基因組全部30億個(gè)堿基序列的排列順序。為此,研究者花了30億美元和近15年的時(shí)間才完成了該計(jì)劃。但是,目前的測(cè)序技術(shù)已今非昔比,當(dāng)今世界最高通量的測(cè)序儀(Illumina公司的HiSeq X 10)1年可以完成超過(guò)1.8萬(wàn)人的基因組測(cè)序工作,而每個(gè)基因組的花費(fèi)只不過(guò)是區(qū)區(qū)1000美元。在這樣發(fā)達(dá)的測(cè)序技術(shù)支撐下,人類(lèi)基因組計(jì)劃進(jìn)入到了個(gè)體基因組測(cè)序階段,要揭示人群中不同個(gè)體的基因組序列差別。美國(guó)2008年?duì)款^啟動(dòng)了“千人基因組計(jì)劃”,英國(guó)2014年也啟動(dòng)了“十萬(wàn)人基因組計(jì)劃”。在不到10年的時(shí)間里,生物學(xué)數(shù)據(jù)庫(kù)儲(chǔ)存的個(gè)人基因組序列已達(dá)到百萬(wàn)人級(jí)的規(guī)模。一個(gè)人的基因組有30億個(gè)堿基對(duì),對(duì)應(yīng)于一個(gè)3GB(1 GB = 109 Byte)的數(shù)據(jù)集;因此,基因組測(cè)序工作的快速發(fā)展使得基因組數(shù)據(jù)量近幾年以指數(shù)級(jí)的速度在增長(zhǎng);在2015年之后,基因組數(shù)據(jù)每7個(gè)月就能翻一番。
基因因組序列數(shù)據(jù)只是組學(xué)數(shù)據(jù)的一部分,轉(zhuǎn)錄組、蛋白質(zhì)組和代謝組等各種組學(xué)研究都會(huì)產(chǎn)生大量的數(shù)據(jù);例如,在一篇人類(lèi)蛋白質(zhì)組研究論文中,作者專(zhuān)門(mén)指出,該項(xiàng)研究需要用2 TB (1 TB = 1012 Byte)的內(nèi)存和50 TB的硬盤(pán)作為數(shù)據(jù)分析的基本配置[4]。美國(guó)斯坦福大學(xué)科學(xué)家M.Snyder對(duì)自己進(jìn)行了連續(xù)14個(gè)月的表型監(jiān)測(cè)和血液樣本分析,獲得了表型組譜、基因組序列、轉(zhuǎn)錄組表達(dá)譜、蛋白質(zhì)組表達(dá)譜和代謝組表達(dá)譜等單一個(gè)體的“多組學(xué)”數(shù)據(jù),其數(shù)據(jù)量就已經(jīng)達(dá)到了50 GB[5]。按照美國(guó)“精確醫(yī)學(xué)先導(dǎo)專(zhuān)項(xiàng)”設(shè)計(jì)者的構(gòu)想,該專(zhuān)項(xiàng)的核心任務(wù)就是收集1百萬(wàn)人群隊(duì)列的生物學(xué)、行為學(xué)和社會(huì)學(xué)方面的數(shù)據(jù);大家可以想像一下該項(xiàng)目的數(shù)據(jù)量將會(huì)有多大。事實(shí)上,僅僅2015年一年時(shí)間,生物醫(yī)學(xué)研究產(chǎn)出的數(shù)據(jù)估計(jì)就已經(jīng)高達(dá)500 PB(1 PB = 1015 Byte)。
生物學(xué)大數(shù)據(jù)的獲取只是“萬(wàn)里長(zhǎng)征邁出的第一步”;大數(shù)據(jù)的存儲(chǔ)、管理、分析和共享等依然面臨著諸多的挑戰(zhàn)。“癌癥基因組圖集”(The Cancer Genome Atlas,TCGA)是NIH在2006年?duì)款^啟動(dòng)國(guó)際癌癥基因組項(xiàng)目,針對(duì)50種不同類(lèi)型的腫瘤,每種腫瘤采集500份樣品進(jìn)行基因組測(cè)序研究。TCGA項(xiàng)目在2014年底宣告完成,共產(chǎn)生了20PB的腫瘤基因組數(shù)據(jù)。這個(gè)腫瘤基因組數(shù)據(jù)庫(kù)如此之大,只有那些具有超級(jí)計(jì)算能力的研究機(jī)構(gòu)才有可能“玩得轉(zhuǎn)”。即使是具備了強(qiáng)大的計(jì)算能力的科研單位,僅僅下載這些數(shù)據(jù)就需要花上4個(gè)月的時(shí)間;而按照美國(guó)一所普通大學(xué)的網(wǎng)絡(luò)能力,則需要15個(gè)月以上的時(shí)間才能夠下載完這些數(shù)據(jù)。
早在1988年決定要啟動(dòng)人類(lèi)基因組計(jì)劃之際,美國(guó)政府就已經(jīng)意識(shí)到,需要建立保存和處理生物學(xué)大數(shù)據(jù)的大科學(xué)設(shè)施,于是以NIH的基因庫(kù)(GenBank) 為基礎(chǔ)建立了美國(guó)國(guó)家生物技術(shù)信息中心(NCBI);歐盟隨后于1992年也在英國(guó)組建了歐洲生物信息研究所(EBI),它們與在此之前日本建立的DNA數(shù)據(jù)庫(kù)(DDBJ),形成了三大國(guó)際生物學(xué)大數(shù)據(jù)中心,負(fù)責(zé)保存各國(guó)產(chǎn)生的相關(guān)數(shù)據(jù)并進(jìn)行共享。隨著生物學(xué)大數(shù)據(jù)的迅猛增長(zhǎng),原有的大數(shù)據(jù)設(shè)施已明顯不夠用,各發(fā)達(dá)國(guó)家正在計(jì)劃建設(shè)新的生物學(xué)大數(shù)據(jù)設(shè)施;例如,歐盟2010年發(fā)表的《科學(xué)研究設(shè)施戰(zhàn)略規(guī)劃報(bào)告》提出,計(jì)劃在5年時(shí)間內(nèi)投入6億歐元,建設(shè)一個(gè)歐洲生命科學(xué)研究生物信息基礎(chǔ)設(shè)施(European Life-Science Infrastructure for Biological Information,ELIXIR)。
把生物學(xué)大數(shù)據(jù)的獲取作為主要任務(wù)的“精確醫(yī)學(xué)先導(dǎo)隊(duì)列專(zhuān)項(xiàng)”,需要考慮如何處理海量的生物學(xué)大數(shù)據(jù)。 2015年發(fā)布的該專(zhuān)項(xiàng)實(shí)施計(jì)劃書(shū)共有100多頁(yè),其中近三分之一的篇幅專(zhuān)門(mén)討論了數(shù)據(jù)管理方面的內(nèi)容,提出了源于所有隊(duì)列參與者“核心數(shù)據(jù)集”的概念以及建立存儲(chǔ)這些核心數(shù)據(jù)集的協(xié)調(diào)中心(Coordinating Center)[3]。需要強(qiáng)調(diào)的是,該專(zhuān)項(xiàng)的設(shè)計(jì)者在報(bào)告中提出,“協(xié)調(diào)中心”不是一個(gè)實(shí)體,而是一個(gè)獨(dú)特的單一數(shù)據(jù)使用界面;具體的數(shù)據(jù)存儲(chǔ)和管理可以考慮采用“云計(jì)算環(huán)境”(Cloud Computing Environments);由此需要建立新型的“公共與私立”(Public-Private)關(guān)系以及“學(xué)術(shù)與商業(yè)”(Academic-Commercial)關(guān)系[3]。在“千人基因組計(jì)劃”中,NIH已經(jīng)在探索這種數(shù)據(jù)管理的新模式,即讓亞馬遜公司旗下的云計(jì)算公司“亞馬遜網(wǎng)絡(luò)服務(wù)”負(fù)責(zé)存儲(chǔ)該計(jì)劃的全部數(shù)據(jù)(總量達(dá)200TB)并對(duì)公眾開(kāi)放。顯然,這種策略的一個(gè)出發(fā)點(diǎn)就是調(diào)動(dòng)民間的積極性,從而減輕政府的經(jīng)費(fèi)壓力。但是,面對(duì)“精確醫(yī)學(xué)先導(dǎo)隊(duì)列專(zhuān)項(xiàng)”將產(chǎn)生的海量數(shù)據(jù),如何進(jìn)行管理依然是一個(gè)巨大的挑戰(zhàn)。
結(jié)語(yǔ)
這樣宏大的任務(wù)要想順利完成并達(dá)到預(yù)定目標(biāo),項(xiàng)目的領(lǐng)導(dǎo)人需要具有良好的全局意識(shí),并能夠恰當(dāng)?shù)仄胶夂媒?jīng)費(fèi)、效率和任務(wù)等各種關(guān)鍵要素之間的關(guān)系。為此,NIH在考慮精確醫(yī)學(xué)先導(dǎo)專(zhuān)項(xiàng)的負(fù)責(zé)人時(shí),選擇了一個(gè)通訊領(lǐng)域的工程師迪什曼(E.Dishman)。NIH主任柯林斯這樣評(píng)價(jià)迪什曼:“一名社會(huì)科學(xué)家和研究者、一位企業(yè)家和商業(yè)領(lǐng)袖、一個(gè)患者和患者支持者、一名政策擁護(hù)者和思想領(lǐng)袖?!?span style="color: rgb(136, 136, 136); font-size: 12px;">[6]在其任命后的采訪中,迪什曼也表現(xiàn)出他對(duì)“白象”陷阱的警惕:“如果精確醫(yī)學(xué)先導(dǎo)隊(duì)列項(xiàng)目想要滿(mǎn)足所有人的想法、研究所有看到的疾病、或是去收集人們能夠想象到的所有類(lèi)型的數(shù)據(jù),那么我們注定會(huì)在財(cái)政和智力上雙重破產(chǎn)。”[6]
制版編輯:葉水送丨
參考文獻(xiàn)
[1]吳家睿. 精確醫(yī)學(xué)的主要特征. 醫(yī)學(xué)與哲學(xué).2016 . 37:1—7.
[2] Collins, F.S., Varmus H. A New Initiativeon Precision Medicine. New Engl. J.Med. 2015. 372:793—795.
[3] PrecisionMedicine Initiative (PMI) Working Group. The Precision Medicine InitiativeCohort Program- building a Research Foundation for 21st CenturyMedicine. 2015. https://www.nih.gov/sites/default/files/research-training/initiatives/pmi/pmi-working-group-report-20150917–2.pdf
[4]Wilhelm, M..et al. Mass-spectrometry-based Draft of the HumanProteome. Nature. 2014. 509:582—587.
[5] Chen, R..et al. Personal Omics Profiling Reveals DynamicMolecular and Medical Phenotypes. Cell.2012. 148:1293—1307.
[6]Kaiser, J. Q&A: Tech Expert and Cancer Survivor to LeadU.S. 1-million-person Health Study. Science. 2016. DOI: 10.1126/science.aaf9903.
注:本文原載于《科學(xué)文化評(píng)論》雜志2016年第4期,略有修改。