蝙蝠會(huì)告訴我們哪個(gè)新冠病毒更古老嗎?
pixabay.com
撰文 | 吳 蕾
責(zé)編 | 陳曉雪
● ● ●
2020年4月8日,一篇新冠病毒 (SARS-CoV-2) 群體遺傳學(xué)的論文在《美國科學(xué)院院刊》 (PNAS) 上線 ,來自德國法醫(yī)遺傳學(xué)研究所等單位的 Peter Forster 等人對(duì)病毒基因組序列進(jìn)行了進(jìn)化分析,結(jié)果顯示以東亞地區(qū)病毒為主體的病毒類群并不是最古老的。有媒體將其解讀為新冠病毒起源于美國和澳大利亞。這里,本文嘗試從學(xué)術(shù)角度探討該論文的數(shù)據(jù)代表性和分析方法可能存在的問題。
Forster等的主要證據(jù)
在該論文唯一的一幅圖里,F(xiàn)orster 等人展示了新冠病毒的單倍型網(wǎng)絡(luò) (haplotype network) 。他們將新冠病毒分為A、B、C三個(gè)類群 (由紅圈標(biāo)記的字母所示) ,發(fā)現(xiàn)東亞地區(qū)的病毒樣本大多在B類群,而歐美和澳大利亞則多為A類群。他們將蝙蝠攜帶的冠狀病毒序列(RaTG13)同樣置于該單倍型網(wǎng)絡(luò),并與這三個(gè)類群的新冠病毒進(jìn)行比較,發(fā)現(xiàn)A類群在序列上距離RaTG13最近。科學(xué)界普遍接受蝙蝠是冠狀病毒的自然宿主之一,因此作者認(rèn)為A類群的新冠病毒更為古老。
單倍型網(wǎng)絡(luò)分析是一種基于基因序列推測進(jìn)化關(guān)系的方法。本圖中,每個(gè)節(jié)點(diǎn)為一種病毒序列,節(jié)點(diǎn)越大說明該病毒序列在已測序的樣本中數(shù)目越多,節(jié)點(diǎn)內(nèi)部的餅圖則反映樣本的國家或地區(qū)來源比例;節(jié)點(diǎn)之間的連線長度則反映了從一條序列進(jìn)化為另一條序列所需要的突變數(shù)目。
原文分析病毒樣本數(shù)目過小
Forster 等人將全球各地的新冠病毒分為了三個(gè)類群。這個(gè)分類合適嗎?
在回答這一問題之前,不妨先了解一下中科院北京基因組所國家基因組科學(xué)數(shù)據(jù)中心繪制的單倍型網(wǎng)絡(luò)。該中心提供的最新數(shù)據(jù)如下圖所示。
來自于國家基因組科學(xué)數(shù)據(jù)中心,圖的下方展示了病毒樣品的采集時(shí)間。錄制于2020年4月11日。
來自于國家基因組科學(xué)數(shù)據(jù)中心的單倍型網(wǎng)絡(luò)翔實(shí)程度遠(yuǎn)勝于 Forster 等人的文章,更重要的是該網(wǎng)絡(luò)可以按照樣品的采集時(shí)間展示單倍型網(wǎng)絡(luò)模式經(jīng)歷的劇烈變化。目前的單倍型網(wǎng)絡(luò)與Forster等人文章中的截然不同。這并不意外,因?yàn)镕orster等人的文章上線之時(shí) (2020年4月8日) ,GISAID 數(shù)據(jù)庫的新冠病毒基因組序列有大約4800條,而Forster等人只分析了其中早期的160條 (約 3%) 。即使時(shí)間前推至該文章送審的3月17日,當(dāng)時(shí)GISAID數(shù)據(jù)庫的序列也已超過了800條 (Forster等分析了其中不到20%) ;更何況在文章修回和正式上線之前,作者始終都有機(jī)會(huì)更新數(shù)據(jù)。
那么,160個(gè)早期的病毒樣品是否已經(jīng)有了足夠的代表性追溯病毒的起源了呢?如果我們相信早期的病毒樣品都采集齊全時(shí)確實(shí)可以。然而,我們今天仍然存在著對(duì)病毒更古老類群的討論,恰恰是因?yàn)閾?dān)心早期的樣本沒有采集齊全。
RaTG13無法幫助確定哪個(gè)新冠病毒更古老
即便假設(shè) Forster 等人的文章將新冠病毒劃分為A、B、C三個(gè)類群是站得住腳的,那么,主要流行于歐美和澳大利亞地區(qū)的A類群病毒是否更為古老?Forster 等人給出了肯定的答案,他們的依據(jù)是在單倍型網(wǎng)絡(luò)中A類群更靠近蝙蝠來源的病毒序列 RaTG13。
事實(shí)上,RaTG13 并不能對(duì)新冠病毒內(nèi)部的進(jìn)化關(guān)系進(jìn)行區(qū)分。
為什么這么說?
RaTG13 確實(shí)是目前已知進(jìn)化上距離新冠最近的病毒,然而其與新冠病毒的基因組差異仍然達(dá)到約4%——這比人和黑猩猩DNA序列的差異還要大。4%大致對(duì)應(yīng)于 RaTG13 與新冠病毒1200個(gè)堿基的差異,而目前已測序的大多數(shù)新冠病毒之間的差異不足10個(gè)堿基。根據(jù)新冠病毒每年約24個(gè)堿基的變化來推斷,RaTG13 大致在25年前就已經(jīng)與新冠病毒分道揚(yáng)鑣了。這對(duì)于新冠這樣一個(gè)迅速繁殖的病毒來說,是一個(gè)極其“漫長”的進(jìn)化過程。
值得注意的是,在 Forster 等的文章配圖中,不知出于什么考慮將RaTG13 置于與A類群僅相差17個(gè)突變的位置。這可能會(huì)讓讀者產(chǎn)生RaTG13 的序列與新冠病毒差異不大的錯(cuò)覺。
也許有人會(huì)認(rèn)為,圖中少畫一些差異堿基,并不影響得出“A類群距離蝙蝠來源病毒更近”的結(jié)論。這聽上去好像也有些道理,但實(shí)際情況卻并非如此簡單。
想象一下你站在一條筆直的馬路上,身邊有兩個(gè)電線桿。從現(xiàn)在的視角看來,兩個(gè)電線桿界限分明;但隨著你沿馬路越走越遠(yuǎn),再回望時(shí)會(huì)發(fā)現(xiàn)兩個(gè)電線桿在你的視野中越靠越近;當(dāng)你走出肉眼分辨率的極限之后,兩個(gè)電線桿在你眼中成了同一片模糊的區(qū)域——因此,如果要對(duì)事物進(jìn)行區(qū)分,需要選擇合適的觀測尺度。
使用RaTG13判斷目前已采集的這幾千個(gè)新冠病毒誰更古老,恰恰就是超出了合適的尺度。 具體而言,在下面的這個(gè)進(jìn)化樹中,每條黑線的末端都是一個(gè)病毒樣品,樣品的名稱標(biāo)記在了黑線的延長線上 (字很小,但不是線,線都在圓心位置附近) ,黑線的長度則反映了基因組序列的差異程度。出現(xiàn)在進(jìn)化樹底部的是 RaTG13;其他的是新冠病毒,它們由于序列過于相近而聚集在一起??梢钥闯?,蝙蝠來源的序列與新冠病毒的差異實(shí)在太遠(yuǎn),以至于 “站在” RaTG13 的位置已經(jīng)無法對(duì)新冠病毒內(nèi)部的進(jìn)化關(guān)系進(jìn)行區(qū)分。
##擴(kuò)展閱讀
(如果不希望了解細(xì)節(jié)可以跳過)
在較小的進(jìn)化尺度上,突變是偶然事件,兩個(gè)病毒共享一個(gè)突變往往意味著它們擁有共同的祖先或者 “親緣” 關(guān)系更近——這也是進(jìn)化樹構(gòu)建的基本原理。但是基因組中存在一些特別容易出現(xiàn)突變的區(qū)域,稱為突變熱點(diǎn)(mutation hotspot)。一旦超出了一定的進(jìn)化尺度,在親緣關(guān)系較遠(yuǎn)的個(gè)體中,突變熱點(diǎn)就有可能獨(dú)立產(chǎn)生出現(xiàn)同樣的突變(被稱為反復(fù)突變,recurrent mutation)。然而,在對(duì)基因組序列進(jìn)行進(jìn)化分析的時(shí)候,我們不知道序列的相似性究竟來源于共同祖先還是反復(fù)突變,仍然會(huì)按照它們擁有共同祖先推斷親緣關(guān)系,這就會(huì)產(chǎn)生錯(cuò)誤。
在分子進(jìn)化領(lǐng)域有一個(gè)專業(yè)詞匯“長枝吸引效應(yīng)”(long branch attraction),就是描述這種由于進(jìn)化距離過于遙遠(yuǎn)導(dǎo)致錯(cuò)誤推斷進(jìn)化關(guān)系的情況。由于長枝吸引效應(yīng)的存在,用于構(gòu)建進(jìn)化樹的序列不應(yīng)在進(jìn)化距離上存在巨大的差異(都長也可以,都短也可以,但是不能長短不一),否則可能嚴(yán)重影響其可信度。
Forster等人使用RaTG13作為 “外群” 的研究中,就很可能受到反復(fù)突變的影響,原因是新冠這個(gè)RNA病毒確實(shí)存在突變熱點(diǎn):如下圖所示,在Forster等的文章配圖中多次出現(xiàn)四個(gè)點(diǎn)四個(gè)邊連接的封閉四邊形,這就是在過去幾個(gè)月中同一突變獨(dú)立發(fā)生于不同病毒個(gè)體上的證據(jù)。這種多次獨(dú)立發(fā)生的同一突變?cè)诟蟮某叨壬暇蜁?huì)對(duì)進(jìn)化關(guān)系的推斷造成干擾,甚至導(dǎo)致錯(cuò)誤。
##擴(kuò)展閱讀結(jié)束
文章畢竟通過了同行評(píng)議并發(fā)表在了主流期刊上?
無可否認(rèn),PNAS 是學(xué)術(shù)界的主流期刊,因此文章能夠發(fā)表在該刊物常常也可以為其學(xué)術(shù)的嚴(yán)謹(jǐn)性背書。然而,PNAS 的審稿機(jī)制存在一些與眾不同的地方。
正如該期刊名稱《美國科學(xué)院院刊》所反映的,PNAS 在1914年創(chuàng)建之初就是作為美國科學(xué)院院士的出版場所而存在的——院士署名貢獻(xiàn)的文章 (contributed) 或者院士出面 “溝通” (communicated) 的文章才能得以發(fā)表。直到1995年,PNAS才開始試行普通作者的直接提交 (direct submission) 。院士出面溝通的論文發(fā)表方式至2010年中止,但是院士目前仍然可以以通訊作者 (或共同通訊作者) 的身份向PNAS提交論文,并指定至少兩位學(xué)者作為公開的評(píng)閱人 (也就是說評(píng)閱人名字會(huì)在發(fā)表的文章中公布) 。PNAS 大約25%的文章屬于這一類別。如下圖所示,F(xiàn)orster 等人的文章就是這其中之一。
Colin Renfrew為英國劍橋大學(xué)的考古學(xué)家,也是美國科學(xué)院外籍院士。
PNAS 這一制度當(dāng)然有其積極的意義:如果一篇文章由于超前于時(shí)代難以通過正常的同行評(píng)議發(fā)表,這一機(jī)制將是讓該學(xué)術(shù)思想獲得廣泛傳播的一種途徑。但同時(shí)也存在一些隱患,可能讓本來不夠嚴(yán)謹(jǐn)?shù)难芯康靡匝杆侔l(fā)表。
在制度上,PNAS 要求貢獻(xiàn)文章的院士需是該文章所在領(lǐng)域的專家。然而,貢獻(xiàn) Forster 等人這篇文章的美國科學(xué)院外籍院士 Colin Renfrew 是英國考古學(xué)家和古生物學(xué)家,以放射性碳定年、史前語言和防止考古現(xiàn)場的掠奪性挖掘方面的工作而聞名 。
文章上線后同行評(píng)論以負(fù)面為主
Forster 等人文章上線后受到了同行的普遍質(zhì)疑。英國愛丁堡大學(xué)的Andrew Rambaut是分子進(jìn)化方法學(xué)以及病毒進(jìn)化領(lǐng)域的國際知名專家 (Hindex 高達(dá)115——有115篇論文被引用了至少115次) 。他評(píng)論到:“這篇文章存在很多嚴(yán)重的錯(cuò)誤,包括它的內(nèi)容、結(jié)果和發(fā)表的途徑。”
他指出, “第一個(gè)錯(cuò)誤在于使用蝙蝠冠狀病毒 RaTG13 對(duì)新冠病毒的進(jìn)化樹進(jìn)行定根。這雖然是最接近新冠病毒的 ‘非人類’ 病毒,但與新冠病毒仍然有1100個(gè)核苷酸以上的差異。注意, (Forster等人文章的圖中) 蝙蝠病毒所在的進(jìn)化枝不知為何比實(shí)際要短一些?!?/p>
新冠病毒進(jìn)化的權(quán)威網(wǎng)站 Nextstrain [5] 負(fù)責(zé)人 Trevor Bedford 同樣對(duì)文章表達(dá)不滿:“這不是一篇好文章,沒有比幾周前就已經(jīng)有人完成了的工作多出什么內(nèi)容。A、B、C類群的劃分不但太簡化、有誤導(dǎo)性,而且也是錯(cuò)的……”
寫在最后
如果蝙蝠冠狀病毒 RaTG13 不能用于確定病毒的祖先,那還有什么其他辦法嗎?
首先,如果我們能找到新冠病毒的中間宿主并分離出其攜帶的冠狀病毒,將有很大機(jī)會(huì)通過進(jìn)化遺傳學(xué)方法判斷新冠病毒的祖先。其次,截至2020年4月12日23點(diǎn),已有6365條新冠序列提交到GISAID數(shù)據(jù)庫 [4] 。這些序列可以用于根據(jù)進(jìn)化的分子鐘推測病毒在人群中開始擴(kuò)散的時(shí)間,原理詳見《賽先生:缺乏早期樣品,還能追溯回病原體擴(kuò)散的第一天嗎?》。第三,對(duì)于新冠病毒,旅行記錄在一定程度上也可以為單倍型網(wǎng)絡(luò)的連線賦予進(jìn)化方向,輔助祖先的推測。
需要說明的是,病毒起源的定義在不同的語境下常常極其模糊。病毒像其他生物一樣,在隨機(jī)突變的不斷積累中進(jìn)化。如果一個(gè)病毒原本就在人群中存在一定程度的傳播,在某一時(shí)刻突變獲得了迅速擴(kuò)散的能力并導(dǎo)致了肺炎的癥狀,那么這個(gè)病毒開始感染人類的時(shí)間和地點(diǎn)與在人群中暴發(fā)的時(shí)間和地點(diǎn)就并不相同。在這種情況下,病毒究竟應(yīng)該算起源于何時(shí)何地呢?
在這個(gè)意義上,新冠病毒的恐怖之處不止于對(duì)人類身體的摧殘,更在于其對(duì)精神的割裂。武漢同胞即使已經(jīng)為戰(zhàn)勝疫情做出了巨大的犧牲,但在很多地方仍然遭受區(qū)別對(duì)待;國家、地區(qū)或人群的名字依然被用作病毒的定語。我們反對(duì) “中國病毒” 的稱呼,同時(shí),我們也需要反思并糾正其他將地名與病原菌或疾病相聯(lián)系的命名,例如 “西班牙流感”、“埃博拉病毒”、“寨卡病毒”、“中東呼吸綜合征”……
注:作者吳蕾為中國科學(xué)院大學(xué)研究生。本文部分來源于研究生課程《群體遺傳與分子進(jìn)化》的授課內(nèi)容。