生命源于不確定的偶然性,演化中的“噪音”造就了多樣性
從猿到人的演化歷程
撰文 | 吳家睿(中科院上海生命科學研究院生化與細胞研究所研究員)
“不確定性”可能是生命與非生命物體最根本的區(qū)別。所有非生命的東西,不管是化學系統(tǒng),還是物理系統(tǒng),大多是確定性的。
盡管生命在分子生物學時代被視為確定性的“機器”,嚴格按照物理和化學的規(guī)律運行。但是在后基因組時代,生命被認為是高度動態(tài)的開放系統(tǒng),具有很大的不確定性。
這種不確定性源自組成生物體的生物大分子及細胞的高度不均一性;源自生命內部各種元件之間非線性的相互作用;源自生物體內部生物大分子數(shù)量和豐度上存在的各種隨機擾動;源自生物體從分子層次把不同分子組裝形成細胞,進而又從細胞層次產生組織器官乃至個體時不斷“涌現(xiàn)”出來的新性質或新功能,即“整體大于部分之和”。
多細胞生物個體最初都是起源于一個細胞;對二倍體生物而言是來自單個的受精卵,這個細胞在個體發(fā)育過程中,一方面以細胞分裂方式進行細胞數(shù)量的擴增,另一方面通過細胞分化的方式增加細胞的類型。例如,在發(fā)育成完整個體的人體中,其體細胞總數(shù)估計有30萬億到60萬億個,而細胞類型則達到200多種。在體細胞擴增的過程中,通常是采用DNA復制機制將親代細胞的基因組完整地復制為兩份拷貝,然后通過有絲分裂的方式再把這兩份拷貝分別完整地傳遞給兩個子代細胞。
因此,經典生物學認為,多細胞生物體的構成滿足兩個“同一性”原則。原則一:個體內所有體細胞的基因組都具有同樣的DNA序列;原則二:個體內同一組織內同一類型細胞都具有同樣的形態(tài)結構和功能。然而,今天的生物學研究卻發(fā)現(xiàn)了諸多違背這兩個同一性原則的生物學現(xiàn)象。
一般認為,細胞內的DNA復制過程屬于“高保真”,細胞會嚴格按照堿基配對原則進行基因組拷貝的合成,即使偶爾在復制過程中出現(xiàn)一點微小錯誤,細胞還準備了若干種修復方法來修正錯誤。據(jù)估計,平均每合成10的10次方個堿基只會產生一個配對錯誤。但是,近年來的研究指出,盡管犯錯的概率非常低,體細胞在其復制過程中依然產生了少量的復制錯誤,并可以隨機傳遞到下一代細胞;需要指出的是,這些隨機產生的復制錯誤可以通過一代代細胞的傳遞積累起來,細胞分裂的次數(shù)越多,其后代細胞內積累的復制突變就越多。
不久前,研究者對正常人體胚胎前腦組織的細胞進行了單細胞全基因組測序,計算出了受精卵起初5次分裂過程中的細胞突變率——每個細胞在每次分裂過程中平均產生1.3個單核苷酸變異(Single Nucleotide Variations,SNVs),導致了在這個發(fā)育階段產生的細胞群體中,每個細胞的基因組里含有平均200—400個單核苷酸變異;研究者還指出,在胚胎發(fā)育的后期,由于氧化損傷作用導致突變率還會進一步增加。
父母遺傳物質的突變會遺傳給下一代,圖片來自alzforum.org
也就是說,正常的胚胎發(fā)育過程所產生的體細胞群體中,不同的體細胞基因組具有許多隨機突變的堿基,使得體細胞群體形成了彼此之間DNA序列不一致的“鑲嵌型”(Mosaicism)基因組。
除了在細胞增殖過程中DNA序列會產生隨機突變,機體內的體細胞在不同的外部環(huán)境影響下通常也會被誘發(fā)各種隨機變異。例如,抽煙會引發(fā)體細胞的基因變異,不久前一項研究系統(tǒng)地分析了抽煙與腫瘤細胞基因組變異的關系,從定性和定量的角度來看,抽煙患者的癌細胞的堿基置換和插入缺失突變等基因變異數(shù)量和種類要明顯高于不抽煙的患者。另外一項研究發(fā)現(xiàn),太陽光中的紫外線照射能夠引起正常人體皮膚的上皮細胞基因組發(fā)生突變,每個體細胞基因組中大約每1百萬堿基平均出現(xiàn)2—6個突變。顯然,這些被外部環(huán)境誘導而隨機形成的體細胞突變,也必然是讓不同體細胞之間產生鑲嵌型基因組序列的一個主要原因。
機體的體細胞群體中不同細胞的基因組之間不僅存在點突變等微小的體細胞突變,而且還廣泛存在著較大的體細胞染色體結構差異,如基因拷貝數(shù)變異(Copy Number Variant,CNV)和大片段基因組DNA缺失或者擴增。通過單細胞測序技術對人腦部額皮質的神經細胞基因組分析發(fā)現(xiàn),13%到41%的神經細胞基因組內含有大量在細胞分裂過程中新產生的CNV。
此外,研究者通過人體皮膚細胞的基因組分析發(fā)現(xiàn),大約30%的人體成纖維細胞的基因組內具有許多體細胞來源的CNV。一項研究工作報道,有絲分離過程通常會導致染色體結構差異,這類染色體不穩(wěn)定性在人類胚胎早期發(fā)育過程中很常見,不僅在受精卵早期分裂階段的各個細胞里發(fā)現(xiàn)了具有非整倍體的基因組,而且在隨后的分裂球的細胞內也可以看到各種大片段基因組DNA缺失或者擴增,表明在人類早期胚胎的體細胞群體中,不同細胞的基因組是高度不均一的鑲嵌型基因組。
研究者發(fā)現(xiàn),導致細胞分裂過程中產生染色體結構差異的主要因素是能夠在基因組內移動的“反轉座子”(Retrotransposon)。在人類基因組的序列中,由名為L1、Alu和SVA的3種類型反轉座子組成的DNA序列超過了50%。研究者利用一種專門針對反轉座子序列的測序技術,分析了人腦不同部位細胞的反轉座子的插入情況,鑒定到7000多條體細胞L1插入,13000多條體細胞Alu插入和1000多條體細胞SVA插入;由于這些反轉座子在編碼基因序列不同位置的插入,導致了腦部體細胞基因組的“鑲嵌性”。
據(jù)估計,大約有44%—63%的正常人腦組織細胞受到反轉座子插入的影響。也就是說,反轉座子在細胞分裂過程中的隨機插入導致了機體各種體細胞普遍攜帶了具有大大小小DNA片段差異的鑲嵌型基因組。
按照發(fā)育生物學的觀點,多細胞生物在其組織和器官形成過程中,每一種特定類型的體細胞通常都是由同一干細胞或祖細胞沿著同一細胞分化路徑產生的;所以在該組織的同一細胞類型中所有細胞應該是高度一致的。根據(jù)這種“細胞同一性”原則,胰島組織中負責分泌胰島素的β細胞群體中的細胞應該是彼此相同的。但是,不久前的一項研究發(fā)現(xiàn),成年小鼠的胰島β細胞可以根據(jù)一種Flattop蛋白的表達與否分為兩個亞群,其中不表達這個蛋白的β細胞數(shù)量占β細胞總數(shù)的20%左右;研究者認為,不表達該蛋白的屬于未成熟的β細胞,因為它們對葡萄糖刺激的響應與表達該蛋白的β細胞相比要差很多。
由此可以看到,組織中同一類型的細胞并不服從細胞同一性原則,每種細胞類型可能都是由高度不均一的細胞群體所組成,表現(xiàn)出組織的細胞鑲嵌性。換句話說,多細胞生物組織上每種類型的細胞群體中不同細胞之間存在著差別,而這種同類細胞間的差別與機體的生理或者病理活動是緊密相關的。
細胞類型的最主要特征是其特定的基因表達譜,不同的細胞類型具有不同的基因表達譜。但是,過去由于研究技術的限制,研究者不能分析同一細胞類型中不同細胞之間的基因表達譜。根據(jù)細胞同一性原則,人們傾向于相信,在同一組織的同一種類型細胞群體中,每個細胞具有的基因表達譜是高度一致的。隨著核酸測序技術的進步,研究者今天能夠在單細胞水平上分析基因表達譜。這種單細胞RNA測序技術為人們認識組織細胞間的不均一性提供了有力的分析工具。
不久前,研究者分析了人體肝組織近10000個單細胞基因表達譜,在2500多個肝實質細胞(Hepatocytes)的3300多個基因的表達中,有41%的基因表現(xiàn)出在肝臟不同空間位置分布的表達差異,表明這些肝實質細胞之間存在著高度的異質性。也就是說,如果我們按照單細胞基因表達譜的差別來劃分細胞種類的話,那么人體的細胞種類就不再是200多種,而將是成千上萬種,甚至更多。
在多細胞生物從胚胎發(fā)育到個體生長、再到個體衰老的過程中,同一細胞類型中的不同細胞也常常會形成不同的差別。我國科學家通過單細胞RNA測序技術對人類胚胎期腎臟發(fā)育過程中的細胞進行了分析,發(fā)現(xiàn)從胚胎早期到晚期的發(fā)育過程中,一類稱為帽狀間質細胞的細胞群體可以分為兩個亞群,一群表現(xiàn)出干細胞自我更新相關的基因表達特征,另一群則表現(xiàn)出腎臟上皮細胞的基因表達特征。
對不同年齡的小鼠免疫細胞的單細胞測序發(fā)現(xiàn),在年輕老鼠的同類型免疫細胞中,各個細胞之間的基因表達譜基本一致,沒有明顯的差異;但在老年鼠的同類型免疫細胞中,各個細胞之間的基因表達差異則明顯增加。這些結果表明,機體的組織細胞的鑲嵌性并不是一種靜態(tài)的特征,而是隨著生命的發(fā)育生長過程進行著動態(tài)的改變。
由此可以看到,隨著研究技術的發(fā)展,尤其是單細胞分析技術的出現(xiàn),研究者對機體中細胞群體的分析精度大為提高,進而認識到傳統(tǒng)觀念——從兩個同一性原則來理解和解釋多細胞生物的細胞構成——過于簡單化。為此,英美科學家牽頭啟動了一個名為人類細胞圖譜的國際大科學計劃,其目標是從分子水平來精確分析和確定人體的所有細胞類型。需要指出的是,這種技術的進步實際上是否定了基于還原論的確定性思維模式,提醒人們要從不確定性的角度認識生命的復雜性——組成個體的體細胞基因組里廣泛存在著許多隨機的變異;而且同一組織細胞類型里不同細胞之間的基因表達譜和蛋白質組分也往往有著許多動態(tài)的差異。
20世紀誕生的分子生物學讓研究者能夠進入到分子層面去研究和理解生命。在那個時代,研究者對生命的研究和理解偏重于定性——發(fā)現(xiàn)基因和蛋白質的類型、分析它們的結構和功能。可事實上,生物大分子的數(shù)量變化是不能被忽略的,細胞里存在的每一種生物大分子都擁有著或多或少的分子拷貝數(shù),例如,肌動蛋白的分子拷貝數(shù)可能達到數(shù)百萬個,而某些轉錄因子的分子拷貝數(shù)可能只有幾十個。可以這樣說,在細胞內不存在只有一個分子拷貝的生物大分子種類;每一種生物大分子在細胞里都是一類分子集合體,即具有一定的濃度,而且濃度及其改變與生命活動是緊密相連的。當我們研究生物大分子的行為和功能時,不僅需要對它們進行定性研究,而且需要進行定量研究。
生物大分子首先在數(shù)量方面存在著隨機的變化,不僅特定的生物大分子有特定的濃度,而且其分子濃度通常是處在動態(tài)變化之中。在細胞里的每一個時刻,總會有一些RNA或者蛋白質分子被降解,同時又總是有一些在合成中。也就是說,一種生物大分子的分子拷貝數(shù)存在著一定的波動。還要強調的是,在同一種生物大分子集合體內,并不是每個分子的活性是完全一樣的,有的分子活性會高一點,有的則可能低一點。造成這種相同分子之間活性差異的原因有很多,化學修飾往往就是一個主要因素;假設有一種mRNA或者蛋白質擁有成百上千個拷貝,如果要對這些分子拷貝上的某個位點進行一個特定的化學修飾,往往在修飾過程中某些分子沒有被修飾上,或者修飾的位點不一樣;這些在修飾過程中存在著差別的分子顯然也可能造成分子活性的差別。
化學修飾造成分子活性差別還比較容易理解,而生物體有時產生分子活性差別的方式會超出人們的預料。過去人們認為,在每次轉錄活動中,按照同一個起始密碼和同一個終止密碼的標準,在同一個基因上合成出來的所有mRNA拷貝(稱為轉錄本)的序列長度應該是一樣的。但是,不久前一項對酵母細胞mRNA鏈的序列分析發(fā)現(xiàn),許多編碼基因竟然出現(xiàn)了這樣的反?,F(xiàn)象——同一個基因表達出來的轉錄本彼此之間核苷酸序列長度有著明顯的差別,平均一個編碼基因可以產生26種序列長短不一的轉錄本“同型物”(Isoforms);以至于研究者這樣總結道:同一個基因轉錄本長短不一的現(xiàn)象看起來是一種規(guī)律而不是一個例外。
這種生物大分子組分在數(shù)量和活性上具有的隨機波動性被稱為“生物學噪音”(Biological Noise),主要表現(xiàn)在基因轉錄和蛋白質翻譯過程中。研究者發(fā)現(xiàn),在原核細胞中,噪音對基因轉錄的影響不大,主要是影響蛋白質的合成水平;而在真核細胞中,噪音則可以顯著地影響基因表達水平。通常把生物學噪音的來源分為兩種:外在噪音(Extrinsic Noise)和內在噪音(Intrinsic Noise)。前者主要是由于同一種類細胞之間全局性的“個體差異”所導致的基因表達水平和蛋白質合成水平的波動。后者則是指細胞內基因轉錄和蛋白質翻譯等生物學反應中產生的隨機擾動,如啟動子激活和滅活時間響應的快慢差異,或者合成反應和降解反應的速率差異等;這些內在噪音也同樣也能夠導致mRNA或者蛋白質豐度的隨機變化。
生物學噪音導致的一個重要生物學現(xiàn)象就是,基因表達水平與蛋白質合成水平之間的數(shù)量關系屬于相關性不高的非線性關系。過去人們認為這二者的豐度變化關系是線性的,即基因轉錄產生的mRNA拷貝數(shù)多,則相應的蛋白質合成水平就高;反之,前者少的時候后者也少。但是,在對酵母細胞、大鼠和人體肝細胞等不同種類生物體的轉錄組和蛋白質組分析中,研究者觀察到,mRNA表達水平和相應的蛋白質豐度之間的相關性并不高。
不久前,一項對大腸桿菌的單分子研究發(fā)現(xiàn),基因表達水平和蛋白質表達水平一方面受到不同細胞間整體差異之外部噪音的影響,另一方面還受到細胞的內部噪音的影響,導致二者的濃度呈現(xiàn)非線性關系;研究者由此得出這樣一個結論:“對任何一個給定的基因而言,在單個細胞內的蛋白質拷貝數(shù)和mRNA拷貝數(shù)之間沒有相關性”。這種非線性關系為確定細胞類型和研究細胞功能帶來了挑戰(zhàn)?,F(xiàn)在的細胞分型基本是利用單細胞轉錄組測序技術發(fā)現(xiàn)的基因表達差異來確定,如果同時測量其相應的蛋白質表達水平,發(fā)現(xiàn)二者的豐度關系不一致甚至是相反時,又應該按照什么標準來進行細胞的分型?
“噪音”通常被視為一個帶有負面含義的詞。對生命而言,它意味著在基因轉錄和蛋白質翻譯等重要的生命活動中存在著一種不確定性的擾動,對生命是沒有好處的,應該要被消除的。但是,現(xiàn)有的研究表明,生命中的噪音不僅難以消除,而且對生命也有著積極的意義,常常具有許多重要的生物學功能。一般而言,在DNA復制過程中,生物學噪音往往引發(fā)隨機突變的產生,為生命的演化提供原材料;在細胞信號轉導過程中,生物學噪音可以利用細胞的正反饋機制來放大信號,從而幫助細胞做決定;生物學噪音在生物體的節(jié)律性(生物鐘)的調控方面也扮演了重要的角色。
此外,雖然生物學噪音可以由細胞間的差異產生,但生物學噪音同時可以用來維持和加強細胞的個體差異特征;最近一篇文章系統(tǒng)地總結了植物細胞里基因表達噪音的生物學功能,指出基因表達噪音能夠幫助植物在發(fā)育和生長過程中產生不同類型的細胞,同時還允許一部分植物細胞隨機進入環(huán)境應激準備狀態(tài),進而為植物提供了一種應對環(huán)境變化的新型適應機制。德國研究者不久前發(fā)展了一種新型的算法,可根據(jù)單細胞RNA測序數(shù)據(jù)對基因表達變異進行定量分析,能夠在不同細胞類型或細胞狀態(tài)的細胞混合物中,揭示出參與細胞狀態(tài)轉換的轉錄因子噪音活性;利用該方法確定了小鼠骨髓中控制血細胞發(fā)育的重要轉錄因子的基因表達噪音是如何調節(jié)細胞命運的。當前,對生物學噪音的認識及其對生命活動影響的研究正在成為一個新的科學前沿,有研究者甚至稱之為“噪音生物學”(Noise Biology)。
拉普拉斯(Pierre-Simon Laplace)
19世紀的法國數(shù)學家拉普拉斯(Laplace PS)是科學史上倡導決定論的著名人物;他于1814年提出了“拉普拉斯妖”的假設:如果一個智者知道宇宙中每一個原子確切的位置和動量,并能夠對這些數(shù)據(jù)進行分析,就能夠用物理定律來展現(xiàn)宇宙中所有事件的全過程,從過去到未來?;谶€原論的生物學可以比喻為“拉普拉斯妖”在生命研究領域的翻版——生命是一架嚴格遵循物理化學規(guī)律的決定論機器,只要知道的信息足夠多、足夠精確,就可以認識和控制生命的一切活動,就能夠消滅危害人類的所有疾病??梢哉f,在分子生物學基礎上搭建起來的現(xiàn)代生命科學“生活”在一個決定論的世界里面,研究的目的就是要找到生命現(xiàn)象背后的確定性。在生物學中通常把這種確定性稱為“機制”(Mechanism)。
圖片來自ck12.org
但是,縱觀地球上生命的發(fā)展過程,卻是一部充滿了偶然性和創(chuàng)造性的演化史;生物體作為一個開放的非線性復雜系統(tǒng),通過不斷與充滿不確定性的環(huán)境進行相互作用,從早期最簡單的原核細胞形式涌現(xiàn)出了今天如此豐富多彩的生命樣式。從這個意義上說,生物學面臨的最大挑戰(zhàn)是,來自研究者的決定論思維與生命的偶然性特征之間的沖突。
《生物學是什么》由吳家睿撰寫,北京大學出版社出版
注:本文來自《生物學是什么》,圖片為編者所加。文章略有改動,參考文獻略去,具體的文獻來源,請見書籍。
制版編輯 | Morgan