? 午夜dv内射一区区,性少妇vide0exfreexxx片性少妇√,忘记穿内裤被同桌c到高潮

亚洲 a v无 码免 费 成 人 a v,性欧美videofree高清精品,新国产三级在线观看播放,少妇人妻偷人精品一区二区,天干天干天啪啪夜爽爽av

王立銘:人工智能預(yù)測(cè)蛋白結(jié)構(gòu)再獲突破,意味著什么? | 巡山報(bào)告

2020/12/06
導(dǎo)讀
大力出奇跡?




編者按



最近,DeepMind 開(kāi)發(fā)的程序 AlphaFold 在一個(gè)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)大賽中奪得冠軍,并將蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)做到了基本接近實(shí)用的水平。

這一事件對(duì)生命科學(xué)的發(fā)展意味著什么?人工智能的發(fā)展對(duì)于人類理解世界的方式有何影響?且看 “智識(shí)前沿學(xué)者”、浙江大學(xué)教授王立銘今日 “生命科學(xué)·巡山報(bào)告”。


讓別人替你運(yùn)動(dòng),也能延緩衰老?

造假、剽竊和榮譽(yù):何謂科學(xué)研究 

吃啥補(bǔ)啥,心誠(chéng)則靈與針灸的最新生物學(xué)解釋 

靈魂出竅,科學(xué)上終于有了新解釋?

讓你好吃懶做的 “節(jié)儉基因”,真的存在嗎?


撰文 | 王立銘


●            ●            


大家好,我是王立銘。2020年12月6日,生命科學(xué)·巡山報(bào)告又和大家見(jiàn)面了。

 

說(shuō)起來(lái)有點(diǎn)慚愧,剛過(guò)去的這個(gè)月,生命科學(xué)領(lǐng)域值得專門(mén)拿出來(lái)講的重大新聞似乎不多,我本來(lái)以為這期巡山能偷個(gè)小懶。結(jié)果在11月的最后一天,居然從天而降了一個(gè)可能是本年度、甚至是最近十年最重要的生命科學(xué)突破。

 

所以,今天這期巡山報(bào)告,我還是得打起12分精神,和你聊聊這個(gè)話題。

 

簡(jiǎn)單來(lái)說(shuō),2020年11月30日,谷歌旗下的人工智能公司 DeepMind 開(kāi)發(fā)的程序AlphaFold2,在2020年度的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)大賽CASP14中,取得了驚人的好成績(jī)。不僅力壓世界范圍內(nèi)參賽的100多個(gè)團(tuán)隊(duì),獲得冠軍,還有史以來(lái)第一次把蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)這個(gè)任務(wù),做到了基本接近實(shí)用的水平。

 

說(shuō)起 DeepMind,你應(yīng)該不陌生。你大概還記得曾經(jīng)橫掃棋壇、并且戰(zhàn)勝人類排名第一的棋手柯潔的圍棋程序——AlphaGo。長(zhǎng)久以來(lái),圍棋被看作是人類發(fā)明的最復(fù)雜、最具開(kāi)放性的智力游戲,很多人預(yù)測(cè),計(jì)算機(jī)在幾百年時(shí)間內(nèi)都不可能在圍棋上戰(zhàn)勝人腦。但在2017年,橫空出世的AlphaGo讓很多人真正意識(shí)到了人工智能和深度學(xué)習(xí)的強(qiáng)大力量。AlphaGo也是這家叫 DeepMind 的公司開(kāi)發(fā)的。

 

和AlphaGo名字類似的 AlphaFold2 又是何方神圣呢?我猜,這幾天你從新聞上已經(jīng)看到不少介紹了,不過(guò)我的感覺(jué)是,大部分介紹都沒(méi)說(shuō)到點(diǎn)子上,光顧著激動(dòng)了。這期巡山,你不妨先把最近看到的那些信息都忘了,我們從頭開(kāi)始,把這件事的來(lái)龍去脈和價(jià)值說(shuō)清楚。



1

蛋白質(zhì)折疊:

生物學(xué)最核心的未知問(wèn)題之一

首先,我們看看AlphaFold2解決的到底是什么問(wèn)題。

 

剛才說(shuō)了,它的目標(biāo)是蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)。在我看來(lái),這可能是整個(gè)生命科學(xué)領(lǐng)域最重要的三個(gè)問(wèn)題之一。其他兩個(gè),我認(rèn)為分別是生命的起源問(wèn)題,和人類大腦的工作原理問(wèn)題。

 

“蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)”,聽(tīng)起來(lái)有點(diǎn)專業(yè),外人也不那么容易理解它的意義。如果說(shuō)得大一點(diǎn)兒,這個(gè)問(wèn)題關(guān)系到遺傳信息的本質(zhì)是什么,遺傳信息是如何流動(dòng)、如何影響地球生命的各種特性的。

 

你大概聽(tīng)說(shuō)過(guò)生物學(xué)里所謂的 “中心法則”。在充滿例外的生命科學(xué)領(lǐng)域, “中心法則” 幾乎是唯一一個(gè)被冠以 “法則” 之名的規(guī)律,重要性可想而知。

 

中心法則說(shuō)的是,在地球生物世代繁衍的過(guò)程中,上一代生物會(huì)把自身攜帶的遺傳物質(zhì),也就是DNA分子,照原樣復(fù)制一份,傳遞到后代體內(nèi),一代代傳遞下去,永無(wú)止境。而在每一代生物從生到死的過(guò)程中,這套DNA分子能以自身為設(shè)計(jì)藍(lán)圖,指導(dǎo)生產(chǎn)大量的微型分子機(jī)器,也就是各種蛋白質(zhì)分子,執(zhí)行各種各樣的生物學(xué)功能,共同支持每一代生物的生存和活動(dòng)。

 

本質(zhì)上說(shuō),中心法則指明了遺傳信息的兩個(gè)流動(dòng)方向:

 

一個(gè)方向是在世代之間,DNA通過(guò)DNA-->DNA的自我復(fù)制,持續(xù)一代代傳遞,保證上一代和下一代之間攜帶的遺傳物質(zhì)非常接近,因此也呈現(xiàn)出高度的相似性。在這個(gè)過(guò)程中,隨機(jī)出現(xiàn)的基因突變,會(huì)讓每一代生物出現(xiàn)微小的差異,自然選擇和生物進(jìn)化也得以實(shí)現(xiàn)。另一個(gè)方向是在同一個(gè)生物體內(nèi)的每一個(gè)細(xì)胞中,DNA通過(guò)RNA分子指導(dǎo)蛋白質(zhì)生產(chǎn)(DNA-->RNA-->蛋白質(zhì)),讓各種具體的生物活動(dòng)得以開(kāi)展。

 

從上個(gè)世紀(jì)五六十年代至今,中心法則的很多技術(shù)細(xì)節(jié)都得到了深入研究。我大概數(shù)了下,在半個(gè)多世紀(jì)中,至少有二三十個(gè)諾貝爾獎(jiǎng)和中心法則相關(guān)。DNA分子如何實(shí)現(xiàn)自我復(fù)制和自我修復(fù),DNA如何指導(dǎo)RNA的生產(chǎn),RNA如何被剪切和拼接,RNA如何指導(dǎo)蛋白質(zhì)的組裝,蛋白質(zhì)分子如何被降解等等。有意思的是,搞清楚中心法則的技術(shù)細(xì)節(jié)能得獎(jiǎng),找到中心法則的反例也能得獎(jiǎng)。這樣的例子也挺不少。

 

但是,在中心法則的完整圖景里,有一個(gè)最大的空白、一個(gè)最關(guān)鍵的遺留問(wèn)題,就是蛋白質(zhì)分子機(jī)器到底是怎么組裝完成、開(kāi)展工作的。

 

我們現(xiàn)在知道,DNA分子指導(dǎo)蛋白質(zhì)分子生產(chǎn)的原則很簡(jiǎn)單,DNA鏈條上三個(gè)相鄰的堿基分子,對(duì)應(yīng)蛋白質(zhì)分子中一個(gè)特定的氨基酸分子。比如,ATG三個(gè)堿基對(duì)應(yīng)的就是甲硫氨酸,GAG對(duì)應(yīng)的就是谷氨酸,等等。忽略掉所有技術(shù)細(xì)節(jié),你可以這么想象:在細(xì)胞內(nèi)部,一條300個(gè)堿基長(zhǎng)度的DNA鏈條,能指導(dǎo)生產(chǎn)出一個(gè)蛋白質(zhì)分子,也就是由100個(gè)氨基酸首尾相連組成的鏈條。

 

DNA分子作為遺傳信息的載體,它的物理結(jié)構(gòu)可以認(rèn)為是無(wú)關(guān)緊要的,是拉成一條直線、團(tuán)成一團(tuán)毛線球,還是干脆抄寫(xiě)下來(lái)存在筆記本里,只要這300個(gè)堿基的名稱和先后順序不亂,它記載的信息就始終是完整的、不變的。但蛋白質(zhì)分子則不然。這個(gè)由100個(gè)氨基酸組成的鏈條,一定要在細(xì)胞中折疊、扭曲、纏繞成某個(gè)特殊的三維結(jié)構(gòu),才能開(kāi)始工作。

 

我類比一下你就明白了。比如你要生產(chǎn)小轎車,設(shè)計(jì)圖紙是打印出來(lái)還是存在電腦里,是攤平放還是卷成卷,是紅色墨水寫(xiě)還是藍(lán)色墨水寫(xiě),其實(shí)都無(wú)關(guān)緊要。但是在生產(chǎn)過(guò)程中,每一個(gè)零件,從發(fā)動(dòng)機(jī)到雨刷器,都必須被嚴(yán)格的放置在特定的位置,按照特定的方式組裝起來(lái),小轎車才能正常工作。

 

那真正的問(wèn)題就變成了,蛋白質(zhì)分子怎么知道如何形成某個(gè)特定的三維結(jié)構(gòu)呢?我們還是說(shuō)那個(gè)由100個(gè)氨基酸組成的鏈條,在形成三維結(jié)構(gòu)的過(guò)程里,它怎么知道每個(gè)氨基酸應(yīng)該出現(xiàn)在什么位置,需要和哪幾個(gè)氨基酸靠近呢?

 

早在上個(gè)世紀(jì),人們就做出了正確的猜測(cè)。簡(jiǎn)單來(lái)說(shuō),這些空間位置信息,就蘊(yùn)含在蛋白質(zhì)分子自身當(dāng)中。說(shuō)得更具體一點(diǎn),組成蛋白質(zhì)的氨基酸分子一共有20種,它們有的帶正電荷,有的帶負(fù)電荷,有的大一點(diǎn),有的小一點(diǎn),有的喜歡結(jié)合水分子,有的討厭水分子。因此,蛋白質(zhì)一旦被生產(chǎn)出來(lái),組成它的氨基酸就會(huì)根據(jù)上面這些不同屬性,開(kāi)始移動(dòng)和組合。

 

這個(gè)過(guò)程有點(diǎn)像磁鐵組裝玩具,拿一堆零件放一起晃一晃,它們就能自己吸附在一起形成一大坨。當(dāng)然,蛋白質(zhì)分子里那些氨基酸分子的順序和特性,保證它在大多數(shù)時(shí)候能扭曲折疊得一模一樣,批量生產(chǎn)出好用的蛋白質(zhì)分子機(jī)器。

 

這個(gè)猜測(cè)在1950年代被美國(guó)科學(xué)家 Christian Anfinsen 用實(shí)驗(yàn)手段證明。Anfinsen發(fā)現(xiàn),即便用化學(xué)方法人為破壞蛋白質(zhì)分子的三維結(jié)構(gòu),但只要洗掉這些干擾,蛋白質(zhì)分子就能自己重新扭曲折疊成完全一樣的三維結(jié)構(gòu)。DNA分子的堿基順序,決定了蛋白質(zhì)分子的氨基酸順序,也決定了蛋白質(zhì)分子的三維結(jié)構(gòu)和生物學(xué)功能,因此成為共識(shí)。

 

但是,這么說(shuō)并沒(méi)有解決全部的問(wèn)題。理論上我們已經(jīng)知道,蛋白質(zhì)分子能自己決定扭曲折疊成什么樣子,但是我們實(shí)際上并不知道蛋白質(zhì)分子是如何做到這一點(diǎn)的。要知道,一個(gè)100個(gè)氨基酸的蛋白質(zhì)分子,這100個(gè)氨基酸在三維空間上的排列組合方式幾乎是無(wú)窮無(wú)盡,一種一種嘗試的話,可能試到宇宙盡頭也找不到正確的那一種。真實(shí)世界里的蛋白質(zhì),怎么做到幾乎是瞬間就能扭曲折疊到最合適的位置的呢?

 

說(shuō)到這里,我想你應(yīng)該能明白為什么我說(shuō)蛋白質(zhì)折疊是生物學(xué)最大的三個(gè)未知問(wèn)題之一了。

 

首先,它關(guān)系到代代相傳的遺傳信息,到底是怎么指導(dǎo)生命活動(dòng)的。其次,它有很強(qiáng)的應(yīng)用價(jià)值。因?yàn)榻^大多數(shù)藥物都是通過(guò)結(jié)合特定的蛋白質(zhì)來(lái)起作用的,如果能搞清楚蛋白質(zhì)分子怎么折疊、三維結(jié)構(gòu)長(zhǎng)什么樣,我們就能更方便的設(shè)計(jì)出專門(mén)結(jié)合它的藥物來(lái)治療疾病。最后,當(dāng)然是因?yàn)檫@個(gè)問(wèn)題非常非常非常非常的難。

 

2

解決蛋白質(zhì)折疊問(wèn)題的傳統(tǒng)思路


如此重要的問(wèn)題,當(dāng)然吸引了大量科學(xué)家的注意,在過(guò)去幾十年時(shí)間里,也取得了一些不錯(cuò)的進(jìn)展。這里簡(jiǎn)單回顧一下。

 

一個(gè)最容易想到、也最早取得突破的思路,是干脆通過(guò)實(shí)驗(yàn)的手段 “看到” 蛋白質(zhì)分子的三維結(jié)構(gòu)——不管這個(gè)結(jié)構(gòu)是怎么來(lái)的,先搞清楚它長(zhǎng)什么樣子再說(shuō)。

 

1959年,英國(guó)科學(xué)家 Max Perutz 利用X射線衍射的方法——你可以通俗理解成用X射線照射蛋白質(zhì)分子,然后根據(jù)射線被散射的角度推測(cè)電子的位置——解析了肌紅蛋白分子的三維結(jié)構(gòu)。這是人類歷史上第一次徹底看清蛋白質(zhì)分子機(jī)器的細(xì)節(jié)。

 

在那里之后直到今天,有超過(guò)17萬(wàn)個(gè)蛋白質(zhì)分子的結(jié)構(gòu)被解析出來(lái)。除了X射線衍射之外,核磁共振以及最近火熱的冷凍電子顯微鏡技術(shù)也發(fā)揮了重要作用。半個(gè)多世紀(jì)以來(lái),研究蛋白質(zhì)結(jié)構(gòu)的相關(guān)工作也已經(jīng)拿過(guò)20多項(xiàng)諾貝爾獎(jiǎng)。

 

這個(gè)“眼見(jiàn)為實(shí)”的思路,好處是一錘定音,看到什么就是什么,但這個(gè)思路的問(wèn)題也顯而易見(jiàn)——技術(shù)上太麻煩。歷史上,動(dòng)輒有科學(xué)家耗費(fèi)幾年、幾十年時(shí)間才能得到一個(gè)清晰的蛋白質(zhì)三維結(jié)構(gòu),這就導(dǎo)致蛋白質(zhì)三維結(jié)構(gòu)成了生物學(xué)領(lǐng)域非常要命的瓶頸。比如,因?yàn)榛驕y(cè)序技術(shù)的高速進(jìn)步,人類掌握的基因序列已經(jīng)有1.8億條,換句話說(shuō),我們已經(jīng)知道氨基酸順序的蛋白質(zhì)分子已經(jīng)有1.8億個(gè),其中三維結(jié)構(gòu)信息被徹底看清的只有17萬(wàn)個(gè),還不到0.1%。

 

這也因此催生了一個(gè)反其道而行的思路:既然我們知道氨基酸的順序決定了蛋白質(zhì)的三維結(jié)構(gòu),有沒(méi)有可能不做實(shí)驗(yàn),直接從氨基酸的順序出發(fā),推測(cè)蛋白質(zhì)分子的三維結(jié)構(gòu)呢?

 

沿著這個(gè)思路,人們也取得了一些值得一提的進(jìn)展。技術(shù)上最容易實(shí)現(xiàn)的方法,是從已知結(jié)構(gòu)出發(fā)推測(cè)未知結(jié)構(gòu)。

 

比如所謂的 “同源建?!?的方法。這個(gè)方法的邏輯很簡(jiǎn)單,既然氨基酸順序決定了蛋白質(zhì)三維結(jié)構(gòu),可想而知,如果兩個(gè)蛋白質(zhì)的氨基酸順序非常接近,那它們的三維結(jié)構(gòu)也應(yīng)該接近。打個(gè)比方,豬的胰島素分子和人的胰島素分子都是由51個(gè)氨基酸組成,其中只差了1個(gè)氨基酸,那兩個(gè)分子的三維結(jié)構(gòu)肯定可以互相參照。如果前者的三維結(jié)構(gòu)已經(jīng)被解析出來(lái)了,推測(cè)后者的三維結(jié)構(gòu)就比較容易了。

 

如果兩個(gè)蛋白質(zhì)的氨基酸序列并不是那么接近,同源建模就不太管用了。人們也發(fā)展出了所謂 “蛋白質(zhì)穿線” 或者叫 “折疊識(shí)別” 的方法。和同源建模類似,穿線的邏輯也是把未知蛋白質(zhì)的結(jié)構(gòu)往已知的結(jié)構(gòu)模式上套。它的默認(rèn)邏輯是,不管蛋白質(zhì)分子多么千變?nèi)f化,基本的折疊類型是有限的,大概就是1500種。所以只要試的足夠多,總能套上一種比較靠譜的。

 

除此之外,還有人開(kāi)發(fā)出了一類拋開(kāi)已知結(jié)構(gòu),直接通過(guò)計(jì)算推測(cè)蛋白質(zhì)結(jié)構(gòu)的思路。代表人物包括華盛頓大學(xué)的 David Baker 教授,他開(kāi)發(fā)了一套名為 “Rosetta”(羅塞塔石碑)的計(jì)算機(jī)程序來(lái)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。

 

這個(gè)方法擺脫了對(duì)已知結(jié)構(gòu)的依賴,直接從 “蛋白質(zhì)氨基酸順序決定了其三維結(jié)構(gòu)” 這個(gè)結(jié)論出發(fā)。它的工作邏輯是這樣的:在蛋白質(zhì)折疊的過(guò)程中,氨基酸分子會(huì)自發(fā)地尋找讓自己呆著最穩(wěn)定、最舒服,也就是能量狀態(tài)最低的位置。比如,帶正電的氨基酸就會(huì)傾向于找?guī)ж?fù)電的;討厭水分子的就傾向于被包裹到蛋白質(zhì)內(nèi)部,離水遠(yuǎn)一點(diǎn);兩個(gè)大號(hào)氨基酸相鄰的縫隙里可能能塞進(jìn)去一個(gè)小號(hào)氨基酸,等等。因此,如果能夠窮盡兩兩氨基酸分子之間所有可能的位置及其對(duì)應(yīng)的能量狀態(tài),就能計(jì)算出一個(gè)整體能量最低、最穩(wěn)定的空間組合,蛋白質(zhì)的三維結(jié)構(gòu)就有了。

 

這個(gè)邏輯從理論上說(shuō)沒(méi)毛病,但真要落實(shí)是很困難的。因?yàn)橛?jì)算能力的局限,我們不可能在有限時(shí)間內(nèi)把所有氨基酸分子兩兩組合的所有位置都窮舉一遍;因?yàn)槲锢韺W(xué)基礎(chǔ)理論的限制,我們實(shí)際上也不知道如何精確計(jì)算每一個(gè)位置對(duì)應(yīng)的能量狀態(tài)。舉個(gè)例子你就明白了。你大概看過(guò)劉慈欣的《三體》,三個(gè)物體遵循牛頓定律在空間中的運(yùn)動(dòng),實(shí)際上已經(jīng)無(wú)法預(yù)測(cè)了,要預(yù)測(cè)幾百上千個(gè)氨基酸分子在各種約束條件下的相互作用,物理學(xué)都不允許。

 

因此,這套R(shí)osetta的辦法實(shí)際上也做了很多妥協(xié),不追求窮盡所有氨基酸之間的兩兩組合,而是把蛋白質(zhì)分子分割成一個(gè)一個(gè)小片段,考慮片段之間的相互作用,然后再進(jìn)一步考慮原子之間的精細(xì)作用和位置。如果用來(lái)處理氨基酸數(shù)量很小、排列比較規(guī)則的蛋白質(zhì),效果往往還不錯(cuò)。但稍微復(fù)雜一點(diǎn)的蛋白質(zhì),預(yù)測(cè)能力就不怎么值得相信了,大概只能說(shuō)是聊勝于無(wú)。

 

這里簡(jiǎn)單小結(jié)一下:

 

解決蛋白質(zhì)折疊問(wèn)題,搞清楚蛋白質(zhì)分子的三維結(jié)構(gòu),是生物學(xué)里懸而未決的幾大終極難題之一。但是截至目前,這個(gè)難題最主要的解法還是費(fèi)時(shí)費(fèi)力的用X射線衍射、冷凍電鏡等方法直接觀察。想要直接計(jì)算和預(yù)測(cè)出蛋白質(zhì)結(jié)構(gòu),這些傳統(tǒng)的思路效果并不好。

 

3

人工智能的解題思路:

AlphaFold1和2


有了這些鋪墊,我們終于要說(shuō)到這次的主角,AlphaFold了。

 

如果你熟悉AlphaGo的故事,可能大概明白人工智能,特別是深度學(xué)習(xí)方法解決問(wèn)題的基本邏輯是什么。簡(jiǎn)單來(lái)說(shuō),這是個(gè)指望大力出奇跡的思路。

 

傳統(tǒng)上,人類學(xué)圍棋,講究的是學(xué)習(xí)棋譜,是反復(fù)練習(xí),是各種只能意會(huì)不能言傳的 “悟性”。而AlphaGo根本不管那么多,它要做的是,盡可能窮舉所有可能的下法,再看這些下法分別可能產(chǎn)生什么后果,接下來(lái)自己還有哪些可能的下法,又會(huì)帶來(lái)什么后果…… 通過(guò)反復(fù)訓(xùn)練,AlphaGo能積累足夠的 “經(jīng)驗(yàn)”,知道在某個(gè)時(shí)候哪個(gè)下法最終獲勝的概率更大。通過(guò)這樣的暴力訓(xùn)練,后期的 AlphaGo Zero 甚至可以做到,只需要知道圍棋的基本規(guī)則,比如怎么吃子、怎么判斷勝負(fù),就可以在完全無(wú)視人類所有經(jīng)驗(yàn)的條件下學(xué)成絕技,笑傲棋壇。

 

2018年,DeepMind的第一代蛋白質(zhì)折疊算法——AlphaFold1——參加了第13屆CASP比賽,就已經(jīng)拿了第一名的成績(jī),也在業(yè)界震動(dòng)不小。但它在大眾當(dāng)中引起的水花并不很大。我猜,原因主要有兩個(gè),首先,AlphaFold1雖然拿了第一,但是比第二名的優(yōu)勢(shì)并不明顯,也沒(méi)有表現(xiàn)出比傳統(tǒng)思路,有什么革命性的差異。但更重要的是,AlphaFold1并不能算是人工智能完全體,它還借鑒了不少學(xué)術(shù)研究的成果,特別是David Baker教授的Rosetta程序和芝加哥大學(xué)徐錦波教授的 RaptorX-Contact 程序。順便我還多說(shuō)一句,在CASP13結(jié)束后,南開(kāi)大學(xué)的楊建益教授和 David Baker 教授合作,開(kāi)發(fā)了新一代的trRosetta程序并且公布了全部核心代碼,這個(gè)程序的性能已經(jīng)超越了AlphaFold1,還被今年參加CASP 14的很多隊(duì)伍所借鑒。

 

但是,今年的AlphaFold2就完全不同了。它并不是1代的升級(jí)版,可以說(shuō)是一個(gè)全新的蛋白質(zhì)折疊算法。

 

盡管目前DeepMind還沒(méi)有公布AlphaFold2的技術(shù)細(xì)節(jié),但是大致原理已經(jīng)公開(kāi)。AlphaFold2的工作原理非常接近剛剛討論過(guò)的大力出奇跡的AlphaGo。我來(lái)粗糙地解釋一下這套算法的訓(xùn)練過(guò)程:

 

從17萬(wàn)個(gè)已經(jīng)知道三維結(jié)構(gòu)的蛋白質(zhì)分子中,科學(xué)家們挑一個(gè),把它的氨基酸序列信息 “喂” 給算法,算法大致 “猜測(cè)” 出一個(gè)三維結(jié)構(gòu)。然后,算法把它的猜測(cè)和已知的三維結(jié)構(gòu)進(jìn)行對(duì)比,并且根據(jù)猜測(cè)的結(jié)果是不是靠譜,繼續(xù)調(diào)整猜測(cè)的策略。這樣反復(fù)用17萬(wàn)個(gè)三維結(jié)構(gòu)訓(xùn)練,算法逐漸就獲得了直接從氨基酸序列預(yù)測(cè)蛋白質(zhì)三維結(jié)構(gòu)的能力。

 

當(dāng)然,我這個(gè)說(shuō)法肯定是過(guò)度簡(jiǎn)化了。要是沒(méi)有任何抓手,算法壓根不知道從何猜起,那也是不行的。比如,我們從DeepMind的介紹里也能看到,算法需要一種所謂 “多序列比對(duì)” 的信息。順便強(qiáng)調(diào)一句,這個(gè)思路可不是DeepMind首創(chuàng)的,它是1993年由德國(guó)科學(xué)家 Chris Sander 提出的技術(shù)路線。

 

簡(jiǎn)單來(lái)說(shuō)就是,對(duì)任何一個(gè)蛋白質(zhì)分子來(lái)說(shuō),數(shù)據(jù)庫(kù)里應(yīng)該都有大量和它序列非常類似的蛋白質(zhì)分子。比如我們說(shuō)過(guò)的胰島素蛋白,人的、豬的、牛的、雞的、牛的,彼此之間都只有一些細(xì)微的差別。當(dāng)我們把這些接近但不同的序列放在一起看,就能發(fā)現(xiàn)某些位置的氨基酸特別保守,幾乎不變,有些位置的氨基酸總變來(lái)變?nèi)?,還有些位置的氨基酸要么都不變,要么一起變。

 

而這些信息,其實(shí)也能反映出在蛋白質(zhì)三維結(jié)構(gòu)里,氨基酸之間的關(guān)系。比如有兩個(gè)氨基酸,要么總是都不變,要么總是同步變,我們大概可以猜測(cè),這兩個(gè)氨基酸在三維空間里很近,必須彼此配合。AlphaFold2也需要這些信息幫助它完成初始的猜測(cè)和訓(xùn)練過(guò)程。

 

最后的結(jié)果怎么樣呢?

 

我們可以從兩個(gè)維度看看AlphaFold2的表現(xiàn)。

 

首先橫向比較一下。

 

CASP大賽的規(guī)則大概是這樣的,組織者給參賽選手提供了一批蛋白質(zhì)分子的氨基酸序列,這些蛋白質(zhì)分子的三維結(jié)構(gòu)要么正在被實(shí)驗(yàn)解析過(guò)程中,要么已經(jīng)被實(shí)驗(yàn)解析出來(lái)了,但是沒(méi)有公開(kāi)給參賽者。參賽者完成蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)之后,把他們的結(jié)果和真實(shí)結(jié)構(gòu)進(jìn)行對(duì)比,評(píng)分,然后排名。

 

在2020年的第十四屆CASP大賽中,AlphaFold2高居第一,而且得分遠(yuǎn)遠(yuǎn)超過(guò)排名第二的 David Baker 教授實(shí)驗(yàn)室。第一名和第二名的差距,甚至比第二名到最后一名的差距還大。

 

接著再縱向比較一下。

 

從1994年CASP大賽開(kāi)始,人類預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的能力一直在緩慢但持續(xù)提高。對(duì)于很小、結(jié)構(gòu)簡(jiǎn)單的蛋白質(zhì),利用剛才講的傳統(tǒng)方法,準(zhǔn)確率已經(jīng)非常高了。但是對(duì)于尺寸比較大、結(jié)構(gòu)復(fù)雜、也沒(méi)有太多已知結(jié)構(gòu)可以參照的蛋白質(zhì),一直到2018年AlphaFold1參賽的時(shí)候,表現(xiàn)還乏善可陳。

 

但是,AlphaFold2改變了一切!對(duì)于所有90幾個(gè)蛋白質(zhì),它預(yù)測(cè)的結(jié)構(gòu)得到了92.4的中位數(shù)得分,即便對(duì)于最難的那部分蛋白質(zhì),它也得到了87分。這個(gè)分?jǐn)?shù)怎么理解呢?首先,90分的得分被認(rèn)為是個(gè)門(mén)檻,得分到了90,就說(shuō)明預(yù)測(cè)結(jié)果已經(jīng)和真實(shí)結(jié)構(gòu)基本一致。

 

也就是說(shuō),AlphaFold2實(shí)現(xiàn)了人類在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域史無(wú)前例的巨大進(jìn)步。有史以來(lái)第一次,人類可以說(shuō),我們不用做實(shí)驗(yàn),也能從氨基酸序列直接推測(cè)出蛋白質(zhì)的三維結(jié)構(gòu)。中心法則的最后缺環(huán),眼看著就要被填補(bǔ)了。

 

當(dāng)然,和所有科技進(jìn)步一樣,AlphaFold2也不是十全十美的。

 

比如,它的表現(xiàn)并不是非常穩(wěn)定。我們剛說(shuō)了,得分超過(guò)90就意味著正確,AlphaFold2的得分中位數(shù)已經(jīng)是92.4,但是在其中幾個(gè)蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)里,它的得分并不高——關(guān)于具體原因人們有一些猜測(cè),但是還需要更多研究看看它是不是可以避免的技術(shù)問(wèn)題。這樣一來(lái),它的實(shí)用性當(dāng)然就會(huì)受到影響,畢竟要是放一個(gè)全新蛋白質(zhì)進(jìn)去預(yù)測(cè),你也不知道這一次AlphaFold2到底是做對(duì)了還是抽風(fēng)了。

 

還有,AlphaFold2對(duì)于那種超級(jí)巨型的蛋白質(zhì)復(fù)合體,對(duì)于蛋白質(zhì)和DNA/RNA/小分子結(jié)合形成的復(fù)合物,預(yù)測(cè)能力還有待檢驗(yàn)。

 

但我倒是覺(jué)得,這些技術(shù)方面的優(yōu)化很快就能得到解決。打個(gè)比方,人類想飛的歷史足有上千年,但從1903年萊特兄弟的飛機(jī)跌跌撞撞飛了36.5米之后,人類只用了十幾年就造出了能夠飛躍大西洋的飛機(jī)。在從0到1的原始突破完成之后,在從1到100,到10000的路上,人類往往能迸發(fā)出驚人的戰(zhàn)斗力。

 

4

這項(xiàng)成就意味著什么?


最后,我們花點(diǎn)時(shí)間展望一下這項(xiàng)突破意味著什么。

 

有些前景很容易想到。我想,可能在幾年之后,AlphaFold就將具備替代實(shí)驗(yàn)研究、直接從蛋白質(zhì)氨基酸序列大批量生產(chǎn)蛋白質(zhì)三維結(jié)構(gòu)的能力。剛才說(shuō)過(guò),在人類已知的1.8億條基因序列中,只有不到0.1%的獲得了三維結(jié)構(gòu)信息??上攵S著AlphaFold的成熟,人類關(guān)于蛋白質(zhì)分子的理解將會(huì)有一次革命性的升級(jí)。

 

也許,這些海量的結(jié)構(gòu)信息,能讓我們把對(duì)生命現(xiàn)象的理解往前大大推進(jìn)一步:也許有一天,我們只需要測(cè)定一個(gè)物種的基因組DNA序列信息,就能相應(yīng)地預(yù)測(cè)這個(gè)物種生產(chǎn)的全部蛋白質(zhì)分子機(jī)器的三維結(jié)構(gòu),然后再猜測(cè)出這些分子機(jī)器到底是執(zhí)行什么生物學(xué)功能的。到那個(gè)時(shí)候,我們不光能根據(jù)DNA信息憑空想象出一種生物的樣貌和生物學(xué)特征,甚至還能反過(guò)來(lái),根據(jù)我們想要的生物學(xué)特性,設(shè)計(jì)出需要的蛋白質(zhì)分子,再到一個(gè)物種的遺傳物質(zhì),真正做到從無(wú)到有的人造生命。

 

當(dāng)然,在這種比較科幻的場(chǎng)景到來(lái)之前,AlphaFold也有很多實(shí)際的應(yīng)用價(jià)值。

 

比如,我們完全可以設(shè)想這樣的場(chǎng)景:一名癌癥患者找到醫(yī)生,醫(yī)生測(cè)定了他體內(nèi)腫瘤細(xì)胞的基因序列,發(fā)現(xiàn)他體內(nèi)某一個(gè)特殊蛋白質(zhì)發(fā)生了變異,因此導(dǎo)致了癌癥。同時(shí),醫(yī)生還能對(duì)這種特殊蛋白質(zhì)進(jìn)行結(jié)構(gòu)預(yù)測(cè),有針對(duì)性地設(shè)計(jì)一個(gè)藥物與之結(jié)合,破壞其功能,從而治療癌癥。所有這一切只需要幾天時(shí)間。到那個(gè)時(shí)候,疾病的診斷和治療將變得高度個(gè)性化,疾病-基因-蛋白質(zhì)結(jié)構(gòu)-藥物設(shè)計(jì)會(huì)形成一個(gè)完整的閉環(huán)。

 

生物學(xué)范疇的價(jià)值可能已經(jīng)讓你心潮澎湃了?干脆,我們?cè)購(gòu)氐追棚w一下。

 

從同源建模到Rosetta再到AlphaFold2,在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)這個(gè)領(lǐng)域,我們能看到一個(gè)有意思的歷史趨勢(shì)——問(wèn)題的解決方案越來(lái)越不依賴于人類的先驗(yàn)知識(shí),也越來(lái)越無(wú)法被人類理解了。

 

同源建模的場(chǎng)景里,對(duì)一個(gè)蛋白質(zhì)進(jìn)行結(jié)構(gòu)預(yù)測(cè),需要非常具體的先驗(yàn)知識(shí)——得有一個(gè)氨基酸序列高度接近、而且結(jié)構(gòu)已經(jīng)被人類解析的樣本作為參考比對(duì)才行。從已知到未知的腳步,邁得非常小。

 

Rosetta軟件已經(jīng)能夠擺脫對(duì)已知蛋白質(zhì)結(jié)構(gòu)的依賴,處理全新的蛋白質(zhì)結(jié)構(gòu)信息了,但是它同樣依賴于人類關(guān)于蛋白質(zhì)的物理化學(xué)知識(shí)的積累——我們得知道哪些氨基酸彼此靠近會(huì)更穩(wěn)定,哪些氨基酸天然排斥等等。

 

反過(guò)來(lái),這些傳統(tǒng)方法的結(jié)果,我們看了也能大概知道它是根據(jù)什么邏輯得出的。比如說(shuō),是根據(jù)氨基酸序列接近的蛋白質(zhì)三維結(jié)構(gòu)也比較接近,或者,是根據(jù)氨基酸分子之間的能量狀態(tài)變化等等。

 

到了AlphaFold2這里,在完成初始的訓(xùn)練之后,它已經(jīng)可以做到,不依賴任何先驗(yàn)知識(shí)做結(jié)構(gòu)預(yù)測(cè)了。實(shí)際上,在AlphaFold2的運(yùn)算過(guò)程里,它根本不需要知道自己處理的是蛋白質(zhì)分子的三維結(jié)構(gòu)。在它看來(lái)——如果它能看的話——自己處理的無(wú)非是大量節(jié)點(diǎn)在三維空間中的彼此距離,以及哪個(gè)組合方式得分比較高,至于處理的是氨基酸分子的排布,還是廣場(chǎng)上一群人的運(yùn)動(dòng),根本沒(méi)有任何差別。

 

這也就導(dǎo)致了一個(gè)問(wèn)題:我們知道AlphaFold2表現(xiàn)很好,但我們無(wú)從理解AlphaFold2到底是根據(jù)什么規(guī)則、什么原理得到了這樣的表現(xiàn)。就算AlphaFold2具備了自我意識(shí),能夠和我們對(duì)話,它充其量也就是告訴我們,在人工智能算法里使用到的成百上千個(gè)參數(shù)分別是多大,而已。至于為什么會(huì)有這些參數(shù),為什么這些參數(shù)的數(shù)值是這樣的,它不理解,我們也不理解。

 

在我看來(lái),這意味著在人工智能時(shí)代,人類獲取知識(shí)的邏輯將要發(fā)生一次地動(dòng)山搖的變革。

 

人類認(rèn)識(shí)世界、獲取知識(shí)的辦法,無(wú)外乎是對(duì)小樣本數(shù)據(jù)的歸納和演繹。我花了幾天功夫觀察綿羊,發(fā)現(xiàn)它們都是白色的,因此提出 “綿羊都是白色的” 這個(gè)命題——這是歸納法;我認(rèn)為綿羊都是白色的,而我面前有一只黑色的動(dòng)物,因此我判斷它不是綿羊——這是演繹法。歸納和演繹得到的結(jié)果并不總是正確的,我剛剛這個(gè)例子就是錯(cuò)的,但它是人類認(rèn)知世界的起點(diǎn)。

 

反復(fù)利用歸納和演繹的方法,人類對(duì)世界的認(rèn)知過(guò)程大概是這個(gè)樣子的:對(duì)有限的小樣本進(jìn)行觀察和分析,試圖提煉出一般性的法則,再對(duì)這個(gè)法則進(jìn)行更多的檢驗(yàn),進(jìn)一步證明或者推翻它。

 

比如,通過(guò)觀察部分星體的運(yùn)行軌跡,人們總結(jié)出了開(kāi)普勒三定律和牛頓定律,并在這些定律的指導(dǎo)下預(yù)測(cè)和發(fā)現(xiàn)了海王星,而在這些定律出現(xiàn)問(wèn)題的場(chǎng)合,人們找到了全新的規(guī)律——廣義相對(duì)論。要是腦子里沒(méi)有這些定律,我們?cè)谝雇硖ь^望向星空的時(shí)候,看到的只是隨機(jī)運(yùn)動(dòng)的一團(tuán)亂麻。

 

但是在人工智能這里,這套認(rèn)知方法論可能是無(wú)效的、至少是不必要的。大力出奇跡的做法,讓算法知其然的同時(shí)完全不需要知其所以然。今天,算法可以在不懂圍棋精神也不看人類棋譜的條件下,戰(zhàn)勝圍棋世界冠軍;可以在完全不知道什么是人臉、什么是眼睛鼻子嘴的條件下,做到精確的面孔識(shí)別;可以在不知道什么叫語(yǔ)法、什么是主謂賓、什么是名詞形容詞的條件下,做到人類語(yǔ)言處理;可以在不借助任何蛋白質(zhì)化學(xué)理論的條件下,預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)……所有這一切,只需要大量數(shù)據(jù)的訓(xùn)練。必須承認(rèn),這是一種全新的、人類并不習(xí)慣也無(wú)法真正理解、但是非常管用的認(rèn)知方法論。

 

這對(duì)于人類來(lái)說(shuō)意味著什么呢?

 

想要推測(cè)是很困難的,畢竟人的推測(cè)依靠的也僅僅是歸納和演繹。但我想,有一點(diǎn)是肯定的,我們不得不習(xí)慣和大量的 “異類” 新知識(shí)相處,我們確實(shí)知道它們是對(duì)的、是有用的,但就不知道它是怎么來(lái)的。

 

要知道,對(duì)于曾經(jīng)的人類來(lái)說(shuō),所有的知識(shí)都來(lái)自歸納和演繹這種能夠理解的認(rèn)知方式,用歸納和演繹也應(yīng)該能得到所有我們需要的知識(shí),這是一種無(wú)以倫比的智力驕傲。希爾伯特說(shuō),“我們必將知道,我們必須知道”,背后的精神支持正是如此。

 

但慢慢的,我們會(huì)不會(huì)干脆放棄自己尋求新的知識(shí),放棄歸納和演繹的方法,完全依賴于算法為我們提供的新知識(shí)?打個(gè)比方,我們小時(shí)候大概都通過(guò)擺弄小石子知道了為什么一加一等于二,二加三等于五。如果一個(gè)人從出生起就只能通過(guò)計(jì)算器了解數(shù)字,他當(dāng)然也會(huì)掌握一加一等于二,二加三等于五,但是會(huì)不會(huì)從頭開(kāi)始就完全不理解、也不想理解這些算式背后的意義是什么?我們會(huì)不會(huì)慢慢地也像算法一樣,習(xí)慣于知其然而不知其所以然?

 

在AI快速進(jìn)步的時(shí)代,太多人擔(dān)憂AI取代人類工作,甚至是戰(zhàn)勝和消滅人類。相比這些猜測(cè),我倒是更擔(dān)心AI對(duì)人類認(rèn)知的沖擊。生活在一個(gè)答案顯而易見(jiàn)、唾手可得、但推導(dǎo)過(guò)程完全隱藏在黑暗之中的時(shí)代,對(duì)我們到底意味著什么呢?

 

哦,在故事的最后,也請(qǐng)?jiān)试S我吐槽一下。

 

最近這段時(shí)間,互聯(lián)網(wǎng)行業(yè)最熱門(mén)的話題就是巨頭紛紛砸下重金,加入社區(qū)團(tuán)購(gòu)的賽場(chǎng)。利用數(shù)據(jù),利用算法,利用手里的鈔票,巨頭們苦苦研究的話題是怎么把瓜果生鮮便宜、快速、精準(zhǔn)地送到每一個(gè)消費(fèi)者手中。在購(gòu)物、打車、外賣這些熱點(diǎn)之后,買菜成了互聯(lián)網(wǎng)最時(shí)髦的話題。

 

這當(dāng)然是個(gè)好生意。但我總是忍不住想,我們能不能干點(diǎn)別的?掌握著海量的數(shù)據(jù)和牛叉的人工智能算法,互聯(lián)網(wǎng)巨頭們能搞出類似AlphaGo和AlphaFold這樣可能改變?nèi)祟愂澜缑婷驳臇|西嗎?

 

有兩句話我特別喜歡。一句話來(lái)自PayPal的創(chuàng)始人彼得·蒂爾(Peter Thiel),他說(shuō),“We wanted flying cars, instead we got 140 characters”,我們需要能飛的汽車,但結(jié)果卻得到了140個(gè)字符。一句話來(lái)自登月英雄巴茲·奧爾德林(Buzz Aldrain),他說(shuō) “You promised me Mars colonies. Instead, I got Facebook”。你答應(yīng)帶我們殖民火星,可我們最后只得到了 Facebook。兩句話其實(shí)都在表達(dá),對(duì)掌握海量資源和先進(jìn)科技的互聯(lián)網(wǎng)巨頭的失望之情。

 

我想也許我也能吐槽一句:咱們能不能別光惦記著幾捆青菜、幾斤水果,說(shuō)好的星辰大海呢?

 

好了,這就是本期的巡山報(bào)告。下個(gè)月6號(hào),我繼續(xù)為你巡山。

 


關(guān)于智識(shí)前沿學(xué)者計(jì)劃

 

“智識(shí)前沿學(xué)者計(jì)劃”,由公益組織 “智識(shí)學(xué)研社” 在今年7月推出,在影響人類未來(lái)生活的若干前沿科技領(lǐng)域,選拔出一批為科學(xué)進(jìn)步或其應(yīng)用做出努力的杰出青年學(xué)者,資助和鼓勵(lì)他們持續(xù)追蹤和分析前沿科技領(lǐng)域的新發(fā)現(xiàn)、新動(dòng)向和新機(jī)會(huì),并積極分享他們的專業(yè)判斷,促進(jìn)前沿科技信息的交流和公共討論,為正在快速進(jìn)展的前沿科技留影、存檔,為讀者提供重要的文獻(xiàn)式的科學(xué)指路牌,記錄參考消息式的科學(xué)當(dāng)代史。

首批入選 “智識(shí)前沿學(xué)者計(jì)劃” 的青年學(xué)者,生物學(xué)家、浙江大學(xué)教授王立銘將為大家?guī)?lái)生命科學(xué)領(lǐng)域的 “巡山報(bào)告”, 他計(jì)劃深入挖掘生命科學(xué)領(lǐng)域新發(fā)現(xiàn)、新思想背后的來(lái)龍去脈,全面探討生命科學(xué)領(lǐng)域的發(fā)展方向和未來(lái)影響,將這一項(xiàng)目打造成中國(guó)生命科學(xué)研究瞭望未來(lái)的燈塔, 為各個(gè)利益相關(guān)方,包括科學(xué)家、政策制定者、科研資助者、媒體和公眾,提供公共議事的基礎(chǔ)和意見(jiàn)交鋒的平臺(tái),見(jiàn)證生命健康領(lǐng)域的長(zhǎng)期健康發(fā)展。



一個(gè)彩蛋


知識(shí)分子總編輯、生物學(xué)家饒毅點(diǎn)評(píng)本期巡山報(bào)告:


 “請(qǐng)?jiān)试S吐槽:預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)不可能是生命科學(xué)三大問(wèn)題,三千大問(wèn)題也許算一個(gè)。不僅預(yù)測(cè)不那么重要,大部分生物學(xué)家也不依賴蛋白質(zhì)結(jié)構(gòu),只有很少一些蛋白質(zhì)結(jié)構(gòu)對(duì)于推進(jìn)生物學(xué)理解很重要。


AlphaFold真的對(duì)生命科學(xué)發(fā)起了顛覆性的沖擊嗎?


今晚7點(diǎn),由智識(shí)學(xué)研社與智源社區(qū)策劃共同發(fā)起的"智2平方"論壇,與騰訊新聞獨(dú)家合作,力邀結(jié)構(gòu)生物學(xué)、生物信息學(xué)和人工智能等領(lǐng)域的專家學(xué)者,將帶來(lái)更多精彩解讀,再次探討人工智能與人類的未來(lái)。歡迎收看直播。


 制版編輯 盧卡斯


參與討論
0 條評(píng)論
評(píng)論
暫無(wú)評(píng)論內(nèi)容
知識(shí)分子是由饒毅、魯白、謝宇三位學(xué)者創(chuàng)辦的移動(dòng)新媒體平臺(tái),致力于關(guān)注科學(xué)、人文、思想。
訂閱Newsletter

我們會(huì)定期將電子期刊發(fā)送到您的郵箱

GO