? 小太正裸体脱裤子无遮挡,手机在线看永久av片免费,无码国模国产在线观看

亚洲 a v无 码免 费 成 人 a v,性欧美videofree高清精品,新国产三级在线观看播放,少妇人妻偷人精品一区二区,天干天干天啪啪夜爽爽av

王立銘:人工智能預(yù)測蛋白結(jié)構(gòu)再獲突破,意味著什么? | 巡山報告

2020/12/06
導(dǎo)讀
大力出奇跡?




編者按



最近,DeepMind 開發(fā)的程序 AlphaFold 在一個蛋白質(zhì)結(jié)構(gòu)預(yù)測大賽中奪得冠軍,并將蛋白質(zhì)結(jié)構(gòu)預(yù)測做到了基本接近實(shí)用的水平。

這一事件對生命科學(xué)的發(fā)展意味著什么?人工智能的發(fā)展對于人類理解世界的方式有何影響?且看 “智識前沿學(xué)者”、浙江大學(xué)教授王立銘今日 “生命科學(xué)·巡山報告”。


讓別人替你運(yùn)動,也能延緩衰老?

造假、剽竊和榮譽(yù):何謂科學(xué)研究 

吃啥補(bǔ)啥,心誠則靈與針灸的最新生物學(xué)解釋 

靈魂出竅,科學(xué)上終于有了新解釋?

讓你好吃懶做的 “節(jié)儉基因”,真的存在嗎?


撰文 | 王立銘


●            ●            


大家好,我是王立銘。2020年12月6日,生命科學(xué)·巡山報告又和大家見面了。

 

說起來有點(diǎn)慚愧,剛過去的這個月,生命科學(xué)領(lǐng)域值得專門拿出來講的重大新聞似乎不多,我本來以為這期巡山能偷個小懶。結(jié)果在11月的最后一天,居然從天而降了一個可能是本年度、甚至是最近十年最重要的生命科學(xué)突破。

 

所以,今天這期巡山報告,我還是得打起12分精神,和你聊聊這個話題。

 

簡單來說,2020年11月30日,谷歌旗下的人工智能公司 DeepMind 開發(fā)的程序AlphaFold2,在2020年度的蛋白質(zhì)結(jié)構(gòu)預(yù)測大賽CASP14中,取得了驚人的好成績。不僅力壓世界范圍內(nèi)參賽的100多個團(tuán)隊(duì),獲得冠軍,還有史以來第一次把蛋白質(zhì)結(jié)構(gòu)預(yù)測這個任務(wù),做到了基本接近實(shí)用的水平。

 

說起 DeepMind,你應(yīng)該不陌生。你大概還記得曾經(jīng)橫掃棋壇、并且戰(zhàn)勝人類排名第一的棋手柯潔的圍棋程序——AlphaGo。長久以來,圍棋被看作是人類發(fā)明的最復(fù)雜、最具開放性的智力游戲,很多人預(yù)測,計算機(jī)在幾百年時間內(nèi)都不可能在圍棋上戰(zhàn)勝人腦。但在2017年,橫空出世的AlphaGo讓很多人真正意識到了人工智能和深度學(xué)習(xí)的強(qiáng)大力量。AlphaGo也是這家叫 DeepMind 的公司開發(fā)的。

 

和AlphaGo名字類似的 AlphaFold2 又是何方神圣呢?我猜,這幾天你從新聞上已經(jīng)看到不少介紹了,不過我的感覺是,大部分介紹都沒說到點(diǎn)子上,光顧著激動了。這期巡山,你不妨先把最近看到的那些信息都忘了,我們從頭開始,把這件事的來龍去脈和價值說清楚。



1

蛋白質(zhì)折疊:

生物學(xué)最核心的未知問題之一

首先,我們看看AlphaFold2解決的到底是什么問題。

 

剛才說了,它的目標(biāo)是蛋白質(zhì)結(jié)構(gòu)預(yù)測。在我看來,這可能是整個生命科學(xué)領(lǐng)域最重要的三個問題之一。其他兩個,我認(rèn)為分別是生命的起源問題,和人類大腦的工作原理問題。

 

“蛋白質(zhì)結(jié)構(gòu)預(yù)測”,聽起來有點(diǎn)專業(yè),外人也不那么容易理解它的意義。如果說得大一點(diǎn)兒,這個問題關(guān)系到遺傳信息的本質(zhì)是什么,遺傳信息是如何流動、如何影響地球生命的各種特性的。

 

你大概聽說過生物學(xué)里所謂的 “中心法則”。在充滿例外的生命科學(xué)領(lǐng)域, “中心法則” 幾乎是唯一一個被冠以 “法則” 之名的規(guī)律,重要性可想而知。

 

中心法則說的是,在地球生物世代繁衍的過程中,上一代生物會把自身攜帶的遺傳物質(zhì),也就是DNA分子,照原樣復(fù)制一份,傳遞到后代體內(nèi),一代代傳遞下去,永無止境。而在每一代生物從生到死的過程中,這套DNA分子能以自身為設(shè)計藍(lán)圖,指導(dǎo)生產(chǎn)大量的微型分子機(jī)器,也就是各種蛋白質(zhì)分子,執(zhí)行各種各樣的生物學(xué)功能,共同支持每一代生物的生存和活動。

 

本質(zhì)上說,中心法則指明了遺傳信息的兩個流動方向:

 

一個方向是在世代之間,DNA通過DNA-->DNA的自我復(fù)制,持續(xù)一代代傳遞,保證上一代和下一代之間攜帶的遺傳物質(zhì)非常接近,因此也呈現(xiàn)出高度的相似性。在這個過程中,隨機(jī)出現(xiàn)的基因突變,會讓每一代生物出現(xiàn)微小的差異,自然選擇和生物進(jìn)化也得以實(shí)現(xiàn)。另一個方向是在同一個生物體內(nèi)的每一個細(xì)胞中,DNA通過RNA分子指導(dǎo)蛋白質(zhì)生產(chǎn)(DNA-->RNA-->蛋白質(zhì)),讓各種具體的生物活動得以開展。

 

從上個世紀(jì)五六十年代至今,中心法則的很多技術(shù)細(xì)節(jié)都得到了深入研究。我大概數(shù)了下,在半個多世紀(jì)中,至少有二三十個諾貝爾獎和中心法則相關(guān)。DNA分子如何實(shí)現(xiàn)自我復(fù)制和自我修復(fù),DNA如何指導(dǎo)RNA的生產(chǎn),RNA如何被剪切和拼接,RNA如何指導(dǎo)蛋白質(zhì)的組裝,蛋白質(zhì)分子如何被降解等等。有意思的是,搞清楚中心法則的技術(shù)細(xì)節(jié)能得獎,找到中心法則的反例也能得獎。這樣的例子也挺不少。

 

但是,在中心法則的完整圖景里,有一個最大的空白、一個最關(guān)鍵的遺留問題,就是蛋白質(zhì)分子機(jī)器到底是怎么組裝完成、開展工作的。

 

我們現(xiàn)在知道,DNA分子指導(dǎo)蛋白質(zhì)分子生產(chǎn)的原則很簡單,DNA鏈條上三個相鄰的堿基分子,對應(yīng)蛋白質(zhì)分子中一個特定的氨基酸分子。比如,ATG三個堿基對應(yīng)的就是甲硫氨酸,GAG對應(yīng)的就是谷氨酸,等等。忽略掉所有技術(shù)細(xì)節(jié),你可以這么想象:在細(xì)胞內(nèi)部,一條300個堿基長度的DNA鏈條,能指導(dǎo)生產(chǎn)出一個蛋白質(zhì)分子,也就是由100個氨基酸首尾相連組成的鏈條。

 

DNA分子作為遺傳信息的載體,它的物理結(jié)構(gòu)可以認(rèn)為是無關(guān)緊要的,是拉成一條直線、團(tuán)成一團(tuán)毛線球,還是干脆抄寫下來存在筆記本里,只要這300個堿基的名稱和先后順序不亂,它記載的信息就始終是完整的、不變的。但蛋白質(zhì)分子則不然。這個由100個氨基酸組成的鏈條,一定要在細(xì)胞中折疊、扭曲、纏繞成某個特殊的三維結(jié)構(gòu),才能開始工作。

 

我類比一下你就明白了。比如你要生產(chǎn)小轎車,設(shè)計圖紙是打印出來還是存在電腦里,是攤平放還是卷成卷,是紅色墨水寫還是藍(lán)色墨水寫,其實(shí)都無關(guān)緊要。但是在生產(chǎn)過程中,每一個零件,從發(fā)動機(jī)到雨刷器,都必須被嚴(yán)格的放置在特定的位置,按照特定的方式組裝起來,小轎車才能正常工作。

 

那真正的問題就變成了,蛋白質(zhì)分子怎么知道如何形成某個特定的三維結(jié)構(gòu)呢?我們還是說那個由100個氨基酸組成的鏈條,在形成三維結(jié)構(gòu)的過程里,它怎么知道每個氨基酸應(yīng)該出現(xiàn)在什么位置,需要和哪幾個氨基酸靠近呢?

 

早在上個世紀(jì),人們就做出了正確的猜測。簡單來說,這些空間位置信息,就蘊(yùn)含在蛋白質(zhì)分子自身當(dāng)中。說得更具體一點(diǎn),組成蛋白質(zhì)的氨基酸分子一共有20種,它們有的帶正電荷,有的帶負(fù)電荷,有的大一點(diǎn),有的小一點(diǎn),有的喜歡結(jié)合水分子,有的討厭水分子。因此,蛋白質(zhì)一旦被生產(chǎn)出來,組成它的氨基酸就會根據(jù)上面這些不同屬性,開始移動和組合。

 

這個過程有點(diǎn)像磁鐵組裝玩具,拿一堆零件放一起晃一晃,它們就能自己吸附在一起形成一大坨。當(dāng)然,蛋白質(zhì)分子里那些氨基酸分子的順序和特性,保證它在大多數(shù)時候能扭曲折疊得一模一樣,批量生產(chǎn)出好用的蛋白質(zhì)分子機(jī)器。

 

這個猜測在1950年代被美國科學(xué)家 Christian Anfinsen 用實(shí)驗(yàn)手段證明。Anfinsen發(fā)現(xiàn),即便用化學(xué)方法人為破壞蛋白質(zhì)分子的三維結(jié)構(gòu),但只要洗掉這些干擾,蛋白質(zhì)分子就能自己重新扭曲折疊成完全一樣的三維結(jié)構(gòu)。DNA分子的堿基順序,決定了蛋白質(zhì)分子的氨基酸順序,也決定了蛋白質(zhì)分子的三維結(jié)構(gòu)和生物學(xué)功能,因此成為共識。

 

但是,這么說并沒有解決全部的問題。理論上我們已經(jīng)知道,蛋白質(zhì)分子能自己決定扭曲折疊成什么樣子,但是我們實(shí)際上并不知道蛋白質(zhì)分子是如何做到這一點(diǎn)的。要知道,一個100個氨基酸的蛋白質(zhì)分子,這100個氨基酸在三維空間上的排列組合方式幾乎是無窮無盡,一種一種嘗試的話,可能試到宇宙盡頭也找不到正確的那一種。真實(shí)世界里的蛋白質(zhì),怎么做到幾乎是瞬間就能扭曲折疊到最合適的位置的呢?

 

說到這里,我想你應(yīng)該能明白為什么我說蛋白質(zhì)折疊是生物學(xué)最大的三個未知問題之一了。

 

首先,它關(guān)系到代代相傳的遺傳信息,到底是怎么指導(dǎo)生命活動的。其次,它有很強(qiáng)的應(yīng)用價值。因?yàn)榻^大多數(shù)藥物都是通過結(jié)合特定的蛋白質(zhì)來起作用的,如果能搞清楚蛋白質(zhì)分子怎么折疊、三維結(jié)構(gòu)長什么樣,我們就能更方便的設(shè)計出專門結(jié)合它的藥物來治療疾病。最后,當(dāng)然是因?yàn)檫@個問題非常非常非常非常的難。

 

2

解決蛋白質(zhì)折疊問題的傳統(tǒng)思路


如此重要的問題,當(dāng)然吸引了大量科學(xué)家的注意,在過去幾十年時間里,也取得了一些不錯的進(jìn)展。這里簡單回顧一下。

 

一個最容易想到、也最早取得突破的思路,是干脆通過實(shí)驗(yàn)的手段 “看到” 蛋白質(zhì)分子的三維結(jié)構(gòu)——不管這個結(jié)構(gòu)是怎么來的,先搞清楚它長什么樣子再說。

 

1959年,英國科學(xué)家 Max Perutz 利用X射線衍射的方法——你可以通俗理解成用X射線照射蛋白質(zhì)分子,然后根據(jù)射線被散射的角度推測電子的位置——解析了肌紅蛋白分子的三維結(jié)構(gòu)。這是人類歷史上第一次徹底看清蛋白質(zhì)分子機(jī)器的細(xì)節(jié)。

 

在那里之后直到今天,有超過17萬個蛋白質(zhì)分子的結(jié)構(gòu)被解析出來。除了X射線衍射之外,核磁共振以及最近火熱的冷凍電子顯微鏡技術(shù)也發(fā)揮了重要作用。半個多世紀(jì)以來,研究蛋白質(zhì)結(jié)構(gòu)的相關(guān)工作也已經(jīng)拿過20多項(xiàng)諾貝爾獎。

 

這個“眼見為實(shí)”的思路,好處是一錘定音,看到什么就是什么,但這個思路的問題也顯而易見——技術(shù)上太麻煩。歷史上,動輒有科學(xué)家耗費(fèi)幾年、幾十年時間才能得到一個清晰的蛋白質(zhì)三維結(jié)構(gòu),這就導(dǎo)致蛋白質(zhì)三維結(jié)構(gòu)成了生物學(xué)領(lǐng)域非常要命的瓶頸。比如,因?yàn)榛驕y序技術(shù)的高速進(jìn)步,人類掌握的基因序列已經(jīng)有1.8億條,換句話說,我們已經(jīng)知道氨基酸順序的蛋白質(zhì)分子已經(jīng)有1.8億個,其中三維結(jié)構(gòu)信息被徹底看清的只有17萬個,還不到0.1%。

 

這也因此催生了一個反其道而行的思路:既然我們知道氨基酸的順序決定了蛋白質(zhì)的三維結(jié)構(gòu),有沒有可能不做實(shí)驗(yàn),直接從氨基酸的順序出發(fā),推測蛋白質(zhì)分子的三維結(jié)構(gòu)呢?

 

沿著這個思路,人們也取得了一些值得一提的進(jìn)展。技術(shù)上最容易實(shí)現(xiàn)的方法,是從已知結(jié)構(gòu)出發(fā)推測未知結(jié)構(gòu)。

 

比如所謂的 “同源建模” 的方法。這個方法的邏輯很簡單,既然氨基酸順序決定了蛋白質(zhì)三維結(jié)構(gòu),可想而知,如果兩個蛋白質(zhì)的氨基酸順序非常接近,那它們的三維結(jié)構(gòu)也應(yīng)該接近。打個比方,豬的胰島素分子和人的胰島素分子都是由51個氨基酸組成,其中只差了1個氨基酸,那兩個分子的三維結(jié)構(gòu)肯定可以互相參照。如果前者的三維結(jié)構(gòu)已經(jīng)被解析出來了,推測后者的三維結(jié)構(gòu)就比較容易了。

 

如果兩個蛋白質(zhì)的氨基酸序列并不是那么接近,同源建模就不太管用了。人們也發(fā)展出了所謂 “蛋白質(zhì)穿線” 或者叫 “折疊識別” 的方法。和同源建模類似,穿線的邏輯也是把未知蛋白質(zhì)的結(jié)構(gòu)往已知的結(jié)構(gòu)模式上套。它的默認(rèn)邏輯是,不管蛋白質(zhì)分子多么千變?nèi)f化,基本的折疊類型是有限的,大概就是1500種。所以只要試的足夠多,總能套上一種比較靠譜的。

 

除此之外,還有人開發(fā)出了一類拋開已知結(jié)構(gòu),直接通過計算推測蛋白質(zhì)結(jié)構(gòu)的思路。代表人物包括華盛頓大學(xué)的 David Baker 教授,他開發(fā)了一套名為 “Rosetta”(羅塞塔石碑)的計算機(jī)程序來預(yù)測蛋白質(zhì)結(jié)構(gòu)。

 

這個方法擺脫了對已知結(jié)構(gòu)的依賴,直接從 “蛋白質(zhì)氨基酸順序決定了其三維結(jié)構(gòu)” 這個結(jié)論出發(fā)。它的工作邏輯是這樣的:在蛋白質(zhì)折疊的過程中,氨基酸分子會自發(fā)地尋找讓自己呆著最穩(wěn)定、最舒服,也就是能量狀態(tài)最低的位置。比如,帶正電的氨基酸就會傾向于找?guī)ж?fù)電的;討厭水分子的就傾向于被包裹到蛋白質(zhì)內(nèi)部,離水遠(yuǎn)一點(diǎn);兩個大號氨基酸相鄰的縫隙里可能能塞進(jìn)去一個小號氨基酸,等等。因此,如果能夠窮盡兩兩氨基酸分子之間所有可能的位置及其對應(yīng)的能量狀態(tài),就能計算出一個整體能量最低、最穩(wěn)定的空間組合,蛋白質(zhì)的三維結(jié)構(gòu)就有了。

 

這個邏輯從理論上說沒毛病,但真要落實(shí)是很困難的。因?yàn)橛嬎隳芰Φ木窒蓿覀儾豢赡茉谟邢迺r間內(nèi)把所有氨基酸分子兩兩組合的所有位置都窮舉一遍;因?yàn)槲锢韺W(xué)基礎(chǔ)理論的限制,我們實(shí)際上也不知道如何精確計算每一個位置對應(yīng)的能量狀態(tài)。舉個例子你就明白了。你大概看過劉慈欣的《三體》,三個物體遵循牛頓定律在空間中的運(yùn)動,實(shí)際上已經(jīng)無法預(yù)測了,要預(yù)測幾百上千個氨基酸分子在各種約束條件下的相互作用,物理學(xué)都不允許。

 

因此,這套Rosetta的辦法實(shí)際上也做了很多妥協(xié),不追求窮盡所有氨基酸之間的兩兩組合,而是把蛋白質(zhì)分子分割成一個一個小片段,考慮片段之間的相互作用,然后再進(jìn)一步考慮原子之間的精細(xì)作用和位置。如果用來處理氨基酸數(shù)量很小、排列比較規(guī)則的蛋白質(zhì),效果往往還不錯。但稍微復(fù)雜一點(diǎn)的蛋白質(zhì),預(yù)測能力就不怎么值得相信了,大概只能說是聊勝于無。

 

這里簡單小結(jié)一下:

 

解決蛋白質(zhì)折疊問題,搞清楚蛋白質(zhì)分子的三維結(jié)構(gòu),是生物學(xué)里懸而未決的幾大終極難題之一。但是截至目前,這個難題最主要的解法還是費(fèi)時費(fèi)力的用X射線衍射、冷凍電鏡等方法直接觀察。想要直接計算和預(yù)測出蛋白質(zhì)結(jié)構(gòu),這些傳統(tǒng)的思路效果并不好。

 

3

人工智能的解題思路:

AlphaFold1和2


有了這些鋪墊,我們終于要說到這次的主角,AlphaFold了。

 

如果你熟悉AlphaGo的故事,可能大概明白人工智能,特別是深度學(xué)習(xí)方法解決問題的基本邏輯是什么。簡單來說,這是個指望大力出奇跡的思路。

 

傳統(tǒng)上,人類學(xué)圍棋,講究的是學(xué)習(xí)棋譜,是反復(fù)練習(xí),是各種只能意會不能言傳的 “悟性”。而AlphaGo根本不管那么多,它要做的是,盡可能窮舉所有可能的下法,再看這些下法分別可能產(chǎn)生什么后果,接下來自己還有哪些可能的下法,又會帶來什么后果…… 通過反復(fù)訓(xùn)練,AlphaGo能積累足夠的 “經(jīng)驗(yàn)”,知道在某個時候哪個下法最終獲勝的概率更大。通過這樣的暴力訓(xùn)練,后期的 AlphaGo Zero 甚至可以做到,只需要知道圍棋的基本規(guī)則,比如怎么吃子、怎么判斷勝負(fù),就可以在完全無視人類所有經(jīng)驗(yàn)的條件下學(xué)成絕技,笑傲棋壇。

 

2018年,DeepMind的第一代蛋白質(zhì)折疊算法——AlphaFold1——參加了第13屆CASP比賽,就已經(jīng)拿了第一名的成績,也在業(yè)界震動不小。但它在大眾當(dāng)中引起的水花并不很大。我猜,原因主要有兩個,首先,AlphaFold1雖然拿了第一,但是比第二名的優(yōu)勢并不明顯,也沒有表現(xiàn)出比傳統(tǒng)思路,有什么革命性的差異。但更重要的是,AlphaFold1并不能算是人工智能完全體,它還借鑒了不少學(xué)術(shù)研究的成果,特別是David Baker教授的Rosetta程序和芝加哥大學(xué)徐錦波教授的 RaptorX-Contact 程序。順便我還多說一句,在CASP13結(jié)束后,南開大學(xué)的楊建益教授和 David Baker 教授合作,開發(fā)了新一代的trRosetta程序并且公布了全部核心代碼,這個程序的性能已經(jīng)超越了AlphaFold1,還被今年參加CASP 14的很多隊(duì)伍所借鑒。

 

但是,今年的AlphaFold2就完全不同了。它并不是1代的升級版,可以說是一個全新的蛋白質(zhì)折疊算法。

 

盡管目前DeepMind還沒有公布AlphaFold2的技術(shù)細(xì)節(jié),但是大致原理已經(jīng)公開。AlphaFold2的工作原理非常接近剛剛討論過的大力出奇跡的AlphaGo。我來粗糙地解釋一下這套算法的訓(xùn)練過程:

 

從17萬個已經(jīng)知道三維結(jié)構(gòu)的蛋白質(zhì)分子中,科學(xué)家們挑一個,把它的氨基酸序列信息 “喂” 給算法,算法大致 “猜測” 出一個三維結(jié)構(gòu)。然后,算法把它的猜測和已知的三維結(jié)構(gòu)進(jìn)行對比,并且根據(jù)猜測的結(jié)果是不是靠譜,繼續(xù)調(diào)整猜測的策略。這樣反復(fù)用17萬個三維結(jié)構(gòu)訓(xùn)練,算法逐漸就獲得了直接從氨基酸序列預(yù)測蛋白質(zhì)三維結(jié)構(gòu)的能力。

 

當(dāng)然,我這個說法肯定是過度簡化了。要是沒有任何抓手,算法壓根不知道從何猜起,那也是不行的。比如,我們從DeepMind的介紹里也能看到,算法需要一種所謂 “多序列比對” 的信息。順便強(qiáng)調(diào)一句,這個思路可不是DeepMind首創(chuàng)的,它是1993年由德國科學(xué)家 Chris Sander 提出的技術(shù)路線。

 

簡單來說就是,對任何一個蛋白質(zhì)分子來說,數(shù)據(jù)庫里應(yīng)該都有大量和它序列非常類似的蛋白質(zhì)分子。比如我們說過的胰島素蛋白,人的、豬的、牛的、雞的、牛的,彼此之間都只有一些細(xì)微的差別。當(dāng)我們把這些接近但不同的序列放在一起看,就能發(fā)現(xiàn)某些位置的氨基酸特別保守,幾乎不變,有些位置的氨基酸總變來變?nèi)?,還有些位置的氨基酸要么都不變,要么一起變。

 

而這些信息,其實(shí)也能反映出在蛋白質(zhì)三維結(jié)構(gòu)里,氨基酸之間的關(guān)系。比如有兩個氨基酸,要么總是都不變,要么總是同步變,我們大概可以猜測,這兩個氨基酸在三維空間里很近,必須彼此配合。AlphaFold2也需要這些信息幫助它完成初始的猜測和訓(xùn)練過程。

 

最后的結(jié)果怎么樣呢?

 

我們可以從兩個維度看看AlphaFold2的表現(xiàn)。

 

首先橫向比較一下。

 

CASP大賽的規(guī)則大概是這樣的,組織者給參賽選手提供了一批蛋白質(zhì)分子的氨基酸序列,這些蛋白質(zhì)分子的三維結(jié)構(gòu)要么正在被實(shí)驗(yàn)解析過程中,要么已經(jīng)被實(shí)驗(yàn)解析出來了,但是沒有公開給參賽者。參賽者完成蛋白質(zhì)結(jié)構(gòu)預(yù)測之后,把他們的結(jié)果和真實(shí)結(jié)構(gòu)進(jìn)行對比,評分,然后排名。

 

在2020年的第十四屆CASP大賽中,AlphaFold2高居第一,而且得分遠(yuǎn)遠(yuǎn)超過排名第二的 David Baker 教授實(shí)驗(yàn)室。第一名和第二名的差距,甚至比第二名到最后一名的差距還大。

 

接著再縱向比較一下。

 

從1994年CASP大賽開始,人類預(yù)測蛋白質(zhì)結(jié)構(gòu)的能力一直在緩慢但持續(xù)提高。對于很小、結(jié)構(gòu)簡單的蛋白質(zhì),利用剛才講的傳統(tǒng)方法,準(zhǔn)確率已經(jīng)非常高了。但是對于尺寸比較大、結(jié)構(gòu)復(fù)雜、也沒有太多已知結(jié)構(gòu)可以參照的蛋白質(zhì),一直到2018年AlphaFold1參賽的時候,表現(xiàn)還乏善可陳。

 

但是,AlphaFold2改變了一切!對于所有90幾個蛋白質(zhì),它預(yù)測的結(jié)構(gòu)得到了92.4的中位數(shù)得分,即便對于最難的那部分蛋白質(zhì),它也得到了87分。這個分?jǐn)?shù)怎么理解呢?首先,90分的得分被認(rèn)為是個門檻,得分到了90,就說明預(yù)測結(jié)果已經(jīng)和真實(shí)結(jié)構(gòu)基本一致。

 

也就是說,AlphaFold2實(shí)現(xiàn)了人類在蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域史無前例的巨大進(jìn)步。有史以來第一次,人類可以說,我們不用做實(shí)驗(yàn),也能從氨基酸序列直接推測出蛋白質(zhì)的三維結(jié)構(gòu)。中心法則的最后缺環(huán),眼看著就要被填補(bǔ)了。

 

當(dāng)然,和所有科技進(jìn)步一樣,AlphaFold2也不是十全十美的。

 

比如,它的表現(xiàn)并不是非常穩(wěn)定。我們剛說了,得分超過90就意味著正確,AlphaFold2的得分中位數(shù)已經(jīng)是92.4,但是在其中幾個蛋白質(zhì)的結(jié)構(gòu)預(yù)測里,它的得分并不高——關(guān)于具體原因人們有一些猜測,但是還需要更多研究看看它是不是可以避免的技術(shù)問題。這樣一來,它的實(shí)用性當(dāng)然就會受到影響,畢竟要是放一個全新蛋白質(zhì)進(jìn)去預(yù)測,你也不知道這一次AlphaFold2到底是做對了還是抽風(fēng)了。

 

還有,AlphaFold2對于那種超級巨型的蛋白質(zhì)復(fù)合體,對于蛋白質(zhì)和DNA/RNA/小分子結(jié)合形成的復(fù)合物,預(yù)測能力還有待檢驗(yàn)。

 

但我倒是覺得,這些技術(shù)方面的優(yōu)化很快就能得到解決。打個比方,人類想飛的歷史足有上千年,但從1903年萊特兄弟的飛機(jī)跌跌撞撞飛了36.5米之后,人類只用了十幾年就造出了能夠飛躍大西洋的飛機(jī)。在從0到1的原始突破完成之后,在從1到100,到10000的路上,人類往往能迸發(fā)出驚人的戰(zhàn)斗力。

 

4

這項(xiàng)成就意味著什么?


最后,我們花點(diǎn)時間展望一下這項(xiàng)突破意味著什么。

 

有些前景很容易想到。我想,可能在幾年之后,AlphaFold就將具備替代實(shí)驗(yàn)研究、直接從蛋白質(zhì)氨基酸序列大批量生產(chǎn)蛋白質(zhì)三維結(jié)構(gòu)的能力。剛才說過,在人類已知的1.8億條基因序列中,只有不到0.1%的獲得了三維結(jié)構(gòu)信息。可想而知,隨著AlphaFold的成熟,人類關(guān)于蛋白質(zhì)分子的理解將會有一次革命性的升級。

 

也許,這些海量的結(jié)構(gòu)信息,能讓我們把對生命現(xiàn)象的理解往前大大推進(jìn)一步:也許有一天,我們只需要測定一個物種的基因組DNA序列信息,就能相應(yīng)地預(yù)測這個物種生產(chǎn)的全部蛋白質(zhì)分子機(jī)器的三維結(jié)構(gòu),然后再猜測出這些分子機(jī)器到底是執(zhí)行什么生物學(xué)功能的。到那個時候,我們不光能根據(jù)DNA信息憑空想象出一種生物的樣貌和生物學(xué)特征,甚至還能反過來,根據(jù)我們想要的生物學(xué)特性,設(shè)計出需要的蛋白質(zhì)分子,再到一個物種的遺傳物質(zhì),真正做到從無到有的人造生命。

 

當(dāng)然,在這種比較科幻的場景到來之前,AlphaFold也有很多實(shí)際的應(yīng)用價值。

 

比如,我們完全可以設(shè)想這樣的場景:一名癌癥患者找到醫(yī)生,醫(yī)生測定了他體內(nèi)腫瘤細(xì)胞的基因序列,發(fā)現(xiàn)他體內(nèi)某一個特殊蛋白質(zhì)發(fā)生了變異,因此導(dǎo)致了癌癥。同時,醫(yī)生還能對這種特殊蛋白質(zhì)進(jìn)行結(jié)構(gòu)預(yù)測,有針對性地設(shè)計一個藥物與之結(jié)合,破壞其功能,從而治療癌癥。所有這一切只需要幾天時間。到那個時候,疾病的診斷和治療將變得高度個性化,疾病-基因-蛋白質(zhì)結(jié)構(gòu)-藥物設(shè)計會形成一個完整的閉環(huán)。

 

生物學(xué)范疇的價值可能已經(jīng)讓你心潮澎湃了?干脆,我們再徹底放飛一下。

 

從同源建模到Rosetta再到AlphaFold2,在蛋白質(zhì)結(jié)構(gòu)預(yù)測這個領(lǐng)域,我們能看到一個有意思的歷史趨勢——問題的解決方案越來越不依賴于人類的先驗(yàn)知識,也越來越無法被人類理解了。

 

同源建模的場景里,對一個蛋白質(zhì)進(jìn)行結(jié)構(gòu)預(yù)測,需要非常具體的先驗(yàn)知識——得有一個氨基酸序列高度接近、而且結(jié)構(gòu)已經(jīng)被人類解析的樣本作為參考比對才行。從已知到未知的腳步,邁得非常小。

 

Rosetta軟件已經(jīng)能夠擺脫對已知蛋白質(zhì)結(jié)構(gòu)的依賴,處理全新的蛋白質(zhì)結(jié)構(gòu)信息了,但是它同樣依賴于人類關(guān)于蛋白質(zhì)的物理化學(xué)知識的積累——我們得知道哪些氨基酸彼此靠近會更穩(wěn)定,哪些氨基酸天然排斥等等。

 

反過來,這些傳統(tǒng)方法的結(jié)果,我們看了也能大概知道它是根據(jù)什么邏輯得出的。比如說,是根據(jù)氨基酸序列接近的蛋白質(zhì)三維結(jié)構(gòu)也比較接近,或者,是根據(jù)氨基酸分子之間的能量狀態(tài)變化等等。

 

到了AlphaFold2這里,在完成初始的訓(xùn)練之后,它已經(jīng)可以做到,不依賴任何先驗(yàn)知識做結(jié)構(gòu)預(yù)測了。實(shí)際上,在AlphaFold2的運(yùn)算過程里,它根本不需要知道自己處理的是蛋白質(zhì)分子的三維結(jié)構(gòu)。在它看來——如果它能看的話——自己處理的無非是大量節(jié)點(diǎn)在三維空間中的彼此距離,以及哪個組合方式得分比較高,至于處理的是氨基酸分子的排布,還是廣場上一群人的運(yùn)動,根本沒有任何差別。

 

這也就導(dǎo)致了一個問題:我們知道AlphaFold2表現(xiàn)很好,但我們無從理解AlphaFold2到底是根據(jù)什么規(guī)則、什么原理得到了這樣的表現(xiàn)。就算AlphaFold2具備了自我意識,能夠和我們對話,它充其量也就是告訴我們,在人工智能算法里使用到的成百上千個參數(shù)分別是多大,而已。至于為什么會有這些參數(shù),為什么這些參數(shù)的數(shù)值是這樣的,它不理解,我們也不理解。

 

在我看來,這意味著在人工智能時代,人類獲取知識的邏輯將要發(fā)生一次地動山搖的變革。

 

人類認(rèn)識世界、獲取知識的辦法,無外乎是對小樣本數(shù)據(jù)的歸納和演繹。我花了幾天功夫觀察綿羊,發(fā)現(xiàn)它們都是白色的,因此提出 “綿羊都是白色的” 這個命題——這是歸納法;我認(rèn)為綿羊都是白色的,而我面前有一只黑色的動物,因此我判斷它不是綿羊——這是演繹法。歸納和演繹得到的結(jié)果并不總是正確的,我剛剛這個例子就是錯的,但它是人類認(rèn)知世界的起點(diǎn)。

 

反復(fù)利用歸納和演繹的方法,人類對世界的認(rèn)知過程大概是這個樣子的:對有限的小樣本進(jìn)行觀察和分析,試圖提煉出一般性的法則,再對這個法則進(jìn)行更多的檢驗(yàn),進(jìn)一步證明或者推翻它。

 

比如,通過觀察部分星體的運(yùn)行軌跡,人們總結(jié)出了開普勒三定律和牛頓定律,并在這些定律的指導(dǎo)下預(yù)測和發(fā)現(xiàn)了海王星,而在這些定律出現(xiàn)問題的場合,人們找到了全新的規(guī)律——廣義相對論。要是腦子里沒有這些定律,我們在夜晚抬頭望向星空的時候,看到的只是隨機(jī)運(yùn)動的一團(tuán)亂麻。

 

但是在人工智能這里,這套認(rèn)知方法論可能是無效的、至少是不必要的。大力出奇跡的做法,讓算法知其然的同時完全不需要知其所以然。今天,算法可以在不懂圍棋精神也不看人類棋譜的條件下,戰(zhàn)勝圍棋世界冠軍;可以在完全不知道什么是人臉、什么是眼睛鼻子嘴的條件下,做到精確的面孔識別;可以在不知道什么叫語法、什么是主謂賓、什么是名詞形容詞的條件下,做到人類語言處理;可以在不借助任何蛋白質(zhì)化學(xué)理論的條件下,預(yù)測蛋白質(zhì)結(jié)構(gòu)……所有這一切,只需要大量數(shù)據(jù)的訓(xùn)練。必須承認(rèn),這是一種全新的、人類并不習(xí)慣也無法真正理解、但是非常管用的認(rèn)知方法論。

 

這對于人類來說意味著什么呢?

 

想要推測是很困難的,畢竟人的推測依靠的也僅僅是歸納和演繹。但我想,有一點(diǎn)是肯定的,我們不得不習(xí)慣和大量的 “異類” 新知識相處,我們確實(shí)知道它們是對的、是有用的,但就不知道它是怎么來的。

 

要知道,對于曾經(jīng)的人類來說,所有的知識都來自歸納和演繹這種能夠理解的認(rèn)知方式,用歸納和演繹也應(yīng)該能得到所有我們需要的知識,這是一種無以倫比的智力驕傲。希爾伯特說,“我們必將知道,我們必須知道”,背后的精神支持正是如此。

 

但慢慢的,我們會不會干脆放棄自己尋求新的知識,放棄歸納和演繹的方法,完全依賴于算法為我們提供的新知識?打個比方,我們小時候大概都通過擺弄小石子知道了為什么一加一等于二,二加三等于五。如果一個人從出生起就只能通過計算器了解數(shù)字,他當(dāng)然也會掌握一加一等于二,二加三等于五,但是會不會從頭開始就完全不理解、也不想理解這些算式背后的意義是什么?我們會不會慢慢地也像算法一樣,習(xí)慣于知其然而不知其所以然?

 

在AI快速進(jìn)步的時代,太多人擔(dān)憂AI取代人類工作,甚至是戰(zhàn)勝和消滅人類。相比這些猜測,我倒是更擔(dān)心AI對人類認(rèn)知的沖擊。生活在一個答案顯而易見、唾手可得、但推導(dǎo)過程完全隱藏在黑暗之中的時代,對我們到底意味著什么呢?

 

哦,在故事的最后,也請?jiān)试S我吐槽一下。

 

最近這段時間,互聯(lián)網(wǎng)行業(yè)最熱門的話題就是巨頭紛紛砸下重金,加入社區(qū)團(tuán)購的賽場。利用數(shù)據(jù),利用算法,利用手里的鈔票,巨頭們苦苦研究的話題是怎么把瓜果生鮮便宜、快速、精準(zhǔn)地送到每一個消費(fèi)者手中。在購物、打車、外賣這些熱點(diǎn)之后,買菜成了互聯(lián)網(wǎng)最時髦的話題。

 

這當(dāng)然是個好生意。但我總是忍不住想,我們能不能干點(diǎn)別的?掌握著海量的數(shù)據(jù)和牛叉的人工智能算法,互聯(lián)網(wǎng)巨頭們能搞出類似AlphaGo和AlphaFold這樣可能改變?nèi)祟愂澜缑婷驳臇|西嗎?

 

有兩句話我特別喜歡。一句話來自PayPal的創(chuàng)始人彼得·蒂爾(Peter Thiel),他說,“We wanted flying cars, instead we got 140 characters”,我們需要能飛的汽車,但結(jié)果卻得到了140個字符。一句話來自登月英雄巴茲·奧爾德林(Buzz Aldrain),他說 “You promised me Mars colonies. Instead, I got Facebook”。你答應(yīng)帶我們殖民火星,可我們最后只得到了 Facebook。兩句話其實(shí)都在表達(dá),對掌握海量資源和先進(jìn)科技的互聯(lián)網(wǎng)巨頭的失望之情。

 

我想也許我也能吐槽一句:咱們能不能別光惦記著幾捆青菜、幾斤水果,說好的星辰大海呢?

 

好了,這就是本期的巡山報告。下個月6號,我繼續(xù)為你巡山。

 


關(guān)于智識前沿學(xué)者計劃

 

“智識前沿學(xué)者計劃”,由公益組織 “智識學(xué)研社” 在今年7月推出,在影響人類未來生活的若干前沿科技領(lǐng)域,選拔出一批為科學(xué)進(jìn)步或其應(yīng)用做出努力的杰出青年學(xué)者,資助和鼓勵他們持續(xù)追蹤和分析前沿科技領(lǐng)域的新發(fā)現(xiàn)、新動向和新機(jī)會,并積極分享他們的專業(yè)判斷,促進(jìn)前沿科技信息的交流和公共討論,為正在快速進(jìn)展的前沿科技留影、存檔,為讀者提供重要的文獻(xiàn)式的科學(xué)指路牌,記錄參考消息式的科學(xué)當(dāng)代史。

首批入選 “智識前沿學(xué)者計劃” 的青年學(xué)者,生物學(xué)家、浙江大學(xué)教授王立銘將為大家?guī)砩茖W(xué)領(lǐng)域的 “巡山報告”, 他計劃深入挖掘生命科學(xué)領(lǐng)域新發(fā)現(xiàn)、新思想背后的來龍去脈,全面探討生命科學(xué)領(lǐng)域的發(fā)展方向和未來影響,將這一項(xiàng)目打造成中國生命科學(xué)研究瞭望未來的燈塔, 為各個利益相關(guān)方,包括科學(xué)家、政策制定者、科研資助者、媒體和公眾,提供公共議事的基礎(chǔ)和意見交鋒的平臺,見證生命健康領(lǐng)域的長期健康發(fā)展。



一個彩蛋


知識分子總編輯、生物學(xué)家饒毅點(diǎn)評本期巡山報告:


 “請?jiān)试S吐槽:預(yù)測蛋白質(zhì)結(jié)構(gòu)不可能是生命科學(xué)三大問題,三千大問題也許算一個。不僅預(yù)測不那么重要,大部分生物學(xué)家也不依賴蛋白質(zhì)結(jié)構(gòu),只有很少一些蛋白質(zhì)結(jié)構(gòu)對于推進(jìn)生物學(xué)理解很重要。


AlphaFold真的對生命科學(xué)發(fā)起了顛覆性的沖擊嗎?


今晚7點(diǎn),由智識學(xué)研社與智源社區(qū)策劃共同發(fā)起的"智2平方"論壇,與騰訊新聞獨(dú)家合作,力邀結(jié)構(gòu)生物學(xué)、生物信息學(xué)和人工智能等領(lǐng)域的專家學(xué)者,將帶來更多精彩解讀,再次探討人工智能與人類的未來。歡迎收看直播。


 制版編輯 盧卡斯


參與討論
0 條評論
評論
暫無評論內(nèi)容
知識分子是由饒毅、魯白、謝宇三位學(xué)者創(chuàng)辦的移動新媒體平臺,致力于關(guān)注科學(xué)、人文、思想。
訂閱Newsletter

我們會定期將電子期刊發(fā)送到您的郵箱

GO