午夜dv内射一区区,性少妇vide0exfreexxx片性少妇√,忘记穿内裤被同桌c到高潮

王立銘：人工智能預(yù)測(cè)蛋白結(jié)構(gòu)再獲突破，意味著什么？ | 巡山報(bào)告

2020/12/06

導(dǎo)讀

大力出奇跡？

編者按

最近，DeepMind 開(kāi)發(fā)的程序 AlphaFold 在一個(gè)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)大賽中奪得冠軍，并將蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)做到了基本接近實(shí)用的水平。

這一事件對(duì)生命科學(xué)的發(fā)展意味著什么？人工智能的發(fā)展對(duì)于人類理解世界的方式有何影響？且看 “智識(shí)前沿學(xué)者”、浙江大學(xué)教授王立銘今日 “生命科學(xué)·巡山報(bào)告”。

吃啥補(bǔ)啥，心誠(chéng)則靈與針灸的最新生物學(xué)解釋

讓你好吃懶做的 “節(jié)儉基因”，真的存在嗎？

撰文 | 王立銘

● 　● 　●

大家好，我是王立銘。2020年12月6日，生命科學(xué)·巡山報(bào)告又和大家見(jiàn)面了。

說(shuō)起來(lái)有點(diǎn)慚愧，剛過(guò)去的這個(gè)月，生命科學(xué)領(lǐng)域值得專門(mén)拿出來(lái)講的重大新聞似乎不多，我本來(lái)以為這期巡山能偷個(gè)小懶。結(jié)果在11月的最后一天，居然從天而降了一個(gè)可能是本年度、甚至是最近十年最重要的生命科學(xué)突破。

所以，今天這期巡山報(bào)告，我還是得打起12分精神，和你聊聊這個(gè)話題。

簡(jiǎn)單來(lái)說(shuō)，2020年11月30日，谷歌旗下的人工智能公司 DeepMind 開(kāi)發(fā)的程序AlphaFold2，在2020年度的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)大賽CASP14中，取得了驚人的好成績(jī)。不僅力壓世界范圍內(nèi)參賽的100多個(gè)團(tuán)隊(duì)，獲得冠軍，還有史以來(lái)第一次把蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)這個(gè)任務(wù)，做到了基本接近實(shí)用的水平。

說(shuō)起 DeepMind，你應(yīng)該不陌生。你大概還記得曾經(jīng)橫掃棋壇、并且戰(zhàn)勝人類排名第一的棋手柯潔的圍棋程序——AlphaGo。長(zhǎng)久以來(lái)，圍棋被看作是人類發(fā)明的最復(fù)雜、最具開(kāi)放性的智力游戲，很多人預(yù)測(cè)，計(jì)算機(jī)在幾百年時(shí)間內(nèi)都不可能在圍棋上戰(zhàn)勝人腦。但在2017年，橫空出世的AlphaGo讓很多人真正意識(shí)到了人工智能和深度學(xué)習(xí)的強(qiáng)大力量。AlphaGo也是這家叫 DeepMind 的公司開(kāi)發(fā)的。

和AlphaGo名字類似的 AlphaFold2 又是何方神圣呢？我猜，這幾天你從新聞上已經(jīng)看到不少介紹了，不過(guò)我的感覺(jué)是，大部分介紹都沒(méi)說(shuō)到點(diǎn)子上，光顧著激動(dòng)了。這期巡山，你不妨先把最近看到的那些信息都忘了，我們從頭開(kāi)始，把這件事的來(lái)龍去脈和價(jià)值說(shuō)清楚。

蛋白質(zhì)折疊：

生物學(xué)最核心的未知問(wèn)題之一

首先，我們看看AlphaFold2解決的到底是什么問(wèn)題。

剛才說(shuō)了，它的目標(biāo)是蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)。在我看來(lái)，這可能是整個(gè)生命科學(xué)領(lǐng)域最重要的三個(gè)問(wèn)題之一。其他兩個(gè)，我認(rèn)為分別是生命的起源問(wèn)題，和人類大腦的工作原理問(wèn)題。

“蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)”，聽(tīng)起來(lái)有點(diǎn)專業(yè)，外人也不那么容易理解它的意義。如果說(shuō)得大一點(diǎn)兒，這個(gè)問(wèn)題關(guān)系到遺傳信息的本質(zhì)是什么，遺傳信息是如何流動(dòng)、如何影響地球生命的各種特性的。

你大概聽(tīng)說(shuō)過(guò)生物學(xué)里所謂的 “中心法則”。在充滿例外的生命科學(xué)領(lǐng)域， “中心法則” 幾乎是唯一一個(gè)被冠以 “法則” 之名的規(guī)律，重要性可想而知。

中心法則說(shuō)的是，在地球生物世代繁衍的過(guò)程中，上一代生物會(huì)把自身攜帶的遺傳物質(zhì)，也就是DNA分子，照原樣復(fù)制一份，傳遞到后代體內(nèi)，一代代傳遞下去，永無(wú)止境。而在每一代生物從生到死的過(guò)程中，這套DNA分子能以自身為設(shè)計(jì)藍(lán)圖，指導(dǎo)生產(chǎn)大量的微型分子機(jī)器，也就是各種蛋白質(zhì)分子，執(zhí)行各種各樣的生物學(xué)功能，共同支持每一代生物的生存和活動(dòng)。

本質(zhì)上說(shuō)，中心法則指明了遺傳信息的兩個(gè)流動(dòng)方向：

一個(gè)方向是在世代之間，DNA通過(guò)DNA-->DNA的自我復(fù)制，持續(xù)一代代傳遞，保證上一代和下一代之間攜帶的遺傳物質(zhì)非常接近，因此也呈現(xiàn)出高度的相似性。在這個(gè)過(guò)程中，隨機(jī)出現(xiàn)的基因突變，會(huì)讓每一代生物出現(xiàn)微小的差異，自然選擇和生物進(jìn)化也得以實(shí)現(xiàn)。另一個(gè)方向是在同一個(gè)生物體內(nèi)的每一個(gè)細(xì)胞中，DNA通過(guò)RNA分子指導(dǎo)蛋白質(zhì)生產(chǎn)（DNA-->RNA-->蛋白質(zhì)），讓各種具體的生物活動(dòng)得以開(kāi)展。

從上個(gè)世紀(jì)五六十年代至今，中心法則的很多技術(shù)細(xì)節(jié)都得到了深入研究。我大概數(shù)了下，在半個(gè)多世紀(jì)中，至少有二三十個(gè)諾貝爾獎(jiǎng)和中心法則相關(guān)。DNA分子如何實(shí)現(xiàn)自我復(fù)制和自我修復(fù)，DNA如何指導(dǎo)RNA的生產(chǎn)，RNA如何被剪切和拼接，RNA如何指導(dǎo)蛋白質(zhì)的組裝，蛋白質(zhì)分子如何被降解等等。有意思的是，搞清楚中心法則的技術(shù)細(xì)節(jié)能得獎(jiǎng)，找到中心法則的反例也能得獎(jiǎng)。這樣的例子也挺不少。

但是，在中心法則的完整圖景里，有一個(gè)最大的空白、一個(gè)最關(guān)鍵的遺留問(wèn)題，就是蛋白質(zhì)分子機(jī)器到底是怎么組裝完成、開(kāi)展工作的。

我們現(xiàn)在知道，DNA分子指導(dǎo)蛋白質(zhì)分子生產(chǎn)的原則很簡(jiǎn)單，DNA鏈條上三個(gè)相鄰的堿基分子，對(duì)應(yīng)蛋白質(zhì)分子中一個(gè)特定的氨基酸分子。比如，ATG三個(gè)堿基對(duì)應(yīng)的就是甲硫氨酸，GAG對(duì)應(yīng)的就是谷氨酸，等等。忽略掉所有技術(shù)細(xì)節(jié)，你可以這么想象：在細(xì)胞內(nèi)部，一條300個(gè)堿基長(zhǎng)度的DNA鏈條，能指導(dǎo)生產(chǎn)出一個(gè)蛋白質(zhì)分子，也就是由100個(gè)氨基酸首尾相連組成的鏈條。

DNA分子作為遺傳信息的載體，它的物理結(jié)構(gòu)可以認(rèn)為是無(wú)關(guān)緊要的，是拉成一條直線、團(tuán)成一團(tuán)毛線球，還是干脆抄寫(xiě)下來(lái)存在筆記本里，只要這300個(gè)堿基的名稱和先后順序不亂，它記載的信息就始終是完整的、不變的。但蛋白質(zhì)分子則不然。這個(gè)由100個(gè)氨基酸組成的鏈條，一定要在細(xì)胞中折疊、扭曲、纏繞成某個(gè)特殊的三維結(jié)構(gòu)，才能開(kāi)始工作。

我類比一下你就明白了。比如你要生產(chǎn)小轎車，設(shè)計(jì)圖紙是打印出來(lái)還是存在電腦里，是攤平放還是卷成卷，是紅色墨水寫(xiě)還是藍(lán)色墨水寫(xiě)，其實(shí)都無(wú)關(guān)緊要。但是在生產(chǎn)過(guò)程中，每一個(gè)零件，從發(fā)動(dòng)機(jī)到雨刷器，都必須被嚴(yán)格的放置在特定的位置，按照特定的方式組裝起來(lái)，小轎車才能正常工作。

那真正的問(wèn)題就變成了，蛋白質(zhì)分子怎么知道如何形成某個(gè)特定的三維結(jié)構(gòu)呢？我們還是說(shuō)那個(gè)由100個(gè)氨基酸組成的鏈條，在形成三維結(jié)構(gòu)的過(guò)程里，它怎么知道每個(gè)氨基酸應(yīng)該出現(xiàn)在什么位置，需要和哪幾個(gè)氨基酸靠近呢？

早在上個(gè)世紀(jì)，人們就做出了正確的猜測(cè)。簡(jiǎn)單來(lái)說(shuō)，這些空間位置信息，就蘊(yùn)含在蛋白質(zhì)分子自身當(dāng)中。說(shuō)得更具體一點(diǎn)，組成蛋白質(zhì)的氨基酸分子一共有20種，它們有的帶正電荷，有的帶負(fù)電荷，有的大一點(diǎn)，有的小一點(diǎn)，有的喜歡結(jié)合水分子，有的討厭水分子。因此，蛋白質(zhì)一旦被生產(chǎn)出來(lái)，組成它的氨基酸就會(huì)根據(jù)上面這些不同屬性，開(kāi)始移動(dòng)和組合。

這個(gè)過(guò)程有點(diǎn)像磁鐵組裝玩具，拿一堆零件放一起晃一晃，它們就能自己吸附在一起形成一大坨。當(dāng)然，蛋白質(zhì)分子里那些氨基酸分子的順序和特性，保證它在大多數(shù)時(shí)候能扭曲折疊得一模一樣，批量生產(chǎn)出好用的蛋白質(zhì)分子機(jī)器。

這個(gè)猜測(cè)在1950年代被美國(guó)科學(xué)家 Christian Anfinsen 用實(shí)驗(yàn)手段證明。Anfinsen發(fā)現(xiàn)，即便用化學(xué)方法人為破壞蛋白質(zhì)分子的三維結(jié)構(gòu)，但只要洗掉這些干擾，蛋白質(zhì)分子就能自己重新扭曲折疊成完全一樣的三維結(jié)構(gòu)。DNA分子的堿基順序，決定了蛋白質(zhì)分子的氨基酸順序，也決定了蛋白質(zhì)分子的三維結(jié)構(gòu)和生物學(xué)功能，因此成為共識(shí)。

但是，這么說(shuō)并沒(méi)有解決全部的問(wèn)題。理論上我們已經(jīng)知道，蛋白質(zhì)分子能自己決定扭曲折疊成什么樣子，但是我們實(shí)際上并不知道蛋白質(zhì)分子是如何做到這一點(diǎn)的。要知道，一個(gè)100個(gè)氨基酸的蛋白質(zhì)分子，這100個(gè)氨基酸在三維空間上的排列組合方式幾乎是無(wú)窮無(wú)盡，一種一種嘗試的話，可能試到宇宙盡頭也找不到正確的那一種。真實(shí)世界里的蛋白質(zhì)，怎么做到幾乎是瞬間就能扭曲折疊到最合適的位置的呢？

說(shuō)到這里，我想你應(yīng)該能明白為什么我說(shuō)蛋白質(zhì)折疊是生物學(xué)最大的三個(gè)未知問(wèn)題之一了。

首先，它關(guān)系到代代相傳的遺傳信息，到底是怎么指導(dǎo)生命活動(dòng)的。其次，它有很強(qiáng)的應(yīng)用價(jià)值。因?yàn)榻^大多數(shù)藥物都是通過(guò)結(jié)合特定的蛋白質(zhì)來(lái)起作用的，如果能搞清楚蛋白質(zhì)分子怎么折疊、三維結(jié)構(gòu)長(zhǎng)什么樣，我們就能更方便的設(shè)計(jì)出專門(mén)結(jié)合它的藥物來(lái)治療疾病。最后，當(dāng)然是因?yàn)檫@個(gè)問(wèn)題非常非常非常非常的難。

解決蛋白質(zhì)折疊問(wèn)題的傳統(tǒng)思路

如此重要的問(wèn)題，當(dāng)然吸引了大量科學(xué)家的注意，在過(guò)去幾十年時(shí)間里，也取得了一些不錯(cuò)的進(jìn)展。這里簡(jiǎn)單回顧一下。

一個(gè)最容易想到、也最早取得突破的思路，是干脆通過(guò)實(shí)驗(yàn)的手段 “看到” 蛋白質(zhì)分子的三維結(jié)構(gòu)——不管這個(gè)結(jié)構(gòu)是怎么來(lái)的，先搞清楚它長(zhǎng)什么樣子再說(shuō)。

1959年，英國(guó)科學(xué)家 Max Perutz 利用X射線衍射的方法——你可以通俗理解成用X射線照射蛋白質(zhì)分子，然后根據(jù)射線被散射的角度推測(cè)電子的位置——解析了肌紅蛋白分子的三維結(jié)構(gòu)。這是人類歷史上第一次徹底看清蛋白質(zhì)分子機(jī)器的細(xì)節(jié)。

在那里之后直到今天，有超過(guò)17萬(wàn)個(gè)蛋白質(zhì)分子的結(jié)構(gòu)被解析出來(lái)。除了X射線衍射之外，核磁共振以及最近火熱的冷凍電子顯微鏡技術(shù)也發(fā)揮了重要作用。半個(gè)多世紀(jì)以來(lái)，研究蛋白質(zhì)結(jié)構(gòu)的相關(guān)工作也已經(jīng)拿過(guò)20多項(xiàng)諾貝爾獎(jiǎng)。

這個(gè)“眼見(jiàn)為實(shí)”的思路，好處是一錘定音，看到什么就是什么，但這個(gè)思路的問(wèn)題也顯而易見(jiàn)——技術(shù)上太麻煩。歷史上，動(dòng)輒有科學(xué)家耗費(fèi)幾年、幾十年時(shí)間才能得到一個(gè)清晰的蛋白質(zhì)三維結(jié)構(gòu)，這就導(dǎo)致蛋白質(zhì)三維結(jié)構(gòu)成了生物學(xué)領(lǐng)域非常要命的瓶頸。比如，因?yàn)榛驕y(cè)序技術(shù)的高速進(jìn)步，人類掌握的基因序列已經(jīng)有1.8億條，換句話說(shuō)，我們已經(jīng)知道氨基酸順序的蛋白質(zhì)分子已經(jīng)有1.8億個(gè)，其中三維結(jié)構(gòu)信息被徹底看清的只有17萬(wàn)個(gè)，還不到0.1%。

這也因此催生了一個(gè)反其道而行的思路：既然我們知道氨基酸的順序決定了蛋白質(zhì)的三維結(jié)構(gòu)，有沒(méi)有可能不做實(shí)驗(yàn)，直接從氨基酸的順序出發(fā)，推測(cè)蛋白質(zhì)分子的三維結(jié)構(gòu)呢？

沿著這個(gè)思路，人們也取得了一些值得一提的進(jìn)展。技術(shù)上最容易實(shí)現(xiàn)的方法，是從已知結(jié)構(gòu)出發(fā)推測(cè)未知結(jié)構(gòu)。

比如所謂的 “同源建?！?的方法。這個(gè)方法的邏輯很簡(jiǎn)單，既然氨基酸順序決定了蛋白質(zhì)三維結(jié)構(gòu)，可想而知，如果兩個(gè)蛋白質(zhì)的氨基酸順序非常接近，那它們的三維結(jié)構(gòu)也應(yīng)該接近。打個(gè)比方，豬的胰島素分子和人的胰島素分子都是由51個(gè)氨基酸組成，其中只差了1個(gè)氨基酸，那兩個(gè)分子的三維結(jié)構(gòu)肯定可以互相參照。如果前者的三維結(jié)構(gòu)已經(jīng)被解析出來(lái)了，推測(cè)后者的三維結(jié)構(gòu)就比較容易了。

如果兩個(gè)蛋白質(zhì)的氨基酸序列并不是那么接近，同源建模就不太管用了。人們也發(fā)展出了所謂 “蛋白質(zhì)穿線” 或者叫 “折疊識(shí)別” 的方法。和同源建模類似，穿線的邏輯也是把未知蛋白質(zhì)的結(jié)構(gòu)往已知的結(jié)構(gòu)模式上套。它的默認(rèn)邏輯是，不管蛋白質(zhì)分子多么千變?nèi)f化，基本的折疊類型是有限的，大概就是1500種。所以只要試的足夠多，總能套上一種比較靠譜的。

除此之外，還有人開(kāi)發(fā)出了一類拋開(kāi)已知結(jié)構(gòu)，直接通過(guò)計(jì)算推測(cè)蛋白質(zhì)結(jié)構(gòu)的思路。代表人物包括華盛頓大學(xué)的 David Baker 教授，他開(kāi)發(fā)了一套名為 “Rosetta”（羅塞塔石碑）的計(jì)算機(jī)程序來(lái)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。

這個(gè)方法擺脫了對(duì)已知結(jié)構(gòu)的依賴，直接從 “蛋白質(zhì)氨基酸順序決定了其三維結(jié)構(gòu)” 這個(gè)結(jié)論出發(fā)。它的工作邏輯是這樣的：在蛋白質(zhì)折疊的過(guò)程中，氨基酸分子會(huì)自發(fā)地尋找讓自己呆著最穩(wěn)定、最舒服，也就是能量狀態(tài)最低的位置。比如，帶正電的氨基酸就會(huì)傾向于找?guī)ж?fù)電的；討厭水分子的就傾向于被包裹到蛋白質(zhì)內(nèi)部，離水遠(yuǎn)一點(diǎn)；兩個(gè)大號(hào)氨基酸相鄰的縫隙里可能能塞進(jìn)去一個(gè)小號(hào)氨基酸，等等。因此，如果能夠窮盡兩兩氨基酸分子之間所有可能的位置及其對(duì)應(yīng)的能量狀態(tài)，就能計(jì)算出一個(gè)整體能量最低、最穩(wěn)定的空間組合，蛋白質(zhì)的三維結(jié)構(gòu)就有了。

這個(gè)邏輯從理論上說(shuō)沒(méi)毛病，但真要落實(shí)是很困難的。因?yàn)橛?jì)算能力的局限，我們不可能在有限時(shí)間內(nèi)把所有氨基酸分子兩兩組合的所有位置都窮舉一遍；因?yàn)槲锢韺W(xué)基礎(chǔ)理論的限制，我們實(shí)際上也不知道如何精確計(jì)算每一個(gè)位置對(duì)應(yīng)的能量狀態(tài)。舉個(gè)例子你就明白了。你大概看過(guò)劉慈欣的《三體》，三個(gè)物體遵循牛頓定律在空間中的運(yùn)動(dòng)，實(shí)際上已經(jīng)無(wú)法預(yù)測(cè)了，要預(yù)測(cè)幾百上千個(gè)氨基酸分子在各種約束條件下的相互作用，物理學(xué)都不允許。

因此，這套R(shí)osetta的辦法實(shí)際上也做了很多妥協(xié)，不追求窮盡所有氨基酸之間的兩兩組合，而是把蛋白質(zhì)分子分割成一個(gè)一個(gè)小片段，考慮片段之間的相互作用，然后再進(jìn)一步考慮原子之間的精細(xì)作用和位置。如果用來(lái)處理氨基酸數(shù)量很小、排列比較規(guī)則的蛋白質(zhì)，效果往往還不錯(cuò)。但稍微復(fù)雜一點(diǎn)的蛋白質(zhì)，預(yù)測(cè)能力就不怎么值得相信了，大概只能說(shuō)是聊勝于無(wú)。

這里簡(jiǎn)單小結(jié)一下：

解決蛋白質(zhì)折疊問(wèn)題，搞清楚蛋白質(zhì)分子的三維結(jié)構(gòu)，是生物學(xué)里懸而未決的幾大終極難題之一。但是截至目前，這個(gè)難題最主要的解法還是費(fèi)時(shí)費(fèi)力的用X射線衍射、冷凍電鏡等方法直接觀察。想要直接計(jì)算和預(yù)測(cè)出蛋白質(zhì)結(jié)構(gòu)，這些傳統(tǒng)的思路效果并不好。

人工智能的解題思路：

AlphaFold1和2

有了這些鋪墊，我們終于要說(shuō)到這次的主角，AlphaFold了。

如果你熟悉AlphaGo的故事，可能大概明白人工智能，特別是深度學(xué)習(xí)方法解決問(wèn)題的基本邏輯是什么。簡(jiǎn)單來(lái)說(shuō)，這是個(gè)指望大力出奇跡的思路。

傳統(tǒng)上，人類學(xué)圍棋，講究的是學(xué)習(xí)棋譜，是反復(fù)練習(xí)，是各種只能意會(huì)不能言傳的 “悟性”。而AlphaGo根本不管那么多，它要做的是，盡可能窮舉所有可能的下法，再看這些下法分別可能產(chǎn)生什么后果，接下來(lái)自己還有哪些可能的下法，又會(huì)帶來(lái)什么后果…… 通過(guò)反復(fù)訓(xùn)練，AlphaGo能積累足夠的 “經(jīng)驗(yàn)”，知道在某個(gè)時(shí)候哪個(gè)下法最終獲勝的概率更大。通過(guò)這樣的暴力訓(xùn)練，后期的 AlphaGo Zero 甚至可以做到，只需要知道圍棋的基本規(guī)則，比如怎么吃子、怎么判斷勝負(fù)，就可以在完全無(wú)視人類所有經(jīng)驗(yàn)的條件下學(xué)成絕技，笑傲棋壇。

2018年，DeepMind的第一代蛋白質(zhì)折疊算法——AlphaFold1——參加了第13屆CASP比賽，就已經(jīng)拿了第一名的成績(jī)，也在業(yè)界震動(dòng)不小。但它在大眾當(dāng)中引起的水花并不很大。我猜，原因主要有兩個(gè)，首先，AlphaFold1雖然拿了第一，但是比第二名的優(yōu)勢(shì)并不明顯，也沒(méi)有表現(xiàn)出比傳統(tǒng)思路，有什么革命性的差異。但更重要的是，AlphaFold1并不能算是人工智能完全體，它還借鑒了不少學(xué)術(shù)研究的成果，特別是David Baker教授的Rosetta程序和芝加哥大學(xué)徐錦波教授的 RaptorX-Contact 程序。順便我還多說(shuō)一句，在CASP13結(jié)束后，南開(kāi)大學(xué)的楊建益教授和 David Baker 教授合作，開(kāi)發(fā)了新一代的trRosetta程序并且公布了全部核心代碼，這個(gè)程序的性能已經(jīng)超越了AlphaFold1，還被今年參加CASP 14的很多隊(duì)伍所借鑒。

但是，今年的AlphaFold2就完全不同了。它并不是1代的升級(jí)版，可以說(shuō)是一個(gè)全新的蛋白質(zhì)折疊算法。

盡管目前DeepMind還沒(méi)有公布AlphaFold2的技術(shù)細(xì)節(jié)，但是大致原理已經(jīng)公開(kāi)。AlphaFold2的工作原理非常接近剛剛討論過(guò)的大力出奇跡的AlphaGo。我來(lái)粗糙地解釋一下這套算法的訓(xùn)練過(guò)程：

從17萬(wàn)個(gè)已經(jīng)知道三維結(jié)構(gòu)的蛋白質(zhì)分子中，科學(xué)家們挑一個(gè)，把它的氨基酸序列信息 “喂” 給算法，算法大致 “猜測(cè)” 出一個(gè)三維結(jié)構(gòu)。然后，算法把它的猜測(cè)和已知的三維結(jié)構(gòu)進(jìn)行對(duì)比，并且根據(jù)猜測(cè)的結(jié)果是不是靠譜，繼續(xù)調(diào)整猜測(cè)的策略。這樣反復(fù)用17萬(wàn)個(gè)三維結(jié)構(gòu)訓(xùn)練，算法逐漸就獲得了直接從氨基酸序列預(yù)測(cè)蛋白質(zhì)三維結(jié)構(gòu)的能力。

當(dāng)然，我這個(gè)說(shuō)法肯定是過(guò)度簡(jiǎn)化了。要是沒(méi)有任何抓手，算法壓根不知道從何猜起，那也是不行的。比如，我們從DeepMind的介紹里也能看到，算法需要一種所謂 “多序列比對(duì)” 的信息。順便強(qiáng)調(diào)一句，這個(gè)思路可不是DeepMind首創(chuàng)的，它是1993年由德國(guó)科學(xué)家 Chris Sander 提出的技術(shù)路線。

簡(jiǎn)單來(lái)說(shuō)就是，對(duì)任何一個(gè)蛋白質(zhì)分子來(lái)說(shuō)，數(shù)據(jù)庫(kù)里應(yīng)該都有大量和它序列非常類似的蛋白質(zhì)分子。比如我們說(shuō)過(guò)的胰島素蛋白，人的、豬的、牛的、雞的、牛的，彼此之間都只有一些細(xì)微的差別。當(dāng)我們把這些接近但不同的序列放在一起看，就能發(fā)現(xiàn)某些位置的氨基酸特別保守，幾乎不變，有些位置的氨基酸總變來(lái)變?nèi)?，還有些位置的氨基酸要么都不變，要么一起變。

而這些信息，其實(shí)也能反映出在蛋白質(zhì)三維結(jié)構(gòu)里，氨基酸之間的關(guān)系。比如有兩個(gè)氨基酸，要么總是都不變，要么總是同步變，我們大概可以猜測(cè)，這兩個(gè)氨基酸在三維空間里很近，必須彼此配合。AlphaFold2也需要這些信息幫助它完成初始的猜測(cè)和訓(xùn)練過(guò)程。

最后的結(jié)果怎么樣呢？

我們可以從兩個(gè)維度看看AlphaFold2的表現(xiàn)。

首先橫向比較一下。

CASP大賽的規(guī)則大概是這樣的，組織者給參賽選手提供了一批蛋白質(zhì)分子的氨基酸序列，這些蛋白質(zhì)分子的三維結(jié)構(gòu)要么正在被實(shí)驗(yàn)解析過(guò)程中，要么已經(jīng)被實(shí)驗(yàn)解析出來(lái)了，但是沒(méi)有公開(kāi)給參賽者。參賽者完成蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)之后，把他們的結(jié)果和真實(shí)結(jié)構(gòu)進(jìn)行對(duì)比，評(píng)分，然后排名。

在2020年的第十四屆CASP大賽中，AlphaFold2高居第一，而且得分遠(yuǎn)遠(yuǎn)超過(guò)排名第二的 David Baker 教授實(shí)驗(yàn)室。第一名和第二名的差距，甚至比第二名到最后一名的差距還大。

接著再縱向比較一下。

從1994年CASP大賽開(kāi)始，人類預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的能力一直在緩慢但持續(xù)提高。對(duì)于很小、結(jié)構(gòu)簡(jiǎn)單的蛋白質(zhì)，利用剛才講的傳統(tǒng)方法，準(zhǔn)確率已經(jīng)非常高了。但是對(duì)于尺寸比較大、結(jié)構(gòu)復(fù)雜、也沒(méi)有太多已知結(jié)構(gòu)可以參照的蛋白質(zhì)，一直到2018年AlphaFold1參賽的時(shí)候，表現(xiàn)還乏善可陳。

但是，AlphaFold2改變了一切！對(duì)于所有90幾個(gè)蛋白質(zhì)，它預(yù)測(cè)的結(jié)構(gòu)得到了92.4的中位數(shù)得分，即便對(duì)于最難的那部分蛋白質(zhì)，它也得到了87分。這個(gè)分?jǐn)?shù)怎么理解呢？首先，90分的得分被認(rèn)為是個(gè)門(mén)檻，得分到了90，就說(shuō)明預(yù)測(cè)結(jié)果已經(jīng)和真實(shí)結(jié)構(gòu)基本一致。

也就是說(shuō)，AlphaFold2實(shí)現(xiàn)了人類在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域史無(wú)前例的巨大進(jìn)步。有史以來(lái)第一次，人類可以說(shuō)，我們不用做實(shí)驗(yàn)，也能從氨基酸序列直接推測(cè)出蛋白質(zhì)的三維結(jié)構(gòu)。中心法則的最后缺環(huán)，眼看著就要被填補(bǔ)了。

當(dāng)然，和所有科技進(jìn)步一樣，AlphaFold2也不是十全十美的。

比如，它的表現(xiàn)并不是非常穩(wěn)定。我們剛說(shuō)了，得分超過(guò)90就意味著正確，AlphaFold2的得分中位數(shù)已經(jīng)是92.4，但是在其中幾個(gè)蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)里，它的得分并不高——關(guān)于具體原因人們有一些猜測(cè)，但是還需要更多研究看看它是不是可以避免的技術(shù)問(wèn)題。這樣一來(lái)，它的實(shí)用性當(dāng)然就會(huì)受到影響，畢竟要是放一個(gè)全新蛋白質(zhì)進(jìn)去預(yù)測(cè)，你也不知道這一次AlphaFold2到底是做對(duì)了還是抽風(fēng)了。

還有，AlphaFold2對(duì)于那種超級(jí)巨型的蛋白質(zhì)復(fù)合體，對(duì)于蛋白質(zhì)和DNA/RNA/小分子結(jié)合形成的復(fù)合物，預(yù)測(cè)能力還有待檢驗(yàn)。

但我倒是覺(jué)得，這些技術(shù)方面的優(yōu)化很快就能得到解決。打個(gè)比方，人類想飛的歷史足有上千年，但從1903年萊特兄弟的飛機(jī)跌跌撞撞飛了36.5米之后，人類只用了十幾年就造出了能夠飛躍大西洋的飛機(jī)。在從0到1的原始突破完成之后，在從1到100，到10000的路上，人類往往能迸發(fā)出驚人的戰(zhàn)斗力。

這項(xiàng)成就意味著什么？

最后，我們花點(diǎn)時(shí)間展望一下這項(xiàng)突破意味著什么。

有些前景很容易想到。我想，可能在幾年之后，AlphaFold就將具備替代實(shí)驗(yàn)研究、直接從蛋白質(zhì)氨基酸序列大批量生產(chǎn)蛋白質(zhì)三維結(jié)構(gòu)的能力。剛才說(shuō)過(guò)，在人類已知的1.8億條基因序列中，只有不到0.1%的獲得了三維結(jié)構(gòu)信息?？上攵S著AlphaFold的成熟，人類關(guān)于蛋白質(zhì)分子的理解將會(huì)有一次革命性的升級(jí)。

也許，這些海量的結(jié)構(gòu)信息，能讓我們把對(duì)生命現(xiàn)象的理解往前大大推進(jìn)一步：也許有一天，我們只需要測(cè)定一個(gè)物種的基因組DNA序列信息，就能相應(yīng)地預(yù)測(cè)這個(gè)物種生產(chǎn)的全部蛋白質(zhì)分子機(jī)器的三維結(jié)構(gòu)，然后再猜測(cè)出這些分子機(jī)器到底是執(zhí)行什么生物學(xué)功能的。到那個(gè)時(shí)候，我們不光能根據(jù)DNA信息憑空想象出一種生物的樣貌和生物學(xué)特征，甚至還能反過(guò)來(lái)，根據(jù)我們想要的生物學(xué)特性，設(shè)計(jì)出需要的蛋白質(zhì)分子，再到一個(gè)物種的遺傳物質(zhì)，真正做到從無(wú)到有的人造生命。

當(dāng)然，在這種比較科幻的場(chǎng)景到來(lái)之前，AlphaFold也有很多實(shí)際的應(yīng)用價(jià)值。

比如，我們完全可以設(shè)想這樣的場(chǎng)景：一名癌癥患者找到醫(yī)生，醫(yī)生測(cè)定了他體內(nèi)腫瘤細(xì)胞的基因序列，發(fā)現(xiàn)他體內(nèi)某一個(gè)特殊蛋白質(zhì)發(fā)生了變異，因此導(dǎo)致了癌癥。同時(shí)，醫(yī)生還能對(duì)這種特殊蛋白質(zhì)進(jìn)行結(jié)構(gòu)預(yù)測(cè)，有針對(duì)性地設(shè)計(jì)一個(gè)藥物與之結(jié)合，破壞其功能，從而治療癌癥。所有這一切只需要幾天時(shí)間。到那個(gè)時(shí)候，疾病的診斷和治療將變得高度個(gè)性化，疾病-基因-蛋白質(zhì)結(jié)構(gòu)-藥物設(shè)計(jì)會(huì)形成一個(gè)完整的閉環(huán)。

生物學(xué)范疇的價(jià)值可能已經(jīng)讓你心潮澎湃了？干脆，我們?cè)購(gòu)氐追棚w一下。

從同源建模到Rosetta再到AlphaFold2，在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)這個(gè)領(lǐng)域，我們能看到一個(gè)有意思的歷史趨勢(shì)——問(wèn)題的解決方案越來(lái)越不依賴于人類的先驗(yàn)知識(shí)，也越來(lái)越無(wú)法被人類理解了。

同源建模的場(chǎng)景里，對(duì)一個(gè)蛋白質(zhì)進(jìn)行結(jié)構(gòu)預(yù)測(cè)，需要非常具體的先驗(yàn)知識(shí)——得有一個(gè)氨基酸序列高度接近、而且結(jié)構(gòu)已經(jīng)被人類解析的樣本作為參考比對(duì)才行。從已知到未知的腳步，邁得非常小。

Rosetta軟件已經(jīng)能夠擺脫對(duì)已知蛋白質(zhì)結(jié)構(gòu)的依賴，處理全新的蛋白質(zhì)結(jié)構(gòu)信息了，但是它同樣依賴于人類關(guān)于蛋白質(zhì)的物理化學(xué)知識(shí)的積累——我們得知道哪些氨基酸彼此靠近會(huì)更穩(wěn)定，哪些氨基酸天然排斥等等。

反過(guò)來(lái)，這些傳統(tǒng)方法的結(jié)果，我們看了也能大概知道它是根據(jù)什么邏輯得出的。比如說(shuō)，是根據(jù)氨基酸序列接近的蛋白質(zhì)三維結(jié)構(gòu)也比較接近，或者，是根據(jù)氨基酸分子之間的能量狀態(tài)變化等等。

到了AlphaFold2這里，在完成初始的訓(xùn)練之后，它已經(jīng)可以做到，不依賴任何先驗(yàn)知識(shí)做結(jié)構(gòu)預(yù)測(cè)了。實(shí)際上，在AlphaFold2的運(yùn)算過(guò)程里，它根本不需要知道自己處理的是蛋白質(zhì)分子的三維結(jié)構(gòu)。在它看來(lái)——如果它能看的話——自己處理的無(wú)非是大量節(jié)點(diǎn)在三維空間中的彼此距離，以及哪個(gè)組合方式得分比較高，至于處理的是氨基酸分子的排布，還是廣場(chǎng)上一群人的運(yùn)動(dòng)，根本沒(méi)有任何差別。

這也就導(dǎo)致了一個(gè)問(wèn)題：我們知道AlphaFold2表現(xiàn)很好，但我們無(wú)從理解AlphaFold2到底是根據(jù)什么規(guī)則、什么原理得到了這樣的表現(xiàn)。就算AlphaFold2具備了自我意識(shí)，能夠和我們對(duì)話，它充其量也就是告訴我們，在人工智能算法里使用到的成百上千個(gè)參數(shù)分別是多大，而已。至于為什么會(huì)有這些參數(shù)，為什么這些參數(shù)的數(shù)值是這樣的，它不理解，我們也不理解。

在我看來(lái)，這意味著在人工智能時(shí)代，人類獲取知識(shí)的邏輯將要發(fā)生一次地動(dòng)山搖的變革。

人類認(rèn)識(shí)世界、獲取知識(shí)的辦法，無(wú)外乎是對(duì)小樣本數(shù)據(jù)的歸納和演繹。我花了幾天功夫觀察綿羊，發(fā)現(xiàn)它們都是白色的，因此提出 “綿羊都是白色的” 這個(gè)命題——這是歸納法；我認(rèn)為綿羊都是白色的，而我面前有一只黑色的動(dòng)物，因此我判斷它不是綿羊——這是演繹法。歸納和演繹得到的結(jié)果并不總是正確的，我剛剛這個(gè)例子就是錯(cuò)的，但它是人類認(rèn)知世界的起點(diǎn)。

反復(fù)利用歸納和演繹的方法，人類對(duì)世界的認(rèn)知過(guò)程大概是這個(gè)樣子的：對(duì)有限的小樣本進(jìn)行觀察和分析，試圖提煉出一般性的法則，再對(duì)這個(gè)法則進(jìn)行更多的檢驗(yàn)，進(jìn)一步證明或者推翻它。

比如，通過(guò)觀察部分星體的運(yùn)行軌跡，人們總結(jié)出了開(kāi)普勒三定律和牛頓定律，并在這些定律的指導(dǎo)下預(yù)測(cè)和發(fā)現(xiàn)了海王星，而在這些定律出現(xiàn)問(wèn)題的場(chǎng)合，人們找到了全新的規(guī)律——廣義相對(duì)論。要是腦子里沒(méi)有這些定律，我們?cè)谝雇硖ь^望向星空的時(shí)候，看到的只是隨機(jī)運(yùn)動(dòng)的一團(tuán)亂麻。

但是在人工智能這里，這套認(rèn)知方法論可能是無(wú)效的、至少是不必要的。大力出奇跡的做法，讓算法知其然的同時(shí)完全不需要知其所以然。今天，算法可以在不懂圍棋精神也不看人類棋譜的條件下，戰(zhàn)勝圍棋世界冠軍；可以在完全不知道什么是人臉、什么是眼睛鼻子嘴的條件下，做到精確的面孔識(shí)別；可以在不知道什么叫語(yǔ)法、什么是主謂賓、什么是名詞形容詞的條件下，做到人類語(yǔ)言處理；可以在不借助任何蛋白質(zhì)化學(xué)理論的條件下，預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)……所有這一切，只需要大量數(shù)據(jù)的訓(xùn)練。必須承認(rèn)，這是一種全新的、人類并不習(xí)慣也無(wú)法真正理解、但是非常管用的認(rèn)知方法論。

這對(duì)于人類來(lái)說(shuō)意味著什么呢？

想要推測(cè)是很困難的，畢竟人的推測(cè)依靠的也僅僅是歸納和演繹。但我想，有一點(diǎn)是肯定的，我們不得不習(xí)慣和大量的 “異類” 新知識(shí)相處，我們確實(shí)知道它們是對(duì)的、是有用的，但就不知道它是怎么來(lái)的。

要知道，對(duì)于曾經(jīng)的人類來(lái)說(shuō)，所有的知識(shí)都來(lái)自歸納和演繹這種能夠理解的認(rèn)知方式，用歸納和演繹也應(yīng)該能得到所有我們需要的知識(shí)，這是一種無(wú)以倫比的智力驕傲。希爾伯特說(shuō)，“我們必將知道，我們必須知道”，背后的精神支持正是如此。

但慢慢的，我們會(huì)不會(huì)干脆放棄自己尋求新的知識(shí)，放棄歸納和演繹的方法，完全依賴于算法為我們提供的新知識(shí)？打個(gè)比方，我們小時(shí)候大概都通過(guò)擺弄小石子知道了為什么一加一等于二，二加三等于五。如果一個(gè)人從出生起就只能通過(guò)計(jì)算器了解數(shù)字，他當(dāng)然也會(huì)掌握一加一等于二，二加三等于五，但是會(huì)不會(huì)從頭開(kāi)始就完全不理解、也不想理解這些算式背后的意義是什么？我們會(huì)不會(huì)慢慢地也像算法一樣，習(xí)慣于知其然而不知其所以然？

在AI快速進(jìn)步的時(shí)代，太多人擔(dān)憂AI取代人類工作，甚至是戰(zhàn)勝和消滅人類。相比這些猜測(cè)，我倒是更擔(dān)心AI對(duì)人類認(rèn)知的沖擊。生活在一個(gè)答案顯而易見(jiàn)、唾手可得、但推導(dǎo)過(guò)程完全隱藏在黑暗之中的時(shí)代，對(duì)我們到底意味著什么呢？

哦，在故事的最后，也請(qǐng)?jiān)试S我吐槽一下。

最近這段時(shí)間，互聯(lián)網(wǎng)行業(yè)最熱門(mén)的話題就是巨頭紛紛砸下重金，加入社區(qū)團(tuán)購(gòu)的賽場(chǎng)。利用數(shù)據(jù)，利用算法，利用手里的鈔票，巨頭們苦苦研究的話題是怎么把瓜果生鮮便宜、快速、精準(zhǔn)地送到每一個(gè)消費(fèi)者手中。在購(gòu)物、打車、外賣這些熱點(diǎn)之后，買菜成了互聯(lián)網(wǎng)最時(shí)髦的話題。

這當(dāng)然是個(gè)好生意。但我總是忍不住想，我們能不能干點(diǎn)別的？掌握著海量的數(shù)據(jù)和牛叉的人工智能算法，互聯(lián)網(wǎng)巨頭們能搞出類似AlphaGo和AlphaFold這樣可能改變?nèi)祟愂澜缑婷驳臇|西嗎？

有兩句話我特別喜歡。一句話來(lái)自PayPal的創(chuàng)始人彼得·蒂爾（Peter Thiel），他說(shuō)，“We wanted flying cars, instead we got 140 characters”，我們需要能飛的汽車,但結(jié)果卻得到了140個(gè)字符。一句話來(lái)自登月英雄巴茲·奧爾德林（Buzz Aldrain），他說(shuō) “You promised me Mars colonies. Instead, I got Facebook”。你答應(yīng)帶我們殖民火星,可我們最后只得到了 Facebook。兩句話其實(shí)都在表達(dá)，對(duì)掌握海量資源和先進(jìn)科技的互聯(lián)網(wǎng)巨頭的失望之情。

我想也許我也能吐槽一句：咱們能不能別光惦記著幾捆青菜、幾斤水果，說(shuō)好的星辰大海呢？

好了，這就是本期的巡山報(bào)告。下個(gè)月6號(hào)，我繼續(xù)為你巡山。

關(guān)于智識(shí)前沿學(xué)者計(jì)劃

“智識(shí)前沿學(xué)者計(jì)劃”，由公益組織 “智識(shí)學(xué)研社” 在今年7月推出，在影響人類未來(lái)生活的若干前沿科技領(lǐng)域，選拔出一批為科學(xué)進(jìn)步或其應(yīng)用做出努力的杰出青年學(xué)者，資助和鼓勵(lì)他們持續(xù)追蹤和分析前沿科技領(lǐng)域的新發(fā)現(xiàn)、新動(dòng)向和新機(jī)會(huì)，并積極分享他們的專業(yè)判斷，促進(jìn)前沿科技信息的交流和公共討論，為正在快速進(jìn)展的前沿科技留影、存檔，為讀者提供重要的文獻(xiàn)式的科學(xué)指路牌，記錄參考消息式的科學(xué)當(dāng)代史。

首批入選 “智識(shí)前沿學(xué)者計(jì)劃” 的青年學(xué)者，生物學(xué)家、浙江大學(xué)教授王立銘將為大家?guī)?lái)生命科學(xué)領(lǐng)域的 “巡山報(bào)告”，他計(jì)劃深入挖掘生命科學(xué)領(lǐng)域新發(fā)現(xiàn)、新思想背后的來(lái)龍去脈，全面探討生命科學(xué)領(lǐng)域的發(fā)展方向和未來(lái)影響，將這一項(xiàng)目打造成中國(guó)生命科學(xué)研究瞭望未來(lái)的燈塔, 為各個(gè)利益相關(guān)方，包括科學(xué)家、政策制定者、科研資助者、媒體和公眾，提供公共議事的基礎(chǔ)和意見(jiàn)交鋒的平臺(tái)，見(jiàn)證生命健康領(lǐng)域的長(zhǎng)期健康發(fā)展。

一個(gè)彩蛋

知識(shí)分子總編輯、生物學(xué)家饒毅點(diǎn)評(píng)本期巡山報(bào)告：

“請(qǐng)?jiān)试S吐槽：預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)不可能是生命科學(xué)三大問(wèn)題，三千大問(wèn)題也許算一個(gè)。不僅預(yù)測(cè)不那么重要，大部分生物學(xué)家也不依賴蛋白質(zhì)結(jié)構(gòu)，只有很少一些蛋白質(zhì)結(jié)構(gòu)對(duì)于推進(jìn)生物學(xué)理解很重要。”

AlphaFold真的對(duì)生命科學(xué)發(fā)起了顛覆性的沖擊嗎？

今晚7點(diǎn)，由智識(shí)學(xué)研社與智源社區(qū)策劃共同發(fā)起的"智2平方"論壇，與騰訊新聞獨(dú)家合作，力邀結(jié)構(gòu)生物學(xué)、生物信息學(xué)和人工智能等領(lǐng)域的專家學(xué)者，將帶來(lái)更多精彩解讀，再次探討人工智能與人類的未來(lái)。歡迎收看直播。

制版編輯 | 盧卡斯

人工智能蛋白結(jié)構(gòu)

參與討論

0 條評(píng)論

評(píng)論

暫無(wú)評(píng)論內(nèi)容

亚洲 a v无码免费成人 a v,性欧美videofree高清精品,新国产三级在线观看播放,少妇人妻偷人精品一区二区,天干天干天啪啪夜爽爽av

王立銘：人工智能預(yù)測(cè)蛋白結(jié)構(gòu)再獲突破，意味著什么？ | 巡山報(bào)告

讓別人替你運(yùn)動(dòng)，也能延緩衰老？

造假、剽竊和榮譽(yù)：何謂科學(xué)研究

吃啥補(bǔ)啥，心誠(chéng)則靈與針灸的最新生物學(xué)解釋

靈魂出竅，科學(xué)上終于有了新解釋？

讓你好吃懶做的 “節(jié)儉基因”，真的存在嗎？

知識(shí)分子

相關(guān)閱讀

人工智能，如何 “拯救” 不堪重負(fù)的天文學(xué)家？

當(dāng)人工智能研究遭遇匿名逼問(wèn)、威脅：交出你的代碼！

吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)十周年，產(chǎn)學(xué)研用領(lǐng)域的學(xué)者匯聚一堂

訂閱Newsletter

王立銘：人工智能預(yù)測(cè)蛋白結(jié)構(gòu)再獲突破，意味著什么？ | 巡山報(bào)告

相關(guān)閱讀

訂閱Newsletter

王立銘：人工智能預(yù)測(cè)蛋白結(jié)構(gòu)再獲突破，意味著什么？ | 巡山報(bào)告