AlphaFold的突破和普通人什么關系? | 智2平方論壇速報

主持人魯白:大家好,歡迎大家來到這場非常特殊的、也是非常及時的一個研討會。研討會的題目是 “AlphaFold:人工智能對生命科學的顛覆性挑戰(zhàn)和沖擊”。
今年12月初,谷歌的DeepMind團隊發(fā)布了AlphaFold2,它能夠預測蛋白質(zhì)空間結構,而且準確率非常高。我們希望通過這場研討會給做大眾一些簡單的介紹與科普,也對發(fā)現(xiàn)的社會意義和科學意義做一些初步的探索。
魯白:我們先邀請幾位嘉賓分別談談自己的專業(yè)背景,為什么來到了這里,和我們今天的話題有什么關系。
王宏偉:大家好,我叫王宏偉,是清華大學生命科學學院教授。我的背景是生物物理學,我現(xiàn)在研究用新的方法,主要是冷凍電子顯微學對蛋白質(zhì)和其他的生物大分子結構進行解析。
什么是結構生物學?打個比方:我們開一輛汽車,如果想知道為什么方向盤向左打車會向左轉、為什么掛檔的時候車有不同的方向和馬力,我們就要把車打開看里面的零件是什么樣,這些零件是怎么連接和運轉的。結構生物學,從某個意義上來說就是我們對生命體、對組成身體的蛋白質(zhì)和其他的分子里面的原子空間組成方式,和這些分子相互之間的位置關系的分析。這些結果會幫助我們理解細胞怎么工作的,生命是怎么發(fā)生發(fā)展,形成各種各樣生命的現(xiàn)象。
蛋白質(zhì)是組成人體的主要成分,在我們的身體中有十幾萬種。蛋白質(zhì)的基本組成單元是叫做氨基酸的有機分子。自然界有20種天然氨基酸,這些氨基酸之間可以通過肽鍵的方式連接成線性的多肽鏈。如果把每個氨基酸比擬成一個小珠子的話,多肽鏈就像項鏈一樣由不同的珠珠連成一條線。不同的多肽鏈中的氨基酸的種類和排列不同,形成一維的序列。由不同排列組合的珠珠連起來的多肽鏈在三維空間中折疊扭曲,最終形成具有三維空間結構的蛋白質(zhì),具有特定的形狀,這就是蛋白質(zhì)的結構。
上個世紀50年代一個科學家叫 Christian Anfinsen(1916年3月26日–1995年5月14日),通過實驗發(fā)現(xiàn)珠珠在多肽鏈中的排列方式會讓這根 “項鏈” 自發(fā)折疊形成固定的三維形狀。他因此提出蛋白質(zhì)中氨基酸排列的一級序列決定蛋白質(zhì)的三級結構。他后來因為發(fā)現(xiàn)這個原理而獲得了諾貝爾化學獎。

李海濤:大家好,我是清華大學醫(yī)學院的李海濤。我的背景是三大結構解析手段之一的晶體學,我關注的科學問題是表觀遺傳。結構生物學的重心在生物學,我們最終的目的是用結構解析手段解決生物學問題。大家所熟知的中心法則中,遺傳信息解讀首先是從DNA到RNA到蛋白質(zhì)的序列信息傳遞,最后特定的序列還要形成一個特定的結構,才能發(fā)揮特定的功能。這里面一些規(guī)律正是我們希望探索的科學問題。
說到結構生物學,王宏偉老師舉了一個很好的例子,比如我們想知道汽車是怎么開的、怎么動的。大家知道DNA是遺傳信息的存儲者,從某種意義上講就像一個圖紙,不代表是一個執(zhí)行者。結構生物學主要關心的是怎么樣把圖紙變成汽車、變成大樓,光看圖紙不會感受到汽車的便捷,也不會享受到建筑物的溫暖。結構生物學關注的是很切合我們生活實際的科學問題,是想了解遺傳信息怎么變成功能執(zhí)行者的科學。
AlphaFold為什么比競爭對手更強?
魯白:我簡單總結一下結構生物學的兩個基本點:第一,王宏偉老師說的所謂的線性的氨基酸的排列組合,決定一個蛋白質(zhì)的空間結構;李海濤老師說的是,蛋白質(zhì)的結構決定了它的功能,也就是它能做什么。
我們問一下AI的專家,先問一下龔老師,這個CASP大賽為什么重要?這次DeepMind的團隊,又做出了什么樣的突破?
龔新奇:大家好,我是龔新奇,中國人民大學數(shù)學科學研究院教授,主要做蛋白質(zhì)結構預測和蛋白質(zhì)相互作用的預測。這次CASP的競賽是國際蛋白質(zhì)結構預測競賽,有19個國家的215個小組參加,用自己的方法從蛋白質(zhì)的氨基酸序列預測蛋白質(zhì)的三維結構,并跟實驗學家解析出來的那個蛋白質(zhì)結構做比較。第三方中立的評估機構去評估你預測的這個結構和實驗的結構之間的差別,并打分排序。這次的突破在于,這個競賽從1994年開始到現(xiàn)在進行了14輪,這么多年全世界這么多科學家,包括有諾貝爾獎得主、各個國家的院士參加,準確率提不上去,大家開始打鼓,這個問題能解決嗎?人類是不是找不到唯一解?
結果,這次谷歌公司AlphaFold2突然一下子就比后面的人好了非常多,大部分結構解析程度達到90分以上,可以替代實驗解析蛋白質(zhì)結構的水平。大家突然看到這個問題原來可以解決,數(shù)學方法、計算方法能把這個問題破解掉。
AlphaFold2預測的結構(深藍色)與實驗驗證的結果呈高度一致
魯白:我再請青年科學家代季峰博士。代博士,你覺得AlphaFold2算法里面有什么特別的地方?為什么它是第一名?第二名跟它差的太遠了。它在算法上面有什么特殊的地方?
代季峰:非常感謝。我叫代季峰,來自于商湯科技研究院,是研究執(zhí)行總監(jiān)。我從做深度學習或者做機器學習的角度來跟大家解釋一下。
首先需要說,AlphaFold目前并沒有正式報告或者正式發(fā)表的論文,我們目前的資料是DeepMind放在網(wǎng)上的博客以及參加比賽的人錄的一段視頻、做的一個報告。我們是基于有限的資料對它做一個分析和判斷。
感謝生物學家們幫我們定義了一個很好的應用問題。從深度學習的角度來看,輸入就是一段蛋白質(zhì)氨基酸的序列,輸出是要知道這個序列經(jīng)過各種生物學的過程,最后生成的蛋白質(zhì)、它的三維結構長什么樣子。這在機器學習領域就成為一個數(shù)據(jù)集,我們結構生物學家已經(jīng)解析出來上萬條氨基酸序列以及對應的三維結構,構成我們計算機科學家的一個訓練集。測試的時候會在幾十條、或者上百條還沒有公布三維結構的蛋白質(zhì)氨基酸序列上去看,從前人發(fā)現(xiàn)的上萬條序列上學得的一個模型,面對新的序列的時候,性能怎么樣。
谷歌的這套系統(tǒng)利用了最近深度學習領域很好的模型進展,它基于 “變形金剛”(transformer)模型,這個模型基于“自然語言處理”(NLP)(把人說的一段話從英語翻譯成中文、對自然語言整個文本的理解,等等)提出來的。而NLP生來就是處理序列模型的。這次AlphaFold2借助了最新的強大模型,用了這個模型,并且非常好地將其修改加入處理氨基酸序列的領域知識,達到了很好的效果。這是深度學習技術在重要領域一個非常成功的應用,帶來了一個具體的重要學科領域的大的進步。
為什么比競爭對手做得好?這跟科研的普遍規(guī)律一樣,首先會有一些科研能力或者愿景非常好的人,他們很好地設計一個模型和算法,把最新的AI進展以及這個領域很重要的知識結合起來。還有很重要的一點,他們有很強大的工程師的能力,他們作為一家公司能夠調(diào)動比大學等更多的人力。
龔新奇:這次競賽很多大牛公司都參加了,微軟、騰訊、百度和華為等。谷歌這是第二次參賽了。他們做得這么好,里面還有它獨到的技術。他們的摘要中30個作者里面,很多都是各個領域的頂尖人物,不是只一個頂尖人物,有卷積神經(jīng)網(wǎng)絡的發(fā)明人,還有一些對蛋白質(zhì)結構理解很厲害的一些人。30個作者中19個是并列第一作者,而且這19個人都有自己的特長。還有很重要的一點,他們把我們能用到的生物信息,比如說氨基酸序列信息、結構信息、宏基因組的信息,整合在一起,這個能力一般人做不到。
魯白:聽上去他們方法學上或者從概念上、理論上,并沒有什么特別創(chuàng)新的,只是說他們用的資源比較多,或者用的人比較牛,或者他們的工程能力比較強,落實的能力比較強,是這樣嗎?
代季峰:能夠把這些做得很強就是非常困難的事。從創(chuàng)新的角度來看,很多時候一個大突破所需要的理論和基礎技術。以AlphaGo為例,它所需要的強化學習技術,是上個世紀八九十年代就已經(jīng)在教科書了、到現(xiàn)在沒有太多變化。還用到了深度學習,它是非常好地把二者結合起來,取得應用上的突破。并不是說非要突然一個很創(chuàng)新的理論才能做到這件事情,而是要把之前最好的突破,和以前沒有人看到的方法結合起來。探索結合有非常多的可能性,需要非常有眼光的人以及工程執(zhí)行能力,還要有足夠多的資源,才能夠找到兩個特定的結合,做出突破。
AlphaFold是革命?
革了結構生物學的命?
魯白:有人說AlphaFold的出現(xiàn)至少是結構生物學革命性的變化,不知道說的過不過分。
王宏偉:我不贊同這是革命的說法。我認為這可以說是一次躍遷,包括技術的躍遷和我們科學研究范式的一種躍遷。我自己是做冷凍電子顯微學研究的,這也是結構生物的方法。蛋白質(zhì)結構預測包括AlphaFold,這次是在結構生物學工具層面上的很重要的突破,但我不認為算一次真正的革命。很多概念、很多理念在前期有很多積累,這次AlphaFold2的成功有它獨到的地方,但還沒有到革命的程度。
魯白:AlphaFold2后面還會有AlphaFold3,AlphaFold4。這是第一次做的出乎人們意料的好。算不算結構生物學的一次革命,海濤你怎么看?
李海濤:我感覺從技術層面講,可以算是一個突破。原來很多結構很難解、很難預測準確。現(xiàn)在通過人工智能手段實現(xiàn),顯然是一個突破,我承認這一點,也很高興看到這一突破,省了我們很多事。我們做結構生物學的,解完結構之后還要花很大功夫分析結構,解釋它的功能。如果計算手段能讓我們更快拿到想要的結構,那我們想做的事情能快很多,對蛋白質(zhì)功能的機理認識能深刻很多,從這個意義上AlphaFold出現(xiàn)的革命性還是可以成立的。
從理論層面,AlphaFold只是提出問題,為什么能夠成功預測出來結構?這里面有著更深層的理論問題需要進一步探討。這方面還沒有真正突破,有很多規(guī)律我們是不知道的,這像一個黑匣子:我們能運用黑匣子,黑匣子內(nèi)部究竟是怎么樣的?問題更多。
魯白:我聽好幾位人工智能的專家說,你們結構生物學家,以后不需要再解析結構了,就沒啥事了。但你們確還有很多事情要做,還有很多問題沒搞明白,不會失業(yè)的。我想聽聽做計算的人士怎么看,這是不是帶來一個革命性的突破?
龔新奇:我覺得是革命性的東西,我剛開始學結構生物學,就被教育說氨基酸序列決定蛋白質(zhì)的結構,這是第二遺傳密碼,如果把這個密碼找到,就是跟中心法則一樣重要的東西?,F(xiàn)在終于找到了,終于能解決了,這是第一。第二,一個很現(xiàn)實的問題,自然界有這么多蛋白質(zhì)序列。我們拿到的解析出的結構,不到所有蛋白質(zhì)序列的千分之一。測蛋白質(zhì)序列很容易,解析蛋白質(zhì)結構很困難。你測個一個蛋白的序列,我就能算出它的結構。結構多了以后,對生命科學,對藥物研發(fā),都很有意義,能做的事情更多。第三,我們做數(shù)理的人發(fā)現(xiàn),這個東西真能解決了,以前總是心里在打鼓,到底能不能行?,F(xiàn)在解決了,我們覺得這里是一個突破。
代季峰:在我看來,AlphaFold2應該算是應用層面的一個巨大的突破和創(chuàng)新,而不是理論層面。
王宏偉:第一,利用蛋白質(zhì)序列現(xiàn)在可以精準地把一些三維結構預測出來這件事情本身絕對是一個好事情。就像剛剛海濤講到的,現(xiàn)在有了這樣一個工具之后會讓結構生物學的研究和發(fā)現(xiàn)變得更加便利。研究者不需要花大量時間在解析結構本身的實驗過程中,而能把更多的精力和時間放在回答生物學問題上,比如對功能、機理的揭示和新的藥物與治療手段的研發(fā)方面。這樣的新技術對生物醫(yī)藥產(chǎn)業(yè)的發(fā)展尤其可能有非常大的幫助。
李海濤:魯老師剛才好幾次說到失業(yè)或轉業(yè),我覺得其實該換成一個詞:“解放”。失業(yè)是痛苦的,轉業(yè)是無奈的,解放是幸福的。AlphaFold讓老師和同學們都解放了,我們不再受制于結構解析的手段,能夠很快的拿到這個結構之后真正探討結構生物學的核心問題,這個太重要了。如果說我和學生的眼里因此含著淚水,含著的應該是高興的淚水、解放的淚水,我很歡心于這個新突破。
魯白:我還想問一個問題。這個事情跟我們今天晚上這么多的觀眾,跟他們有什么關系?這個事件的發(fā)生,可以解決我們結構生物學中蛋白質(zhì)結構問題,在計算機科學領域,也沒有理論上或者方法學上的突破。這跟老百姓有什么關系?對未來的人工智能的發(fā)展,又有什么意義?
李海濤:“小” 的事物可能很重要。比如我們蓋一幢大樓,這個大樓的基石雖然小,但是很重要,能撐起整個大廈。我十分佩服科技的發(fā)展,現(xiàn)在人類對生命的認識已經(jīng)深入到原子層面,從十億到百億分子一米尺度看生命,依然是大千世界。從這個角度講,AlphaFold 加速了人們對生命的深刻理解和認識,可謂是基石性突破。大家想想基石有多重要——大廈的安全??紤]到生物大分子與人類健康與疾病的密切聯(lián)系,人工智能在結構預測方面的突破肯定對人類生活的各個方面有著很大的影響。
龔新奇:這是我們?nèi)藢χ橇ψ非蟮囊环N欣賞,一種不斷更高更快更強的追求。這是一個精神上的,主要是大眾精神上的愉悅。它也有實際的意義,可能今后的藥更便宜,到醫(yī)院檢查更快一點。
王宏偉:我覺得這是非常有意思的話題。AlphaFold這次的表現(xiàn)確實很驚艷。其實上次的AlphaGo出來之后打敗了圍棋高手,而后來的AlphaZero更是下出了很多圍棋大師們沒有見過的戰(zhàn)法,就體現(xiàn)出現(xiàn)有的人工智能的能力發(fā)揮到某種極致狀態(tài)是可以突破我們?nèi)祟愓J知極限的。我期待AlphaFold不管是2還是3,有一天它會預測或設計出來一個蛋白質(zhì)的結構,是我們?nèi)祟惿形窗l(fā)現(xiàn)的,然后我們實驗手段解析出來跟它預測出來是一樣的。這樣的新結構如果還有特定的功能,它就是突破了我們科學家認知的極限。因為我們?nèi)祟惖恼J知是容易受到我們自己的經(jīng)驗的束縛的,我希望人工智能幫助我們突破固有經(jīng)驗,幫助我們更好地認識自然界,探索宇宙。
魯白:這個觀點很有意思。那推而廣之,我能不能更大膽地暢想一下:AI能夠設計出世界上不存在的全新的蛋白,而蛋白質(zhì)是生命的基礎,那是不是有一天,AI能夠設計出新的物種,新的生命?
李海濤:我在想,剛才代博士說的很好,用語言學習做比喻。我們有文字,文字組合是無窮多的,實際上我們看到的文章是有限的,而且大家都讀的懂。文字的排列有語法和規(guī)律并且可以被人類所理解,這體現(xiàn)了語言對文字組合的約束,這種約束性是蠻重要的事情。人工智能之所以能夠?qū)崿F(xiàn)自然語言處理和學習,其實在有意無意的遵照和運用了這種約束。文字的排列組合空間很大,掌握了一門語言后,你想做詩還是想寫散文,有很多事情值得去創(chuàng)意。在人工智能驚艷的時代,我們關注什么對象,研究什么序列,寫什么樣的文章,還有很多的精彩值得期待。
龔新奇:現(xiàn)在其實人工智能可以做一些新的設計,設計一些新的分子,只是因為計算設計難以被實驗證實,不像預測那么受關注。對我們學科,未來是去搞清楚人工智能的數(shù)學模型,基本的數(shù)學原理一直我們在關注的事。現(xiàn)在看到了這么做是可以達到好結果的,我們就可以死心塌地去挖掘里面的原理,原來我們不太敢。
代季峰:我對人工智能的展望是,目前這一代人工智能算法主要的特點是實現(xiàn) “大數(shù)據(jù)、小任務” 領域里極大的成功。比如說分析一段基因,AlphaFold整個空間只有20多個氨基酸的可能性,還是定義非常完善的具體的任務,加上大量數(shù)據(jù),這一代人工智能可以做的非常好,但沒有理論上的原創(chuàng)性突破。AlphaFold2是非常好的例子。不知道有沒有其他有意思的學科,你把重要的最基石性的問題定義成“大數(shù)據(jù)、小任務”這種類型。AI算法還是希望走向少量數(shù)據(jù)的情況下,以及任務不是那么具體的時候,看看 “小數(shù)據(jù)、大任務” 的時候工作的怎么樣?現(xiàn)在這代算法分析的是一種關聯(lián)性,不善于分析因果性以及做推理,這也是下一代算法需要解決的問題。
魯白:再次感謝今天幾位專家。今天我們從小的結構生物學的問題,說到對生命科學,對藥物研發(fā),以及最后對我們AI本身和我們老百姓對人的智力有什么沖擊。這次AlphaFold事件后,我們還會繼續(xù)關注人工智能以及生命科學問題。北京智源和智識學研社,以及我們?nèi)斯ぶ悄芎蜕茖W專家,會繼續(xù)通過這樣的方式或者其他的方式進行交流,推動我們這個領域的發(fā)展,也給我們的社會帶來福祉,謝謝大家!
智2平方論壇由智識學研社與智源社區(qū)發(fā)起,是一個面向大眾的交流平臺,將定期邀請人工智能及相關交叉學科學者展開對話與交流,以促進大眾對于人工智能領域的了解。
智識學研社是由清華大學教授錢穎一、北京大學教授饒毅和中國科技大學教授潘建偉聯(lián)合發(fā)起的非營利性社會組織,致力于傳播科學知識,弘揚科學精神,從科技出發(fā)探索人類命運共同體,打造面向未來的開放平臺,介紹國內(nèi)外前沿科技進展,在公共政策中提供科學家的專業(yè)判斷,提出驅(qū)動未來的科技創(chuàng)新方案,幫助推進科學、技術與創(chuàng)新,促進科學文化在中國逐步建立。智識學研社旗下的媒體包括 “知識分子” 和 “賽先生”,是公認具有權威性、公信力和影響力的兩大科學新媒體品牌。
智源社區(qū)是北京智源人工智能研究院打造的一個內(nèi)行、開放的AI 實名社區(qū),致力于促進AI 交流。
制版編輯 | 盧卡斯