蛋白質(zhì)結(jié)構(gòu)預(yù)測工具AlphaFold2與RoseTTAFold同日開源
圖源:sciencemag.org
撰文 | 馮水寒
責(zé)編 | 計(jì)永勝
結(jié)構(gòu)決定功能是自然界的普遍法則。蛋白質(zhì)作為生物大分子,是生物生命活動(dòng)重要的行使者。因此,蛋白質(zhì)結(jié)構(gòu)一直是一個(gè)令人著迷的話題,引來無數(shù)科學(xué)家一次又一次地攻堅(jiān)。
目前,了解全新蛋白質(zhì)結(jié)構(gòu)主要有兩種途徑:基于X射線、核磁共振、冷凍電鏡等技術(shù)解析晶體;基于氨基酸序列的計(jì)算精準(zhǔn)預(yù)測。相較于前者高昂的儀器、人力成本和復(fù)雜的操作要求,后者具有更廣的發(fā)展空間。得益于近些年來計(jì)算機(jī)性能、人工智能算法的迅猛發(fā)展,計(jì)算預(yù)測蛋白結(jié)構(gòu)領(lǐng)域好消息連連。
David Baker教授
早前1998年,華盛頓大學(xué)David Baker教授團(tuán)隊(duì)開發(fā)了用于蛋白質(zhì)結(jié)構(gòu)預(yù)測的Rosetta平臺(tái),考慮蛋白質(zhì)穩(wěn)定狀態(tài)能量最低原理和基團(tuán)間的相互作用,通過計(jì)算氨基酸間的互作得分,獲得較為可靠的折疊方式,即蛋白質(zhì)的三維結(jié)構(gòu)。在此基礎(chǔ)上,該團(tuán)隊(duì)引入分布式計(jì)算的思想,于2005年發(fā)布了Rosetta@home,方便用戶將閑置的計(jì)算資源用于計(jì)算,進(jìn)而研究目標(biāo)蛋白質(zhì)潛在的折疊方式。2008年,他們再結(jié)合眾包的思想,開發(fā)了Foldit游戲軟件,對(duì)不同玩家折疊出的蛋白質(zhì)結(jié)構(gòu)進(jìn)行評(píng)分,使得非專業(yè)領(lǐng)域的人員也能夠參與蛋白質(zhì)結(jié)構(gòu)解析中,一個(gè)個(gè)蛋白質(zhì)在全世界玩家的合作下被攻克。慢慢地,該團(tuán)隊(duì)了解了蛋白質(zhì)折疊的部分規(guī)律,突破了蛋白設(shè)計(jì)的難點(diǎn),開始挑戰(zhàn)全新的蛋白設(shè)計(jì)合成,近年來成果不斷。
圖1. AlphaFold2原理圖示。圖片來自DeepMind
David Baker團(tuán)隊(duì)在蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域高歌猛進(jìn),位于大西洋彼岸的英國團(tuán)隊(duì)也沒閑著。英國的人工智能公司DeepMind(于2014年被谷歌收購)曾因AlphaGO圍棋軟件名聲大噪,現(xiàn)也加入蛋白質(zhì)結(jié)構(gòu)預(yù)測的大潮之中,并在全球蛋白質(zhì)結(jié)構(gòu)預(yù)測比賽(Critical Assessment of protein Structure Prediction,CASP)中大放異彩。得益于在人工智能領(lǐng)域的多年積累,DeepMind團(tuán)隊(duì)開發(fā)了AlphaFold系列軟件。AlphaFold2更是2020年第十四屆CASP大賽中拔得頭籌,其預(yù)測結(jié)果已經(jīng)能夠達(dá)到與實(shí)驗(yàn)手段獲得的結(jié)構(gòu)相媲美的程度。由此也引發(fā)了計(jì)算預(yù)測是否能替代傳統(tǒng)實(shí)驗(yàn)的討論。(參見《精準(zhǔn)預(yù)測蛋白結(jié)構(gòu)的AlphaFold,會(huì)砸了結(jié)構(gòu)生物學(xué)家的飯碗嗎?》http://zhishifenzi.com/news/other/10495.html)
7月16日,DeepMind團(tuán)隊(duì)以“加速預(yù)覽”的形式在Nature期刊發(fā)文,描述了AlphaFold2的設(shè)計(jì)框架和方法,并公開了相應(yīng)的軟件代碼[1]。
同日,David Baker教授團(tuán)隊(duì)也在Science期刊發(fā)文,介紹了最新設(shè)計(jì)的RoseTTAFold人工智能軟件系統(tǒng),并公開了軟件代碼[2]。受到AlphaFold2的設(shè)計(jì)思路啟發(fā),RoseTTAFold利用神經(jīng)網(wǎng)絡(luò)技術(shù)綜合一維、二維、三維以及交互信息,進(jìn)而推斷出更為合理準(zhǔn)確的折疊方式,同時(shí)還能預(yù)測蛋白質(zhì)復(fù)合體的結(jié)構(gòu)。
圖2. RoseTTAFold原理圖示。圖片來自Science
值得注意的是,David Baker教授團(tuán)隊(duì)表示RoseTTAFold對(duì)蛋白質(zhì)結(jié)構(gòu)的預(yù)測精度已與AlphaFold2不相上下,而它所需要的硬件設(shè)備要求較低,只需一塊RTX2080顯卡,便可以在10分鐘計(jì)算得到400個(gè)氨基酸殘基以內(nèi)的蛋白質(zhì)結(jié)構(gòu),同時(shí)他們也搭建了網(wǎng)頁版(https://robetta.bakerlab.org/)供廣大用戶使用。
圖片來自bakerlab.org
“僅上個(gè)月就有超4500個(gè)蛋白提交到我們的網(wǎng)絡(luò)服務(wù)器,并且研究人員還能通過GitHub網(wǎng)站獲得RoseTTAFold的源代碼。我們希望這個(gè)新的工具能夠持續(xù)的造福整個(gè)科研領(lǐng)域?!?/span> David Baker團(tuán)隊(duì)成員Minkyung Baek表示[3]。
我們相信這兩個(gè)軟件只是蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域的一個(gè)開始,源代碼開放獲取更能夠拓寬軟件的適用范圍,加速軟件更新,由此,蛋白質(zhì)結(jié)構(gòu)解析將在人工智能的助跑下迎來新的春天。
參考資料:
[1] Jumper J, Evans R, Pritzel A, Green T, Figurnov M, Ronneberger O, et al. Highly accurate protein structure prediction with AlphaFold. Nature. 2021.
[2] Baek M, DiMaio F, Anishchenko I, Dauparas J, Ovchinnikov S, Lee GR, et al. Accurate prediction of protein structures and interactions using a three-track neural network. Science. 2021.
[3] https://www.bakerlab.org/index.php/2021/07/15/accurate-protein-structure-prediction-accessible/