蛋白質(zhì)結(jié)構(gòu)預(yù)測工具AlphaFold2與RoseTTAFold同日開源
圖源:sciencemag.org
撰文 | 馮水寒
責編 | 計永勝
結(jié)構(gòu)決定功能是自然界的普遍法則。蛋白質(zhì)作為生物大分子,是生物生命活動重要的行使者。因此,蛋白質(zhì)結(jié)構(gòu)一直是一個令人著迷的話題,引來無數(shù)科學家一次又一次地攻堅。
目前,了解全新蛋白質(zhì)結(jié)構(gòu)主要有兩種途徑:基于X射線、核磁共振、冷凍電鏡等技術(shù)解析晶體;基于氨基酸序列的計算精準預(yù)測。相較于前者高昂的儀器、人力成本和復(fù)雜的操作要求,后者具有更廣的發(fā)展空間。得益于近些年來計算機性能、人工智能算法的迅猛發(fā)展,計算預(yù)測蛋白結(jié)構(gòu)領(lǐng)域好消息連連。
David Baker教授
早前1998年,華盛頓大學David Baker教授團隊開發(fā)了用于蛋白質(zhì)結(jié)構(gòu)預(yù)測的Rosetta平臺,考慮蛋白質(zhì)穩(wěn)定狀態(tài)能量最低原理和基團間的相互作用,通過計算氨基酸間的互作得分,獲得較為可靠的折疊方式,即蛋白質(zhì)的三維結(jié)構(gòu)。在此基礎(chǔ)上,該團隊引入分布式計算的思想,于2005年發(fā)布了Rosetta@home,方便用戶將閑置的計算資源用于計算,進而研究目標蛋白質(zhì)潛在的折疊方式。2008年,他們再結(jié)合眾包的思想,開發(fā)了Foldit游戲軟件,對不同玩家折疊出的蛋白質(zhì)結(jié)構(gòu)進行評分,使得非專業(yè)領(lǐng)域的人員也能夠參與蛋白質(zhì)結(jié)構(gòu)解析中,一個個蛋白質(zhì)在全世界玩家的合作下被攻克。慢慢地,該團隊了解了蛋白質(zhì)折疊的部分規(guī)律,突破了蛋白設(shè)計的難點,開始挑戰(zhàn)全新的蛋白設(shè)計合成,近年來成果不斷。
圖1. AlphaFold2原理圖示。圖片來自DeepMind
David Baker團隊在蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域高歌猛進,位于大西洋彼岸的英國團隊也沒閑著。英國的人工智能公司DeepMind(于2014年被谷歌收購)曾因AlphaGO圍棋軟件名聲大噪,現(xiàn)也加入蛋白質(zhì)結(jié)構(gòu)預(yù)測的大潮之中,并在全球蛋白質(zhì)結(jié)構(gòu)預(yù)測比賽(Critical Assessment of protein Structure Prediction,CASP)中大放異彩。得益于在人工智能領(lǐng)域的多年積累,DeepMind團隊開發(fā)了AlphaFold系列軟件。AlphaFold2更是2020年第十四屆CASP大賽中拔得頭籌,其預(yù)測結(jié)果已經(jīng)能夠達到與實驗手段獲得的結(jié)構(gòu)相媲美的程度。由此也引發(fā)了計算預(yù)測是否能替代傳統(tǒng)實驗的討論。(參見《精準預(yù)測蛋白結(jié)構(gòu)的AlphaFold,會砸了結(jié)構(gòu)生物學家的飯碗嗎?》http://zhishifenzi.com/news/other/10495.html)
7月16日,DeepMind團隊以“加速預(yù)覽”的形式在Nature期刊發(fā)文,描述了AlphaFold2的設(shè)計框架和方法,并公開了相應(yīng)的軟件代碼[1]。
同日,David Baker教授團隊也在Science期刊發(fā)文,介紹了最新設(shè)計的RoseTTAFold人工智能軟件系統(tǒng),并公開了軟件代碼[2]。受到AlphaFold2的設(shè)計思路啟發(fā),RoseTTAFold利用神經(jīng)網(wǎng)絡(luò)技術(shù)綜合一維、二維、三維以及交互信息,進而推斷出更為合理準確的折疊方式,同時還能預(yù)測蛋白質(zhì)復(fù)合體的結(jié)構(gòu)。
圖2. RoseTTAFold原理圖示。圖片來自Science
值得注意的是,David Baker教授團隊表示RoseTTAFold對蛋白質(zhì)結(jié)構(gòu)的預(yù)測精度已與AlphaFold2不相上下,而它所需要的硬件設(shè)備要求較低,只需一塊RTX2080顯卡,便可以在10分鐘計算得到400個氨基酸殘基以內(nèi)的蛋白質(zhì)結(jié)構(gòu),同時他們也搭建了網(wǎng)頁版(https://robetta.bakerlab.org/)供廣大用戶使用。
圖片來自bakerlab.org
“僅上個月就有超4500個蛋白提交到我們的網(wǎng)絡(luò)服務(wù)器,并且研究人員還能通過GitHub網(wǎng)站獲得RoseTTAFold的源代碼。我們希望這個新的工具能夠持續(xù)的造福整個科研領(lǐng)域。” David Baker團隊成員Minkyung Baek表示[3]。
我們相信這兩個軟件只是蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域的一個開始,源代碼開放獲取更能夠拓寬軟件的適用范圍,加速軟件更新,由此,蛋白質(zhì)結(jié)構(gòu)解析將在人工智能的助跑下迎來新的春天。
參考資料:
[1] Jumper J, Evans R, Pritzel A, Green T, Figurnov M, Ronneberger O, et al. Highly accurate protein structure prediction with AlphaFold. Nature. 2021.
[2] Baek M, DiMaio F, Anishchenko I, Dauparas J, Ovchinnikov S, Lee GR, et al. Accurate prediction of protein structures and interactions using a three-track neural network. Science. 2021.
[3] https://www.bakerlab.org/index.php/2021/07/15/accurate-protein-structure-prediction-accessible/