化學界誕生了一個“AlphaGo”,居然來自中國,對制藥業(yè)影響深遠
?化學界的“AlphaGo”竟來自上海大學,圖片來自zdnet.com

編者按:
很多人可能對Mark Waller教授比較陌生,對他任職的單位上海大學也不熟悉,但最近Waller在Nature雜志上發(fā)表了一項人工智能領域的重要研究,化學界的“AlphaGo”由此誕生,引起國內外制藥領域高度關注。這可能也是上海大學近年為數(shù)不多能登上《自然》的研究,Waller為上大物理系教授,2016年3月全職加入上海大學。為此,我們邀請同濟大學生物信息學教授、IEEE會員劉琦對這項研究進行深入的解讀,以及剖析化學界“AlphaGo”仍存在的短板。劉琦教授目前主要致力于計算機和生命科學的智能計算和機器學習的交叉研究。

撰文 | 劉 琦(同濟大學教授)
責編 | 葉水送
● ● ●
2018年3月29日,國際頂尖學術期刊Nature在線發(fā)表了上海大學教授Mark P. Waller團隊利用深度學習的逆向合成路線設計藥物的研究論文(Planning chemical syntheses with deep neuralnetworks and symbolic AI)。
我和Mark曾在藥明康德的小型會議上有過交流,知道他的工作早在一年前已發(fā)布在預印本arXiv上,現(xiàn)在終于正式發(fā)表,表示祝賀。該工作是Nature雜志繼2016年發(fā)表的基于機器學習技術進行晶體制備策略預測的封面文章之后[1],再次發(fā)表的一項基于人工智能技術進行藥物自動化開發(fā)的研究成果?;贏I加速藥物研發(fā),正越來越受到業(yè)內廣泛的關注。
相比于《自然》雜志2016年發(fā)表的晶體合成反應預測工作,本次工作關注于計算機輔助的合成設計(Computer-assisted synthesis planning,CASP),其核心又被稱為反合成分析(Retrosynthesis analysis)。
反合成分析可認為是小分子正向反應預測(Forward reaction prediction)的逆過程。有機合成大師埃里亞斯·科里(Elias Corey)于20世紀60年代首次提出反合成設計的思想,并據(jù)此設計了第一個初步實現(xiàn)CASP的軟件LHASA。1990年,科里教授由此獲得了諾貝爾化學獎。
實現(xiàn)反合成分析有兩個關鍵點:1)對有機化學反應的深刻了解,即規(guī)則的掌握;2)基于這些規(guī)則,對目標分子進行遞歸式拆分,最終獲得易得原料,即路線的設計。傳統(tǒng)的CASP通常是基于規(guī)則的專家系統(tǒng),這些規(guī)則可人為地進行編碼或者從數(shù)據(jù)庫中用算法進行自動提取,而路線的設計則主要依賴于啟發(fā)式算法評估拆分的合理性。傳統(tǒng)反合成分析方法存在著諸多問題制約其廣泛應用,包括泛化能力差、缺乏化學合理性等,常令合成化學家望而卻步。
在這項研究工作中,Waller團隊將深度神經(jīng)網(wǎng)絡及強化學習等概念整合至一個通用的架構中,提出了采用三種不同的神經(jīng)網(wǎng)絡結合蒙特卡洛樹搜索(Three different neural networks together with MCTS)的算法框架(3N-MCTS)。這三種神經(jīng)網(wǎng)絡分別為:拓展策略網(wǎng)絡(Expansion policy network)——用來搜索當前位置可能存在的單步逆向化學變換路徑(Transformation);篩選網(wǎng)絡(Filter network)——用來對反應的可行性做出判斷;展示策略網(wǎng)絡(Rollout policy network)——用來在展示步驟中應用多次采樣方法對搜索節(jié)點進行定量評價。該工作相對于傳統(tǒng)基于規(guī)則的反合成設計來說,大量借鑒了深度神經(jīng)網(wǎng)絡及強化學習的思想,是對傳統(tǒng)方法的一次重要的改進,這也是該工作能夠發(fā)表于Nature的原因之一。
?蒙特卡洛樹搜索(MCTS)方法的流程圖
蒙特卡洛樹搜索(MCTS)是逆合成路線規(guī)劃的核心框架,分成四個步驟:選擇(Selection)、拓展(Expansion)、展示(Rollout)、更新(Update)。其中:拓展策略網(wǎng)絡(Expansion policy network)與篩選網(wǎng)絡(Filternetwork)組成一個流水線(Pipeline),應用在拓展步驟(Expansion);展示策略網(wǎng)絡(Rollout policy network)則應用在展示步驟(Rollout)。這四個步驟中,選擇和拓展步驟非常容易理解,即首先選擇當前最適合拓展(位置權重最大)的化合物節(jié)點,進行可能的合成策略預測。其中拓展策略網(wǎng)絡是基于深度神經(jīng)網(wǎng)絡進行合成策略預測,篩選網(wǎng)絡是將前一步預測的合成策略進一步進行可行性判定。展示和更新步驟的核心思想為馬爾可夫決策過程(Markov decision process),我們可將該過程類比于機器下棋,機器在展示步驟并不做真正的分支延展,而是通過反復的采樣對局來探索可能的狀態(tài)空間。
所不同的是,在逆合成分析中,機器并沒有對手,其探索結束的標準也不是輸贏,而是探索所獲得的所有合成原料均可歸屬于事先定義好的一個易得原料集合,在文中被稱之為All molecules are solved,或探索達到了事先定義的樹最大深度值。其展示的過程將依次從展示策略網(wǎng)絡(Rollout policy network,類似于Expansion policy network,但是網(wǎng)絡結構更加簡單,方便快速進行rollout)預測的rollout rules中進行選擇,同時探索結束后將根據(jù)不同的探索結果獲得不同的反饋(強化學習)。在更新步驟中,將根據(jù)展示步驟的多次模擬,進行通過節(jié)點的訪問次數(shù)計數(shù)以及位置權重更新。直觀來說,模擬過程中訪問次數(shù)越多的節(jié)點,其位置權重越大,那么在下一次探索中也就更可能被訪問,這個過程可以用一句俗語總結: “世上本無路,走的人多了,也就成了路!”,這也是MCTS核心思想的一種體現(xiàn)。
如果讀者對于DeepMind的AlphaGO有所了解的話,一定會驚奇的發(fā)現(xiàn),該工作的四個步驟,可類比于AlphaGO一文中所提出的四個步驟(Selection, Expansion, Evaluation, Backup)。2016年,DeepMind團隊在Nature雜志發(fā)表AlphaGO研究成果[2],其升級版本AlphaGOZero以封面文章形式于2017年在Nature雜志發(fā)表[3]。頂級雜志連續(xù)三年發(fā)表四篇AI的應用,并且兩次均為封面文章,說明AI技術的應用受到了極大的關注。
3N-MCTS的驗證以2015年之前發(fā)布的化學反應作為訓練數(shù)據(jù),以2015年之后發(fā)布的化學反應作為測試數(shù)據(jù)。在雙盲AB測試中,來自中國和德國的45位有機化學家對9個不同目標分子的文獻報道的合成路線和3N-MCTS生成的合成路線進行判斷,有57%的化學家選擇3N-MCTS生成的路線,43%的化學家選擇了文獻報道路線,并且雙方?jīng)]有選擇上的統(tǒng)計顯著性差異,表明3N-MCTS生成合成路線的水平與文獻報道路線水平相當。同時在對于3N-MCTS生成的合成路線和廣度優(yōu)先搜索(heuristic BFS)生成的合成路線的比較中,受試科學家顯著傾向于選擇前者,表明3N-MCTS生成合成路線的水平顯著優(yōu)于BFS的基線水平。
最后,Waller團隊進一步論證了上述四個步驟對反合成分析整體性能的提升均有貢獻,這一點上,大家也可以類比于AlphaGO一文進行理解。
此次,Waller團隊的研究成果是當前化學合成領域的一個重要的突破,對于化合物合成特別是藥物合成具有重要的意義。目前,計算機輔助化合物逆向合成主要有兩種解決方案:1)基于人工規(guī)則的逆向合成路線設計,這種方案目前的典型代表為韓國蔚山國立科學技術研究所(UNIST)Bartosz Grzybowski教授團隊開發(fā)的Chematica系統(tǒng),該系統(tǒng)遵循50000條有機合成規(guī)則并基于這些合成規(guī)則進行合成路線的設計;2)基于深度學習的逆向合成路線設計,Waller團隊的3N-MCTS算法框架即為該方案的典型代表。
縱觀3N-MCTS的整個設計方案,和AlphaGo的整體思路非常類似,均采用了深度神經(jīng)網(wǎng)絡+蒙特卡洛樹的實現(xiàn)方式,將合成路徑的選擇類比于圍棋對弈中落子路徑的選擇。這種方法值得肯定,也取得了令人滿意的結果。最后我對該工作做一個總結和展望:
首先,該工作能發(fā)表在Nature雜志,可以說既是“意外”, 又“驚喜”?!耙馔狻毕抵钙湔麄€設計框架借鑒于AlphaGO, 故可能從方法學角度來說并未做實質性的創(chuàng)新;“驚喜”系指該工作做了一個非常巧妙的類比和應用,嘗試解決化學合成領域的一個重要的問題,并取得了理想的結果,對該領域產(chǎn)生了重要的貢獻。
其次,3N-MCTS的整個方案基于深度神經(jīng)網(wǎng)絡構建,故需要大量的高質量標記樣本進行訓練。而化學合成反應的標記樣本并不容易獲得。該工作所用的訓練樣本均來自于Reaxys數(shù)據(jù)庫,該數(shù)據(jù)庫是商業(yè)數(shù)據(jù)庫,不可公開獲取。進一步擴充相關的化學反應標記數(shù)據(jù),將能夠獲得更好的預測效果。
再者,前述所說的篩選網(wǎng)絡是一個二分類的深度神經(jīng)網(wǎng)絡,它基于數(shù)據(jù)庫中的陽性數(shù)據(jù)(可行路線)和陰性數(shù)據(jù)(不可行路線)進行訓練。而數(shù)據(jù)庫中的陽性數(shù)據(jù)遠多于陰性數(shù)據(jù)。為了解決這個問題, Waller團隊采用了data sampling 和data augmentation的方法進行負樣本生成,但并不能夠窮盡所有的陰性數(shù)據(jù),并且陰性樣本的選擇和生成將對整個系統(tǒng)的預測性能產(chǎn)生重要的影響, 這一點值得未來進行系統(tǒng)的討論。
最后,目前其輸入化合物預測的編碼均采用基于Smile格式的ECFP4指紋編碼,該指紋編碼維度很高,易造成過擬合,未來的方向可以考慮進一步嘗試其他的化合物編碼方式進行預測。Waller團隊也提到其目前的模型基于已有的訓練數(shù)據(jù),對某些特定反應機理、三維結構或互變異構體對復雜化合物合成的影響還無法考慮,在復雜天然產(chǎn)物的逆合成以及立體化學選擇性預測方面有很大改進空間。同時,目前的方法只提供了可能的設計路線,而對反應的條件還無法做出準確的預測。
?用AI來篩選藥物,已誕生了一批創(chuàng)新公司,圖片來自agfahealthcare.com
總體來說, Waller團隊的工作是基于AI對于藥物逆合成路線設計的一次有益嘗試,同時也存在諸多改進空間。另外,我們注意到該文的第二作者Mike Preuss來自于英國BenevolentAI公司,該公司目前是也已基于AI進行藥物研發(fā)的獨角獸公司, 說明學術界和工業(yè)界均對于AI加速新藥研發(fā)產(chǎn)生了關注。我們期待未來AI技術在該領域再次獲得激動人心的研究成果。
相關文章
[1] Raccuglia P et al. Machine-learning-assistedmaterials discovery using failed experiments, Nature, 2016.
[2] Siliver D et al. Mastering the game of Go withdeep neural networks and tree search, Nature, 2016.
[3] Siliver D et al . Mastering the game of Go without human knowledge,Nature, 2017.
制版編輯:黃玉瑩 |