AI怎樣改變所有學科?從“工具的革命”到“革命的工具”
本文系上海人工智能實驗室主任、清華大學惠妍講席教授周伯文在2025年中關村論壇上的講稿。 在周伯文看來:科學研究,是研究者、研究工具和研究對象一切關系的總和,當前的AI for Science在單點取得了可觀的進展,實現(xiàn)了工具層面的革新,然而要成為“革命的工具”,需要采用“通專融合AGI”方式。
● ● ●
2023年1月5日,《自然》雜志發(fā)表了一篇具有重要影響力的封面論文,對過去七十年間多個學科領域每篇論文的平均影響力進行了系統(tǒng)性分析。研究結果顯示,盡管在這一階段全球科研論文發(fā)表數(shù)量和專利數(shù)量持續(xù)增長,但其實際影響力卻快速下降。這一現(xiàn)象廣泛存在于生命、物理、社會等學科領域,也包括計算機科學。
與此同時,人工智能領域正在加速發(fā)展。自2012年以來,arXiv平臺上的人工智能相關研究論文數(shù)量已呈現(xiàn)指數(shù)級增長,且在去年獲得諾獎。這些宏觀背景促使我們深入思考,人工智能與科學研究如何深度融合?科學論文和專利影響力下降的原因,并不是科學家的能力或素質(zhì)比此前下降了,而是因為科學這座“大廈”經(jīng)過100多年的修建已經(jīng)越來越完善,每個學科變成一個“小房子”——如何打通這些“小房子”之間的壁壘?如何讓每個領域的工作帶來更大影響力?這對研究者和研究工具提出了更高的要求。
在上述背景下,運用人工智能幫助科學研究已經(jīng)成為普遍共識。這一共識體現(xiàn)在美國頂尖人工智能研究機構的行動上,例如OpenAI宣布與美國多個國家級實驗室開展緊密合作,運用人工智能助力重大科研突破;Anthropic、xAI、Thinking Machines等多家企業(yè)也把“理解宇宙、幫助科學、更好地思考”設為遠期目標。
01
從科學研究最新進展來看,在生命科學、數(shù)學、生物、材料科學等具體領域,用人工智能助力科學研究已經(jīng)不再是新鮮事——科學研究“工具的革命”已經(jīng)悄然發(fā)生。在這個重要的時間節(jié)點上,如何系統(tǒng)性思考,進行頂層設計,面向Science與AI進行有組織的科研,是需要思考和討論的重要話題。
2024年諾貝爾化學獎得主,DeepMind公司CEO Demis Hassabis在諾獎頒獎典禮上總結了適合AI發(fā)展的科研領域的三個標準:第一,存在巨大的組合搜索空間;第二,具備清晰明確的目標函數(shù);第三,擁有大量可靠數(shù)據(jù),或者具有高效準確合成數(shù)據(jù)的方法。這三個標準在過往的成功案例中已經(jīng)得到了充分驗證,但是尚未充分考慮到AI在未來三到五年的發(fā)展可能帶來的巨大潛力。
我認為,AI對所有科研工作的作用都可以歸納為它如何幫助研究對象、研究工具,以及研究者三個層面。上述關于研究領域的選擇標準都可以被歸納為研究工具,即如何利用人工智能更高效地解決計算問題(AI for Computation)。然而,完整的科學研究過程不僅包含計算環(huán)節(jié),還涉及多個重要方面:首先是對研究對象,即AI如何提升對研究對象的觀察、理解和表征,這些表征最終都會轉化為數(shù)據(jù)(AI for Data)。在這些數(shù)據(jù)的表征、理解、獲取和修改等各個環(huán)節(jié),AI分別能發(fā)揮哪些作用是一個重要問題,同時也是重大機會。其次是研究者(AI for Innovator),即科學家本身??茖W研究的天花板往往取決于研究者自身的認知局限。隨著學科劃分越來越細,要做出具有重大影響力的工作,僅靠單一領域的專業(yè)知識和經(jīng)驗已經(jīng)遠遠不夠。如何幫助科學家提出更好的問題、找到更有價值的研究方向,都是AI for Science應該著力解決并且可能帶來巨大回報的領域。
02
這就引申出另一個問題——如何定義AI for Science,如何將AI for Science翻譯成中文?
針對這個問題,我們曾訪談了來自不同學科領域的上百位科學家,特別是青年科研人員。主要存在兩種觀點:第一種觀點認為,AI for Science主要是指人工智能作為科研工具,重點在于如何具體應用;第二種觀點則認為,“for Science”是修飾語,AI是核心詞,重點是打造真正能驅動科學研究的AI這一懸而未決的問題。Demis等AI科學家最后都把問題收斂成AI for Computation,而要讓AI在科學研究中取得實質(zhì)性突破,還有大量工作要做。
那么,什么才是for Science的AI?
科學家通常同時具備廣博的通識能力和精深的專業(yè)知識,這種“通專融合”的能力正是優(yōu)秀科學家的核心特質(zhì),這一理念也恰好與人工智能的發(fā)展趨勢不謀而合。
人工智能的發(fā)展路徑可以抽象成一個二維路線圖:橫軸表示專業(yè)深度,縱軸表示泛化能力。在Transformer架構出現(xiàn)之前,人工智能發(fā)展主要沿著專業(yè)深度方向推進,從深藍到AlphaGo都是典型代表。GPT系列模型出現(xiàn)后,通過智能壓縮,在提升模型泛化能力方面取得重大突破,但此類模型專業(yè)深度嚴重不足。目前學界已經(jīng)開始認識到這一發(fā)展路徑的局限性,通過在預訓練后增加后訓練來提升模型推理深度,但其專業(yè)度仍然有限。要真正通過“通專融合”的路徑來解決科學問題,AI方面仍然有很多工作要做。
“高泛化性+高專業(yè)性”的右上角區(qū)域是最具價值的領域,當前的技術路線都在迂回曲折地向這個方向逼近,那么有沒有更高效的方法?
在單點的科學研究上,人工智能已經(jīng)成為非常重要的新型研究工具,可謂帶來了“工具的革命”。如果能找到通專融合的突破口,就可能創(chuàng)造出“革命的工具”,進而通過“工具的革命”發(fā)現(xiàn)更具革命性的新工具。
基于對科學研究的長期思考,我認為科學研究是研究者、研究工具和研究對象一切關系的總和。任何科學研究都離不開三大要素:研究者、研究工具和研究對象。研究者在認知驅動或好奇心驅使下,選擇合適的工具來理解研究對象,提出新的理論并進行驗證。
在傳統(tǒng)的科研關系中,人類研究者通常是單一領域的專家,對研究工具具備一定知識,對研究對象采用單維或低維的數(shù)據(jù)表征。AI for Science可以在多個層面發(fā)揮作用:在單一節(jié)點上,可以幫助研究者理解文獻、增強計算工具的能力,或豐富研究對象的表征維度。當前的AI for Science在這些方面已經(jīng)取得了可觀的進展,在單點上實現(xiàn)了工具層面的革新。
03
但AI的價值遠不能止步于此。當我們將整個科研過程視為研究者、工具和對象三者之間的動態(tài)系統(tǒng)而非孤立節(jié)點時,人工智能將發(fā)揮更大價值,促成三者之間相互作用、協(xié)同演進、螺旋式上升的新型科研范式大變革,進而創(chuàng)造出真正革命性的工具。
具體而言,人工智能可以幫助研究者在多個方面獲得提升:在研究者層面,可以幫助研究者更好地產(chǎn)生跨領域的想法,幫助判斷哪些科研假設更具價值;在研究工具層面,能夠自主構建新工具,或實現(xiàn)已有工具的創(chuàng)新性組合,完成“組合爆炸”;在研究對象層面,可以實現(xiàn)高度泛化、無損壓縮和體量龐大的數(shù)據(jù)獲取。一個關鍵問題在于,研究者對研究對象的表征往往受限于自身的認知水平,很多潛在有價值的信息由于存儲或帶寬限制而被舍棄。在人工智能的加持下,研究者就可以更全面、更交叉地審視研究對象,這種深入理解又會促使研究工具的改進,進而提升研究者的認知水平;認知提升后,研究者就能提出更優(yōu)質(zhì)的科學問題和工具組合,從而形成良性迭代循環(huán)。這正是AI for Science的最大機遇所在——不在于單點突破,而在于推動整個科研范式的系統(tǒng)性變革。
整個變革過程可以分為三個層次:首先是AI for Data,即對研究對象的表征;其次是AI for Computation,即對計算范式的革新;最后是AI for Innovator,即對研究者能力的提升。這三個層次最終將融合形成一個完整的閉環(huán)系統(tǒng)。以下為幾個例子:
第一個例子是突破對研究對象的理解。我們在上海人工智能實驗室開發(fā)了一個基于注意力機制的大氣數(shù)據(jù)表征模型,該模型能夠捕獲多維特征,同時保持線性計算復雜度。通過無損數(shù)據(jù)壓縮,可以在更大規(guī)模上研究氣象變化。這種方法具有很高的普適性,已成功應用于神經(jīng)科學和生物學等領域,獲取的數(shù)據(jù)在廣度和深度上相比傳統(tǒng)方法提高2-3個數(shù)量級,使得許多以往被忽視的現(xiàn)象得以顯現(xiàn)。后續(xù)還有很多工作,例如探索如何更低成本地獲取高質(zhì)量數(shù)據(jù)。
第二個例子是推動計算范式的革新。在氣象建模中采用多模態(tài)模型進行表征,計算精度相比傳統(tǒng)基于物理方程的方法顯著提升。以一次臺風登陸上海的過程為例,黃線是實際觀測路徑,藍色虛線是歐洲氣象中心基于物理模型的預測路徑,而粉線是我們大模型的預測路徑。結果顯示,人工智能模型在臺風登陸后的短期預報精度上比物理模型提高10倍以上,在中長期預報方面也有突破性進展。
我們主要在清華完成的蛋白質(zhì)多組學數(shù)據(jù)研究PROTEUS,則進一步展示了人工智能如何融合研究對象、研究工具和研究者,并最終對科學研究形成循環(huán)推動作用。該研究的數(shù)據(jù)來源非常廣泛,遠超單個科學家所能掌握的范圍;而且除了現(xiàn)有的組學數(shù)據(jù)外,全球范圍內(nèi)還在持續(xù)產(chǎn)生大量新數(shù)據(jù)。通過融合這些數(shù)據(jù),并結合對數(shù)百萬篇文獻的理解,可以產(chǎn)生眾多有價值的科研方向,包括基礎研究領域的疾病機制解析、臨床應用中的治療靶點篩選等。面對如此繁雜的研究對象和海量分散的信息,很少有科學家能夠全面掌握并提出最優(yōu)的科學假設。傳統(tǒng)科研模式下,科學家通常在局部數(shù)據(jù)和有限認知基礎上提出假設,而這些假設是否滿足全局最優(yōu)則無從得知。
引入AI的研究方法完全顛覆了這一模式:首先將多組學數(shù)據(jù)視為AI for Innovator(研究對象)的擴展,采用多種方法整合這些數(shù)據(jù);然后通過對現(xiàn)有文獻和新發(fā)表成果的分析,自動識別數(shù)據(jù)中呈現(xiàn)的現(xiàn)象;根據(jù)現(xiàn)象分類,系統(tǒng)自動調(diào)用多種生物信息學工具進行組合分析,初步提出新的研究方向;經(jīng)過深度推理后,自動生成科學假設;最后將這些假設呈現(xiàn)給科學家,通過人機協(xié)作方式評估其科學價值。使用以上方法在10個不同數(shù)據(jù)集上生成360多條科學假設后,將這些假設與人類科學家提出的假設進行匿名對比評估,結果顯示,人工智能生成的假設在新穎性和相關性方面顯著優(yōu)于人類專家的假設。
需要強調(diào)的是,上述對比關注的是質(zhì)量而非數(shù)量,因為在數(shù)量上AI毫無疑問具有絕對優(yōu)勢。這一突破性進展促使我們重新思考科學假設的生成方式,包括如何采集新數(shù)據(jù)或從新角度觀察現(xiàn)有數(shù)據(jù)。在這個過程中,AI系統(tǒng)獲得了一個新任務:對已有觀察結果提出新的數(shù)據(jù)解析,并在此過程中構建新工具,然后對數(shù)據(jù)和工具再次提出新假設;基于這些新數(shù)據(jù)和工具,又將開啟下一輪研究迭代。目前我們正在進行第二階段工作:根據(jù)AI生成的假設設計新的觀測方案和工具,開展驗證實驗——這意味著研究對象、研究工具和研究者三者之間已經(jīng)形成了互相賦能,良性螺旋式上升的迭代循環(huán)。
以下的研究框架圖可以更好地說明這一機制:研究者的主要作用是提供基礎研究方向,將研究方向作為命題輸入AI系統(tǒng)。AI系統(tǒng)會對研究對象、現(xiàn)有數(shù)據(jù)和文獻進行全面分析,提出新的研究問題和對象。在傳統(tǒng)科研中,不同科學文獻之間往往缺乏聯(lián)系,而AI能夠發(fā)現(xiàn)這些潛在關聯(lián),這些新關聯(lián)就是創(chuàng)新的科學假設。AI系統(tǒng)會調(diào)用合適的工具對假設進行初步驗證,然后將結果反饋給人類研究者,由他們決定后續(xù)研究方向、假設驗證和新實驗設計。目前這一循環(huán)的基礎版本已經(jīng)實現(xiàn),隨著各個環(huán)節(jié)的不斷完善,將會進一步顯現(xiàn)更大的價值。
04
最后總結一下核心觀點:第一,For Science需要新的AI;第二,科學研究需要人工智能在包含研究者、研究工具、研究對象的全要素總和中發(fā)揮系統(tǒng)性作用,而非僅限于單點突破。如果AI僅做單點突破,人與人之間的交流成本還會持續(xù)提升;只有讓AI發(fā)揮系統(tǒng)性作用,才能有效降低交流成本。由于信息吞吐率的本質(zhì)差異,人與人之間的交流成本始終高于AI與AI、模型與數(shù)據(jù),因此迫切需要促進AI內(nèi)部的高效信息交互,而非單純提升人際交流效率。第三,一旦完成以上兩步,AI將從“工具的革命”過渡到“革命的工具”。
AI for Science目前仍處于“工具的革命”階段,就像從計算器到計算機程序,無論是Basic語言、Python語言還是現(xiàn)在的自然語言,都是在工具上進步。但是科學革命需要“革命的工具”。為了推動AI for Science的發(fā)展,上海人工智能實驗室創(chuàng)新性地啟動了“AI4S攀登者行動計劃”,打造一個科學工作者和AI工作者雙向奔赴、協(xié)同攻關的新模式。該計劃在今年春節(jié)前發(fā)布,目前已收到來自全世界500多個不同科研機構的申請,顯示大家對AI for Science領域寄予厚望。
該計劃除了強調(diào)AI和Science的雙向奔赴之外,也在組織模式上進行了多處創(chuàng)新:一是目標導向,聚焦重大科學問題攻關,要求大規(guī)模協(xié)同創(chuàng)新;二是緊密組織地進行科研,要求AI和Science的研究人員必須在一起,組成一個“初創(chuàng)”團隊;三是開放,因為這類研究課題往往沒有標準答案和既定流程,需要學術機構的自由探索氛圍。該計劃希望通過融合企業(yè)、創(chuàng)業(yè)團隊和學術機構的優(yōu)勢,形成獨特的組織形式。
按照科技部的指導方針,設立以下幾個重點攻關方向:一是聚焦重大科學問題的創(chuàng)新突破;二是沉淀共性關鍵技術問題,如提升AI for Science的系統(tǒng)性能力;三是打造產(chǎn)業(yè)標桿,將AI for Science的價值最終體現(xiàn)在新材料、新工藝等實際應用上,產(chǎn)生經(jīng)濟效益和社會效益。
目前第二批申請已經(jīng)啟動,采取滾動支持機制,歡迎感興趣的科研團隊積極參與。
最后給讀者留下幾個值得深思的問題:第一,大語言模型能解決所有科學問題嗎?如果不能,我們怎么提升它的能力?第二,當前的科研評價體系是對科學家進行評估,AI與人類科學家的價值是否應該有差異化的評估體系?第三,包括推理、運行時計算等在內(nèi)的Scaling Law能否帶來革命的工具?是否還有新的技術路線?
以上就是今天的分享,謝謝大家。
(作者簡介:周伯文,上海人工智能實驗室主任、首席科學家,清華大學惠妍講席教授、電子工程系長聘教授。)