多位腦科學家和AI技術專家,深度探討人工智能與腦科學的發(fā)展以及相互影響
來源 | 未來論壇
● ● ●
引言
過去的十年以深度學習為代表的人工智能技術深刻影響了人類社會。但人類要進入真正意義上的智能時代,還需要更強大的智能技術。而向人腦學習,借鑒人類大腦的智能產(chǎn)生機理被認為是一條非常值得期待的道路。反過來,AI技術也在深刻改變著腦科學的研究方法。在“觀測腦”手段不斷變革的基礎上,AI技術為腦科學提供了越來越強大的分析、展示和科學發(fā)現(xiàn)手段。
2020年4月25日,青創(chuàng)聯(lián)盟發(fā)起的YOSIA Webinar線上學術研討會特別推出了“AI+X”科學系列主題,首期主題為AI+腦科學,匯集腦科學家和AI技術專家,主要針對人工智能與腦科學的發(fā)展以及兩者間的相互影響進行了分享。
主持嘉賓:
山世光,未來論壇青年理事會輪值主席、中科院計算所研究員、博士生導師
主講嘉賓:
唐華錦,浙江大學計算機學院教授
吳華強,清華大學微納電子系教授、副系主任
胡曉林,清華大學計算機科學與技術系副教授
討論嘉賓:
畢國強,中國科學技術大學神經(jīng)生物學與生物物理學系主任、合肥微尺度物質(zhì)科學國家研究中心集成影像中心聯(lián)合主任
畢彥超,未來論壇青年理事、北京師范大學認知神經(jīng)科學與學習國家重點實驗室、IDG/麥戈文腦科學研究所研究院教授、長江學者特聘教授
吳思,北京大學信息科學技術學院長聘教授、IDG/麥戈文腦科學研究所研究員
特別鳴謝 報告編輯:
劉千惠,浙江大學計算機科學與技術專業(yè)博士生
邢東,浙江大學計算機科學與技術專業(yè)博士生
一.主題分享
《神經(jīng)形態(tài)計算機》——唐華錦
報告將以神經(jīng)形態(tài)計算機為中心介紹計算機與大腦的區(qū)別以及大腦對開發(fā)更加新型的智能計算機的啟示;關于神經(jīng)形態(tài)計算機的必要組成以及介紹大腦是如何完成計算任務的;目前算法的進展以及硬件設計方面的成果;對這個領域的總結和展望。
基于馮·諾依曼結構的傳統(tǒng)計算架構已引領計算機科學技術的發(fā)展幾十年。但其運行效率受到了很多制約,例如I/O性能的制約,大量的數(shù)據(jù)讀寫會降低整體效率,凸顯了馮·諾伊曼體系結構的瓶頸。而大腦中突觸和神經(jīng)元同時可以做計算和存儲,所以不存在馮·諾依曼架構的I/O的吞吐瓶頸。大腦還具有能耗低,效率高,并行性高的特點。因此研究大腦的工作原理、模擬大腦智能的信息處理,構建一個非馮·諾依曼體系的新型計算機體系,不僅是計算機科學也是計算機工程以及硬件今后發(fā)展的一個重要方向。
下面將從大腦的主要計算過程來解釋如何設計未來的神經(jīng)形態(tài)計算機,并由此出發(fā)來解釋大腦計算必須的組成部分。
第一,網(wǎng)絡結構。生物神經(jīng)元的輸入前饋和反傳發(fā)生在神經(jīng)元的不同部位,對于I/O來說做了充分的簡化。大腦存在著大量稀疏的異構連接;而ANN主要依賴的是前饋全連接的網(wǎng)絡結構?;谏疃染W(wǎng)絡的算法,往往采取一個全局的優(yōu)化函數(shù)使其達到最優(yōu)值來調(diào)整權重;而對于生物神經(jīng)網(wǎng)絡來說,由于存在大量的局部連接以及遠程連接,并有豐富多樣的突觸可塑性,因此可以更加靈活的調(diào)整神經(jīng)元之間的連接來完成對目標函數(shù)的優(yōu)化。
第二,大腦采用的是具有生物特性的計算模式。人工神經(jīng)元不需要考慮輸入的時間特性。但是生物神經(jīng)元具有四個典型的時間的非線性動力學:一是膜電位積分,二是漏電效應,三是不應期,四是脈沖發(fā)放。這樣就會有脈沖神經(jīng)元輸入脈沖的不連續(xù)性,以及輸出脈沖的不連續(xù)性。
第三,信用分配問題。信用分配在人工神經(jīng)網(wǎng)絡里常被說成優(yōu)化算法,最典型的一個優(yōu)化算法就是梯度下降算法。但梯度下降算法存在一個誤差傳輸問題,即要求前向和反向權值要完全對稱。生物神經(jīng)元的信用分配機制采用完全不同的處理方式,由于脈沖神經(jīng)元之間依賴于脈沖發(fā)放時間,因此采用基于脈沖時間的學習方式。在神經(jīng)科學里面應用非常廣泛的STDP(脈沖時間依賴的突觸可塑性)是基于突觸前后脈沖發(fā)放的時間差來調(diào)整,實現(xiàn)局部的無監(jiān)督學習。此外,也可以通過設計實際脈沖序列和期望脈沖序列之間的序列差來有監(jiān)督式的學習和訓練發(fā)放脈沖。另外可以把每個神經(jīng)元和突觸都當做一個智能體,發(fā)放脈沖或者不發(fā)放脈沖作為智能體的動作,來構成一個強化學習網(wǎng)絡。這樣可以實現(xiàn)更加靈活并且生物性更強的一種學習算法。
第四,學習與記憶的融合。在訓練完人工網(wǎng)絡后,當新的任務進來,權值往往會被覆蓋。但是在生物神經(jīng)元里有大量專門負責記憶的細胞,比如海馬體中的記憶細胞,它可以記憶熟悉的場景并對空間進行編碼。所以依據(jù)海馬區(qū),可以實現(xiàn)神經(jīng)元對外部輸入的表達、學習及記憶,構成一個基于學習記憶-記憶融合的認知計算。
下面介紹一下目前算法的進展以及硬件方面設計的成果。
第一個是關于信息的編碼工作,即把輸入信息轉換成一系列的時空脈沖信號。我們對新型的神經(jīng)形態(tài)視覺信息進行脈沖編碼和表征來處理動態(tài)的視覺信息,發(fā)表在2020年TNNLS上。
第二個是基于深度SNN的信用分配算法。信用分配算法可以高效的解決由于時間動力學帶來的脈沖神經(jīng)網(wǎng)絡訓練困難問題。不僅在空間上進行誤差反傳,同時可以把誤差信息傳遞到脈沖的時間信息上?;谶@樣的設計,我們提出了基于脈沖簇的學習算法,不僅可以訓練神經(jīng)元在指定時間發(fā)放脈沖,而且可以指定發(fā)放脈沖簇。
第三個是脈沖損失函數(shù)。現(xiàn)有的脈沖損失函數(shù)具有各自的缺陷,我們通過改造現(xiàn)有損失函數(shù)使其能夠訓練神經(jīng)元對復雜的時間序列具有響應特性,比如在訓練前雜亂無章的神經(jīng)元響應,在訓練后能夠顯示出對某些特定信號的選擇性響應。
第四個是學習與記憶融合。我們構建一個能夠模仿多層腦區(qū)的結構,實現(xiàn)神經(jīng)元的編碼、監(jiān)督學習和無監(jiān)督學習,同時實現(xiàn)聯(lián)想記憶和時序記憶。
第五,在感知-認知-交互閉環(huán)上,我們把海馬體電路搬到機器人上,通過硬件模式來實現(xiàn)機器人對空間感知、認知交互的閉環(huán)。Communications of ACM 2018專題也介紹了這樣的工作,來解釋大腦如何幫助機器人對復雜環(huán)境空間進行感知,以及依賴空間位置神經(jīng)元對空間的記憶以及編碼的作用。
還有一些在硬件實現(xiàn)上的一些成果。通過數(shù)字或者模擬集成電路可以實現(xiàn)神經(jīng)元、突觸以及突觸可塑性。這個領域上已經(jīng)有大量神經(jīng)形態(tài)芯片的成果,比如SpiNNaker、BrainScaleS、TrueNorth、Loihi、ROLLS、清華“天機”芯片、浙大“達爾文”芯片等。另外,未來類腦芯片的潛在突破可能在憶阻器及陣列。利用憶阻器可以分別實現(xiàn)突觸和神經(jīng)元,實現(xiàn)模擬矩陣運算即存算一體。
最后,我提出一些對于神經(jīng)形態(tài)計算機的總結與展望。首先其必須具備異構的網(wǎng)絡結構,其次要包含時序動力學的神經(jīng)元非線性,另外要構建基于突觸可塑性的信用分配算法,最后要實現(xiàn)學習-記憶融合的認知計算。未來,我們要把大腦真正“搬進”機箱,讓它實現(xiàn)知識的表達、學習、認知以及環(huán)境的交互。
《大腦啟發(fā)的存算一體技術》 ——吳華強
我的報告將從硬件的挑戰(zhàn),研究進展以及展望三方面來介紹大腦啟發(fā)的存算一體技術。
人工智能無處不在,從云端到我們手機端都有很多人工智能。不同的人工智能應用對芯片的需求是不一樣的,比如數(shù)據(jù)中心、汽車無人駕駛要求算力特別高,而智能傳感網(wǎng)、物聯(lián)網(wǎng)和手機希望耗能低,追求高能效。不同應用對芯片的不同需求給了芯片領域很多機會。
人工智能的三個發(fā)展浪潮和硬件算力也有關系。從第一款神經(jīng)網(wǎng)絡Perceptron 網(wǎng)絡AI開始火起來,到70年代進入低谷,一個非常重要的因素是,雖然有很好的理論模型,但是沒有足夠的算力。后來專家系統(tǒng)出現(xiàn),第二波浪潮又起來。這時候很多人做專門圍繞人工智能的計算機。同時代摩爾定律快速推動芯片的發(fā)展,通用計算機的性能飛速上揚,專業(yè)計算機能做的通用計算機也能做,因此逐漸占據(jù)市場,第二波浪潮又下去。第三波浪潮,深度神經(jīng)網(wǎng)絡的提出到利用GPU加速網(wǎng)絡訓練,GPU成為AI的主要訓練平臺。有了更大的算力,網(wǎng)絡規(guī)??焖偬嵘lphaGo Zero需要5000個TPU訓練40天才成為地表最強的圍棋選手,花費的時間還是很大的,因此人工智能的廣泛應用需要硬件能力革新,支撐人工智能的發(fā)展。
芯片能提供的算力和人工智能的高需求是很矛盾的。第一臺計算機ENIAC出現(xiàn)在1947年,算力是每秒鐘5000次左右。英特爾2019年的CPU大約是20.8GFLOPS。我們看到它的變化是圍繞著摩爾定律,即每18個月翻一番的集成度來提升算力。但是目前AI的需求是每3.4個月翻一番。因此需要尋找新方法提供算力。
算力提升越來越困難有兩個原因,一是過去摩爾定律是把器件做的越來越小,現(xiàn)在器件尺寸縮小已經(jīng)接近物理極限了,所以摩爾定律逐漸失效。二是傳統(tǒng)計算架構發(fā)展帶來的性能提升日趨緩慢?,F(xiàn)代計算系統(tǒng)普遍采用信息存儲和運算分離的馮諾依曼架構,其運算性能受到數(shù)據(jù)存儲速度和傳輸速度的限制。具體來說,CPU的計算速度小于1納秒,但是主存DRAM是百納秒左右,也就是存儲的速度遠遠低于計算速度。
在能耗上,以TSMC45納米的工藝為例,加減乘小于一個pJ,但是32位DRAM的讀要高達640個pJ,這一比也是百倍的差距。因此存儲速度遠遠低于CPU的速度,而存儲的功耗也遠遠高于CPU的功耗。這還沒有講存儲的寫,寫的功耗會更高。這樣整個系統(tǒng)的性能受到數(shù)據(jù)存儲速度和傳輸速度的限制,能耗也因為存儲讀的功耗和寫的功耗很大,導致整個系統(tǒng)功耗都很大。
現(xiàn)在可以看到很多新的計算出來了,量子計算、光計算、類腦計算、存算一體。所以當我們要思考未來的計算時,我自己覺得量子計算、光計算是向物理找答案,類腦計算、存算一體是向生物找答案,也就是向大腦找答案。
著名的人機大戰(zhàn),人工智能選手 AlphaGo用了176個GPU、1202個CPU,功耗是150000W。而我們大腦體積大概1.2L,有1011個神經(jīng)元,1015個突觸,思考的時候功耗是20W。大腦的功耗這么少,這么聰明,這里面還有這么大容量的神經(jīng)元、突觸。所以我們希望用腦啟發(fā)設計新的人工智能芯片。
我們想通過向生物學家學習、向神經(jīng)學家學習,來看看大腦是如何處理計算的。大腦有幾個特點,一個是有大量的神經(jīng)元連接性,以及神經(jīng)元加突觸的結構,一個神經(jīng)元將近連接了1萬個突觸。第二個它的時空信息的編碼方式是用脈沖的方式。我們希望模仿大腦的結構和工作機制,用脈沖編碼的形式來輸入輸出。
生物突觸是信息存儲也是信息處理的最底層的生物器件。我們想在芯片上做電子突觸新器件,做存算一體的架構。新器件方面我們主要研究的是憶阻器,它的特點是可以多比特,同時非易失,即把電去掉以后可以保持這個阻值,并且它速度很快。還有很關鍵的一點,它和集成電路的CMOS工藝是兼容的,可以做大規(guī)模集成。近十年我們一直圍繞這個器件來做其優(yōu)化和計算功能。
美國DARPA的FRANC項目提出用模擬信號處理方式來超越傳統(tǒng)的馮·諾依曼計算架構,希望帶來計算性能系統(tǒng)的增加。任正非在2019年接受采訪時說,未來在邊緣計算不是把CPU做到存儲器里,就是把存儲器做到CPU里,這就改變了馮·諾依曼結構,存儲計算合而為一,速度快。阿里2020年的十大科技趨勢里提到計算存儲一體化,希望通過存算一體的架構,突破AI算力瓶頸。存算一體的理念也是受大腦計算方式啟發(fā)的。
基于憶阻器的存算一體技術可以分為三個階段:第一個階段是單個器件的發(fā)展階段。2008年惠普實驗室的Stan William教授首次在實驗室制備了憶阻器,之后美國密西根大學的盧偉教授提出了電子突觸概念,美國UCSB大學的謝源教授提出了基于憶阻器的PRIME存算一體架構,引起廣泛關注。
第二個階段開始做陣列,2015年UCSB在12×12的陣列上演示了三個字母的識別,我們團隊2017年在128×8的陣列上演示了三個人臉的識別,準確率能夠大于95%,同時期還有IBM,UMass和HP等研究團隊實驗實現(xiàn)了在陣列上的存算一體;
第三個階段是存算一體芯片,我們以芯片設計領域的頂會ISSCC上近幾年發(fā)表的文章為例,2018年松下展示了多層感知機的宏電路,2019年臺灣地區(qū)新竹清華大學和臺積電聯(lián)合演示了卷積核計算的宏電路,今年清華和斯坦福合作做的限制玻耳茲曼機宏電路。
也是今年我們清華團隊完成的一個全系統(tǒng)集成的完整的存算一體芯片,從系統(tǒng)測試結果來看,這個芯片能效高達78.4TOPs/W,是相當高的。我們還做了一個對比,一個是存算一體的芯片和系統(tǒng),一個是用了樹莓派28納米的CPU。我們的芯片跑完一萬張圖片是3秒,而他們是59秒,我們的速度要快很多,準確率卻相當。
今年1月我們在Nature上發(fā)表了一個憶阻器存算一體系統(tǒng)的工作。這個工作主要是把多個陣列放在一起組成一個系統(tǒng),并驗證是否能用作模擬計算來實現(xiàn)AI的工作。我們提出新型混合訓練算法,實現(xiàn)了與軟件相當?shù)挠嬎憔?。還提出了新型卷積空間并行架構,成倍提升了系統(tǒng)處理速度。
為什么憶阻器存算一體適合人工智能呢?因為交叉陣列結構特別適合快速矩陣向量乘法。存算一體可以減少權重搬移帶來的功耗和延時,有效地解決目前算力的瓶頸。另外,人工智能更關注系統(tǒng)準確性,而不是每個器件的精度,這特別符合憶阻器和模擬計算的特點。
我們還和畢國強老師合作了一篇綜述文章。利用腦啟發(fā)來設計人工智能芯片,我們把大腦從I/O通道,到突觸,神經(jīng)元,到神經(jīng)環(huán)路,到整個大腦的結構,都和電子器件做了對比。文章題目叫《Bridging Biological and Artificial Neural Networks》,發(fā)表在2019年的Advanced Materials上面,如果大家感興趣可以讀這個文章。
展望未來,希望能夠做一個存算一體的計算機系統(tǒng)。以前是晶體管加布爾邏輯加馮·諾依曼架構,現(xiàn)在是模擬型憶阻器加模擬計算和存算一體的非馮架構。
《神經(jīng)元稀疏發(fā)放在視聽覺通路上的作用》——胡曉林
前面兩位嘉賓介紹的是神經(jīng)科學怎樣啟發(fā)做新的器件,我來介紹AI的發(fā)展怎么促進神經(jīng)科學的研究,主要是講從AI到BI(Brain Intelligence)的兩個小工作。
首先看一下背景。視覺系統(tǒng)通路是個層級結構,信息從視網(wǎng)膜到LGN到腦皮層。聽覺皮層也是一個層次化結構,信息從耳蝸一直傳到聽覺皮層。所以大家熟悉的人工神經(jīng)網(wǎng)絡,和視覺、聽覺系統(tǒng)有一定的相似性,至少它們都是層次化的結構。基于這種相似性,我們是不是可以利用現(xiàn)在神經(jīng)網(wǎng)絡的飛速發(fā)展,來促進我們對大腦的視覺、聽覺或者其他感覺皮層工作機制的理解?
這方面比較早期的一個工作是用CNN去訓練一個圖片分類模型,然后把同樣的圖片給猴子看,記錄猴子不同的視覺區(qū)域(比如V4和IT這兩個區(qū)域)神經(jīng)元的發(fā)放,最后比較神經(jīng)網(wǎng)絡不同層和猴子的不同皮層(比如V4和IT這兩個區(qū)域)神經(jīng)元的相關性。發(fā)現(xiàn)不同神經(jīng)網(wǎng)絡層正好對應猴子IT、V4區(qū)域反應的特點。這是第一次證明神經(jīng)網(wǎng)絡和神經(jīng)科學、大腦視覺皮層有一定的關聯(lián)。
接下來介紹一個神經(jīng)科學的發(fā)現(xiàn)。2013年紐約大學做了一個實驗,讓猴子去看兩種不同的圖片,第一種是把自然圖片通過一種方法合成為比較像自然圖片的圖片(這類圖片與自然圖片含有類似的復雜的統(tǒng)計特性),第二種是噪聲圖片(這類圖片與自然圖片含有類似的能量譜)。發(fā)現(xiàn)V1的神經(jīng)元對這兩類圖片的反應差不多,但是V2區(qū)域神經(jīng)元對于第一類的圖片反應會高一些。
他們定義了一個Modulation Index,神經(jīng)元的Index如果越高,就說明這個神經(jīng)元越喜歡比較像自然圖片的這類圖片。在V1區(qū)域,所有的神經(jīng)元的Modulation Index都集中在0附近,在0左右對稱。在V2,大部分神經(jīng)元的Modulation Index都是正的。2015年日本的一個研究小組在猴子的V4區(qū)域發(fā)現(xiàn)了同樣的結論。V4的神經(jīng)元相對V1來講,更喜歡具有高階統(tǒng)計特性的比較像自然圖片的圖片。
為什么V2和V4的神經(jīng)元喜歡像自然圖片的圖片,而不是噪聲圖片?我們構建了一個標準的深度學習模型來研究,用同樣的方式從自然圖片中創(chuàng)造出兩類圖片,然后輸入到模型里面記錄每一層神經(jīng)元的反應。結果非常有意思,分三塊,第一塊是AlexNet,第二塊是VggNet,第三塊是SHMAX。前兩個卷積神經(jīng)網(wǎng)絡大家非常熟悉,我們把這兩個神經(jīng)網(wǎng)絡分成五大層,AlexNet本身就有五個卷積層;Vgg以max pooling層為界把相鄰的幾個卷積層分成一個大層,所以也有五個層。我們發(fā)現(xiàn),隨著層數(shù)越高,Modulation Index就越高,到了第五層大部分神經(jīng)元特別喜歡含有高階統(tǒng)計特性的比較像自然圖片的圖片。SHMAX的結構跟上面兩個網(wǎng)絡的結構基本是一樣的,唯一區(qū)別是它的學習是一種逐層無監(jiān)督學習,但我們可以得到一樣的結論。
也就是說對于有監(jiān)督學習模型和無監(jiān)督學習模型,他們的Modulation Index都是隨著層數(shù)的增加而增高的。是什么樣的因素導致這些神經(jīng)網(wǎng)絡具有這樣的特性?我們發(fā)現(xiàn)Response sparseness非常重要,它跟Modulation Index成正相關的關系。Sparseness是指看過很多圖片后,有多大比例的神經(jīng)元是不發(fā)放的。隨著層數(shù)增加,Sparseness會越來越強,正好跟Modulation Index趨勢差不多。我們對AlexNet每一層的稀疏性做了修改,發(fā)現(xiàn)稀疏性越高,Modulation Index也會越高;SHMAX也是一樣。
簡單總結,我們在三個深度學習模型上發(fā)現(xiàn)和猴子視覺皮層高層反應特點類似的一個結論。
第二個工作是一個關于聽覺的工作。聽覺皮層也是層次化的結構,人們在聽覺通路上也發(fā)現(xiàn)了很多有意思的結果,比如在耳蝸后有一個聽覺神經(jīng)纖維,受到刺激后反應呈小波的形式。在下丘這個地方,神經(jīng)元的感受野是可以測出來的,并表示為時頻圖。在比較高層的聽覺皮層里,有很多神經(jīng)元可以特異性地對一些音素比較喜歡。比如“ba”里面有輔音“b”和元音“a”,這些元音輔音又叫音素。
計算機科學已經(jīng)用Sparse coding解釋了耳蝸和下丘兩個區(qū)的神經(jīng)元的反應情況,這時候Sparse coding模型的輸入不再是圖片而是語音,最后解出來是每個神經(jīng)元的感受野,就長成小波的形式。神經(jīng)科學家已經(jīng)發(fā)現(xiàn)下丘區(qū)的神經(jīng)元的感受野的形狀就是長這樣。前面兩層級的神經(jīng)元反應特點已經(jīng)被解釋了,第三層級(最高層)的這個現(xiàn)象怎么解釋呢?在給做手術的病人插電極實驗中發(fā)現(xiàn),有些電極特別喜歡輔音,有些電極喜歡摩擦音,還有的喜歡元音。也就是說人類神經(jīng)元對音素有特異化的表達,這種表達是怎么出現(xiàn)的呢?這是我們要回答的問題。還有一個問題是,比較低的皮層能用Sparse coding解釋他們的現(xiàn)象,那Sparse coding模型能不能解釋高層的現(xiàn)象呢?
為了回答這兩個問題,我們做了一個層次化的稀疏編碼模型,這是一個典型的CNN結構,只不過每一層的學習不再用BP算法,而是用Sparse coding,第一層學習完以后再學習第二層,第二層學完以后再學第三層,就這樣從底層一直到高層進行學習。
有意思的是,構建了這樣的層次化的稀疏編碼模型后,我們把靠中間的層拿出來(比如第二卷積層),將這個地方的神經(jīng)元的感受野畫出來,可以看到這個感受野和神經(jīng)科學家測出來的下丘神經(jīng)元有類似的形狀,這些感受野其他的分布的參數(shù)也和貓的下丘部位測的參數(shù)分布是一致的。最有意思的是到頂層以后,我們發(fā)現(xiàn)頂層(第六個max pooling 層)很多神經(jīng)元特異性地喜歡一類音素,而且這個聚集效應在頂層最明顯。在下面這些層也有,只不過這個效應低一些。所以說這個模式并不是陡然在這上面出現(xiàn)的,其實下面的層級也出現(xiàn)了,只不過神經(jīng)科學家們沒有測到下面那些區(qū)域神經(jīng)元有這樣的表達,當然這是我們的推測。
總結一下,我們發(fā)現(xiàn)一些深度學習模型在中層和高層的神經(jīng)元的反應,和視覺、聽覺的中層、高層的真實的神經(jīng)元的反應有一定的一致性。我們并沒有嘗試擬合生理學的數(shù)據(jù),但是就是出現(xiàn)了這樣的特性,所以我們覺得這樣的結果還是非常有意思。第二個結論是關于稀疏編碼,前面的這些深度學習模型都有一個稀疏發(fā)放的特點,而稀疏發(fā)放的特點和神經(jīng)生理學發(fā)現(xiàn)的一些特點呈正相關的關系。
二.主題討論
山世光:腦科學已經(jīng)為AI發(fā)展提供了什么思想、方法和技術?有哪些典型案例?
吳華強:案例有一個,就是樹突計算的工作。過去神經(jīng)網(wǎng)絡里只有神經(jīng)元和突觸,樹突在神經(jīng)網(wǎng)絡里面不體現(xiàn)。但是最近我們的研究發(fā)現(xiàn)有一類憶阻器,和突觸不一樣,有積分功能和過濾功能,這和樹突的功能有點相似。那么神經(jīng)網(wǎng)絡是不是可以引入一個新的樹突元件?這和多加一層神經(jīng)元不一樣,多加一層神經(jīng)元就要多加一層權重,而樹突其實和神經(jīng)元是緊密結合的,一個神經(jīng)元有很多個樹突,是固定連接。如果引入樹突,會不會讓我們整個計算更加高效,更加準確?
山世光:剛才猜測樹突是不是有濾波的功能,過去我們說MCP的神經(jīng)元模型里面是一個積分,這樣是不是相當于對每一路的輸入又有又加了一層濾波?
吳華強:器件可以對它進行過濾,我介紹的那個器件并不是百分之百把樹突功能都模仿了,而是受其啟發(fā)。
畢國強:華強老師說的樹突計算非常有意思,這里取得的效能提升是由于什么原因?是不是因為樹突的濾波性質(zhì)或樹突本身的構架?一般人工神經(jīng)網(wǎng)絡的構架中每個突觸的基本性質(zhì)是一樣的,樹突架構可能引入了異質(zhì)性。另外,樹突結構本身層級結構的復雜性也可能會對最終的計算能力有一些影響。關于異質(zhì)性這一點, STDP應用到人工神經(jīng)網(wǎng)絡的效果一直不是特別好,一個可能的原因就是因為異質(zhì)性。所以華強的這個探索,把樹突結構加進去,我覺得非常值得進一步看到底是進去了哪些特征,產(chǎn)生了這些性能的提升或者改變。
從另一個哲學層次上來說,生物的神經(jīng)系統(tǒng)是很多年進化的結果,是經(jīng)過自然選擇、證明能夠可行的。但這里面又有多個尺度的復雜性,從最小尺度上,即使只是突觸這樣不到一微米大小的設備,也有很多不一樣的地方,然后到環(huán)路、到整個大腦的結構,都有這樣的復雜性。我們怎么樣去模仿或者從中獲得啟發(fā),很關鍵的一點是,我們要分析出來是哪些特征、特性能夠對AI起到一些正面的作用。我覺得短時間內(nèi)要全面地模仿大腦肯定是不現(xiàn)實的,所以我們需要從復雜的層級結構中抽出關鍵特性一步一步模仿。
胡曉林:其實AI里有很多工作是從腦科學啟發(fā)過來的??梢宰匪莸?943年,McCulloch和Pitts這兩個人第一次提出人工神經(jīng)元。他們其實是做神經(jīng)科學的,嘗試發(fā)明計算模型去解釋大腦的工作,所以他們提出一種邏輯運算單元。在1990年左右的時候,有一種和現(xiàn)在CNN的結構一模一樣的結構被提出,叫做Neocognitron,唯一區(qū)別是學習方法不一樣。它是受到一個神經(jīng)科學的發(fā)現(xiàn)的啟發(fā)。在貓的視覺皮層有簡單細胞、復雜細胞兩種細胞,這個工作從這兩種細胞的特點出發(fā),構建模型嘗試去解釋大腦是怎么識別物體的。后來才發(fā)展到CNN。這是兩個非常具有里程碑意義的事件,這是很典型的神經(jīng)科學給我們AI的啟發(fā),甚至革命性的工作。
畢彥超:聽到剛才大家講的借鑒的大多都是在實現(xiàn)層面(implementation)的,我覺得對于這兩個基本實現(xiàn)物質(zhì)基礎完全不同的智能系統(tǒng),在計算(computation)和算法(algorithm)的層面上,也有很多可以參考的地方。我會覺得認知神經(jīng)科學或者認知心理學是一個寶藏。剛才吳老師也提到,在視覺加工的時候,至少人腦和猴腦的視覺絕對不僅僅是識別,貼個標簽就可以了。它是為了生物的生存、繁衍、規(guī)避、社交等等。人的認知往往不是特定的單一目標,而現(xiàn)在AI的計算很多是特定的目標。
山世光:我們剛才討論了AI需要腦科學回答的問題,比如認知、理解知識等等。現(xiàn)在我們從另外一個反面看一下AI怎么助力腦科學的發(fā)展?
吳思:要看我們怎么定義AI。如果把AI泛泛的說是信息理論、動力學系統(tǒng)分析、統(tǒng)計學習等,那么這些都是在計算神經(jīng)科學里天天使用的工具,它們一直在助力腦科學的發(fā)展。如果一定要強調(diào)最新的助力,比如說深度學習,那么如何將AI用于腦科學是目前的一個研究熱點。國際上有多個組,也包括清華的胡曉林老師,大家把視覺系統(tǒng)當成一個深度學習網(wǎng)絡,然后訓練這個深度學習網(wǎng)絡,同時加入一些生物學的約束,然后用對比的方法看這個系統(tǒng)能學習到什么,進而回答生物視覺認知的問題。
唐華錦:我補充一下吳思老師講的。傳統(tǒng)AI提供了很重要的大數(shù)據(jù)分析工具,尤其是在高通量的腦成像方面,建立非常精細的腦模型。還有實時的腦活動的分析上,比如斑馬魚的活動,如何實時記錄以及把這些神經(jīng)元的活動匹配到那些神經(jīng)元上,這是大量AI深度學習幫助腦科學家在分析數(shù)據(jù)、統(tǒng)計數(shù)據(jù)。包括三維重建,包括樹突、軸突之間連接的結構,AI也會起到非常重要的作用,AI還是提供了很好的深入解釋工具。
胡曉林:我也接著吳思老師剛才的觀點和大家分享?,F(xiàn)在國際有一個熱點,用深度學習的方式去研究深度模型能不能出現(xiàn)以前在生物學實驗當中的結果。我想說的是,這只是第一步,我們首先要來看一下深度學習模型是不是具有這樣的特點,如果具有這樣的特點,那么能干什么。其實,深度學習模型是人自己構造的,這個模型所有神經(jīng)元都可以測,不像生物體會受到實驗條件限制,有些地方測不到。如果有了一個等價模型,在等價的人工智能模型上做一些實驗和解釋,做一些原理性的探索,會比在動物那種“黑箱”上做更容易一些。
MIT的DiCarlo組對這個問題有一個更進一步的工作。在猴子的高級皮層,神經(jīng)科學家很難用一個自然的刺激讓這些神經(jīng)元以很大的發(fā)放率去發(fā)放信號,越高層就越難。為解決這個問題,他們先構造了一個CNN神經(jīng)網(wǎng)絡,然后把中間的L3層取出來,和猴子V4區(qū)域的神經(jīng)元反應做簡單的映射,學出這個映射之后,他們把貓照片的視覺刺激,通過人工神經(jīng)網(wǎng)絡的L1、L2、L3,傳到V4腦區(qū)構成通路,構成真正的生物系統(tǒng)中貓照片通過V1、V2、V3最后傳到V4的生物通路的一個替代模型。然后他們通過神經(jīng)網(wǎng)絡BP算法反求一個刺激,使得V4區(qū)的神經(jīng)元反應最大。然后再把這些刺激給猴子看,發(fā)現(xiàn)V4區(qū)的神經(jīng)元反映遠遠超出以前用任何刺激所帶來的發(fā)放率,也就是說如果不用他們這種反求的方式去做刺激,用自然數(shù)據(jù)是很難讓這個神經(jīng)元發(fā)放這么強烈的。這個就解決了他們做生理學實驗的一個痛點。我和做聽覺的老師聊過,他們在猴子的聽覺皮層發(fā)現(xiàn)大部分神經(jīng)元都是不反應的,很多人覺得猴子的聽覺神經(jīng)元不是干聽覺這件事的,很多人想不通為什么這樣,我覺得可能是我們沒有找到合適的刺激。
畢彥超:DNN很多時候能在一定程度上模擬的大腦,并不等于真實神經(jīng)就是這樣的。所以我會特別強地要求去多找一些不同的模型來對比,才能更好地評估大腦,才有可能為理解添更多的證據(jù)。
畢國強:從基本的大數(shù)據(jù)分析到更高層次對大腦的模擬,AI在腦科學研究中能起到很多助力作用。人工神經(jīng)網(wǎng)絡在對大腦進行模擬時,只是模擬神經(jīng)系統(tǒng)的最基本的性質(zhì),比如神經(jīng)元和突觸連接。用簡單的性質(zhì)來模擬大腦肯定有它的局限,不過能夠得到一些似乎和大腦里面發(fā)生的東西類似的現(xiàn)象,這確實反映了非常根本的一些機制,但是很可能很多事情是沒有辦法用目前的人工神經(jīng)網(wǎng)絡來解釋的。這時候需要進一步的計算神經(jīng)科學的模擬,像剛才吳思提到AI和計算神經(jīng)科學沒有本質(zhì)上的嚴格邊界,可以用這種更深層次的模擬,來解釋和發(fā)現(xiàn)神經(jīng)系統(tǒng)真正的行為,然后可以再反過來看哪些性質(zhì)是哪些行為必須的。當然最后這還是一個大腦理解大腦的復雜性問題。
山世光:深度學習和大腦這兩個黑盒子怎么互相對比?能不能把這個黑盒子打開?我個人理解觀點是這有點像雞和蛋,但它是可以互動的,這邊進步一點,那邊也跟著進步一點。現(xiàn)在不是哪個是白的,另一個馬上就可以解開了。
山世光:腦科學研究需要什么樣的AI技術來解決什么樣的前沿腦科學問題?
吳思:我特別期望神經(jīng)形態(tài)的發(fā)展能助力腦科學的發(fā)展。比如說唐華錦老師和吳華強老師他們講的東西。我們研究腦科學,提出了各種模型和機制后,如果能有一個類腦的硬件系統(tǒng)驗證一下,就能更好的證明這個機制和模型是否在生物學上是合理的,能否能在AI中得到應用。
山世光:如何培養(yǎng)更多AI+腦科學交叉研究的人才?
畢國強:這實際上是一個很大的挑戰(zhàn),因為需要對兩個學科有充分的把握。而這兩個學科都是很難的學科,不管是計算機科學,還是神經(jīng)生物學,而且中間重疊的部分不多。最關鍵的是要鼓勵青年人要真正追求自己的興趣,你如果感覺大腦很神奇或者AI很神奇,你真的想研究它們、理解它們,那就只好花別人雙倍的力氣把這兩個學科都學好,這是最重要的。
我們課程設置上,不同專業(yè)間的壁壘還是很大的。生物系和計算機系這兩個學科的要求差別非常大,這時候需要設計真正的交叉學科的課程體系,也是很有挑戰(zhàn)性的。
畢彥超:跨學科有很多特別不容易溝通的地方,雖然用同樣的詞,其實大家還是固守一些成見,按照自己學科的思路去想。腦科學很多是科學的思維,AI很多是工程思維,在溝通過程中會碰到一些壁壘,這時候怎么更開放思路,思考背后大家真正關心的大問題,而不是當前具體某個名詞或者小問題的完全對應,特別的重要。
山世光:今天早上在看心理所要設計一門人工智能的課,我就在想這個人工智能的課誰來講、講什么,對他們來講前面沒有計算機編程課?上來就給心理所的人講人工智能,確實課程體系建設方面有非常多的地方需要努力。
胡曉林:如果沒有編程基礎,上來就講人工智能確實是很難。如果在信息科學院開設腦科學是不是相對比較容易?因為學神經(jīng)科學可能不需要特別系統(tǒng)的,像數(shù)學、編程那樣要經(jīng)過好幾年的培養(yǎng)。在我的課題組,我鼓勵同學們做一些腦科學的事兒,但目前為止不是特別成功?,F(xiàn)在計算機信息學科的學生更加關注的還是AI,偏純AI多一點,偏技術本身。這是另一個方面的困難。
唐華錦:浙大這邊新招的人工智能專業(yè)本科生設置AI+腦科學的交叉課程,在推動培養(yǎng)新一代的AI+腦科學方面的交叉人才上已經(jīng)在布局,相信清華、北大也有類似課程的設計。
三.開放式討論
山世光:大腦如何完成學習-記憶融合的?
唐華錦:這涉及到我們對記憶的理解問題。記憶通過神經(jīng)元的群組編碼實現(xiàn)。比如對某個概念,必須有一組神經(jīng)元對這個概念進行表述,這組神經(jīng)元就要學習對這個概念進行響應,加強這組神經(jīng)元之間的連接。如果這個概念和另一個概念之間存在聯(lián)想關系,不同的神經(jīng)元群組間要形成一個新連接,這個連接要把不同概念聯(lián)系起來。因此群組內(nèi)的神經(jīng)元連接以及群組間的神經(jīng)元連接都要通過學習的方式實現(xiàn),要么通過無監(jiān)督STDP學習規(guī)則,要么通過有監(jiān)督的方式,來實現(xiàn)學習和記憶的融合。
山世光:如果就一個神經(jīng)元來講,它如何做到“學”和“記”一體,現(xiàn)在的MCP模型是沒有記憶力的。
吳華強:突觸會通過學習不斷變化,電子突觸器件也是一樣的。比如現(xiàn)在存的值是10歐姆,學習之后把它變成12歐姆或者9歐姆也是可以的,通過變化就實現(xiàn)了它的記憶。一個芯片要做的比較智能的話,集成度是比較關鍵的。比如在10個突觸的情況下,每個的變化、參數(shù)離散性都會大幅度影響系統(tǒng)準確率,但如果芯片集成10億個器件,那其實單個器件就不會有太大影響。這塊要找數(shù)學理論家合作,在理論上怎么證明器件的離散和整個網(wǎng)絡的準確率的關系。
山世光:憶阻器交叉陣列相乘后,電流需要ADC轉換嗎?如果轉換的話,ADC是否會占用大量時間?現(xiàn)在激活函數(shù)是靠軟件實現(xiàn)還是已經(jīng)有硬件實現(xiàn)?
吳華強:憶阻器陣列可以做乘加。電流總得來說是需要ADC轉換的,但是如果每個陣列都做ADC轉化的話,成本有點高,芯片里面時間其實是很快的,都是納秒級計算,比大腦快多了。更關鍵的是,用了很多ADC會使得芯片面積比較大,導致它的能耗比較高,所以我覺得一部分可以做模擬信號傳遞,一部分可以做數(shù)字信號傳遞。激活函數(shù)可以通過硬件實現(xiàn),我們現(xiàn)在做的函數(shù)是用CMOS去做的,但是也有人單個器件去做激活函數(shù)的事情,用新的器件去做。我們是要把它集成更大規(guī)模的芯片,所以我們用CMOS去做。
完整跑一個AlexNET,能效比有多少?跑完整的AlexNET我們還沒有跑,下個芯片我們會做這個事情。我們之前做的芯片集成度規(guī)模只有幾十萬個規(guī)模,下一個芯片的規(guī)模大概幾百萬,再下個芯片達到更大規(guī)模。在幾百萬規(guī)模下就可以跑AlexNET,目前我們的仿真結果還可以,但是還需要在芯片上跑出來。
憶阻器只負責實現(xiàn)基本矩陣計算么?是不是還要配合其他方式進行輸入輸出?目前憶阻器的算法只有乘法和加法,整個計算特別適合做矩陣計算。要配合別的輸入輸出,還有存儲和編碼這都是需要的。而且從硬件上來講,陣列是固定的,算法是千變?nèi)f化的,需要用編譯器或者算法支持去把千變?nèi)f化的網(wǎng)絡層映射到固定陣列上。
山世光:好奇心是如何產(chǎn)生的?它內(nèi)在的機制是什么,有沒有辦法度量它?
畢彥超:主流的認知神經(jīng)科學上目前沒有很好的回答。首先從對嬰兒、兒童的研究上可以看到,人們對新異刺激有天生本能好奇。第二點就是人對事情的答案有一個基本的好奇心。這點不光是人,貓也是很好奇的。所以我想對于生物體進化過程當中對于外部刺激的反應,有可能是生存繁衍一個很重要的進化的東西,所有的生物體是不是有一種比較基本的好奇心,是什么樣的時間范式,怎么去實現(xiàn),是不是有不同種類的好奇心,我自己不知道。
胡曉林:這是不是和神經(jīng)科學的一個理論相關,叫predictive coding。它的基本理論是說人對于外在世界會有一個預測,但如果實際刺激或者實際發(fā)生的事情和預測不吻合,就會有一個偏差,人會關注那個偏差。
畢彥超:如果把好奇心定義為要時刻關注外面的世界,進行預測,才能實現(xiàn)實際有效的識別和交互。那我覺得有可能有關系。
山世光:能不能介紹一下人腦是如何進行多模態(tài)融合的?
吳思:多模態(tài)信息整合是我們大腦的一個基本功能。人為什么有五官?實際上它們是我們從不同的物理、化學和聲音等信號來感知這個外界世界,這些信號需要在大腦里有效地融合起來。從數(shù)學角度說,多模態(tài)信息整合的最好算法是貝葉斯推理。有意思的是,行為上已經(jīng)證明大腦能做數(shù)學上優(yōu)化的貝葉斯多模態(tài)信息整合,在神經(jīng)數(shù)據(jù)上猴子實驗也有證明,在計算模型上也得到了驗證。我們最近做了一個模型工作來解釋其機理?;镜乃枷胧歉鱾€腦區(qū)有分工,分別負責處理視覺信號、聽覺信號等,但同時這些腦區(qū)之間又有連接,這些連接編碼不同信號之間關聯(lián)的先驗知識。這樣多個腦區(qū)間通過信息交流,最終以并行分布的方式實現(xiàn)了優(yōu)化的多模態(tài)信息整合。
山世光:神經(jīng)科學里有從兒童發(fā)展或者跨物種比較的角度來研究學習是如何動態(tài)的塑造大腦神經(jīng)網(wǎng)絡的,比如小孩的大腦可能更接近全連接,后面逐漸被選擇性的消除掉一些連接。這樣一種模式對計算會不會有幫助?
畢彥超:有很多人關注這方面,至于對AI的借鑒的程度我不知道,我會覺得是一個寶藏。首先從嬰兒認知的發(fā)展上,人們發(fā)現(xiàn)很多有趣的現(xiàn)象,比如機器在小數(shù)據(jù)情況下學習一個詞可能很難,而小孩在語言爆發(fā)期只要聽到一個詞一次就可以學會。但是發(fā)展心理學家已經(jīng)發(fā)現(xiàn)只有在特定的互動情景下小孩才學會,所以可以借鑒一下。人類嬰兒的大腦非常難研究,因為我們不想以有損的方式研究嬰兒。最近隨著無損的神經(jīng)影像的發(fā)展才開始有一些特別基本的認知,開始的時候相對全連接,通過分析早產(chǎn)兒的大腦,發(fā)現(xiàn)是先去發(fā)展初級的感覺運動皮層,但隨著后來的發(fā)展,網(wǎng)絡當中的樞紐在其他的例如額頂這些更高級的網(wǎng)絡再慢慢發(fā)展了。這些也是最近兩年隨著神經(jīng)影像發(fā)展,人們才剛剛知道一點。
山世光:突觸可塑性可以看成一種局部優(yōu)化規(guī)則,大腦是如何進行全局學習和調(diào)控的?
畢國強:我們研究學習或者可塑性,一方面是看突觸本身發(fā)生的變化,另一方面我們希望知道在全局尺度上或者環(huán)路尺度上看這些可塑性是怎樣發(fā)生變化的。這也分多個層次,其中一個是在全局上看哪些突觸可以發(fā)生可塑性變化,這需要突觸前后神經(jīng)元的活動,任何一個需要學習的內(nèi)容在整個網(wǎng)絡里面以不同的神經(jīng)元活動表達出來的時候,就會有相應的突觸發(fā)生變化。
另一方面,全局尺度上還有神經(jīng)調(diào)質(zhì)的作用,比如說情緒或者獎勵的信號,受到獎勵的時候,大腦里多巴胺系統(tǒng)會對整個網(wǎng)絡有一個比較全面的調(diào)控。調(diào)控的具體影響和還有待深入研究,但是一個可能是讓在這段時間受到影響的突觸的可塑性變化更容易。這樣就在全局尺度上可以把很多突觸的變化協(xié)調(diào)起來。
山世光:信息專業(yè)的學生如果希望自己入門腦科學相關內(nèi)容應該從哪里入手?
畢國強:我自己入門的時候是讀一本《From Neuron to Brain》的書,當然還有很多其他的教科書。讀的時候會碰到很多不太清楚的名詞,這時候一方面,網(wǎng)上資源這么多,可以很容易查。另一方面,有一些不懂的東西可以先擱在那兒,先把可以理解的東西理解了。
吳思:年輕學生要來學我們這個方向最好進到一個課題組,然后多聽報告,參與做具體的課題,這樣才更有效。如果光看書,剛開始堅持一個月還可以,你能堅持一年嗎?而且你學的東西得不到應用,你會很沮喪,你可能就放棄了。所以找一個合作課題是最佳的。
畢國強:很關鍵的一點是看個人的堅持,你有多強烈的興趣和你想花多大的力氣。當然提到花雙倍的力氣,很多人就有雙倍的力氣,這些人可能就適合做這件事情。
唐華錦:確實建議很好,要放在一個具體團隊或者項目里去做,一個是提升你的成就感,不會學了一年之后感到很沮喪。中科院這一點做的很好,你們甚至強制要求人工智能和神經(jīng)科學蹲點。還有浙大,“雙腦”中心也是強調(diào)人工智能和神經(jīng)科學在一塊兒在一個團隊。至少你要找兩個這樣的導師,然后去做這方面的工作,效果會很好。
畢彥超:我想提醒一下年輕的學生,跨學科交叉非常有趣。但我建議一定要有一個自己的base,要把某個方面要學透學好才有能力去交叉學科去深入,要不特別容易飄在表面上。
山世光:腦科學領域對常識的研究,有哪些資料可以推薦?
畢彥超:我們近期有一篇文章要在Neuron發(fā)表,是第一次有直接的證據(jù),通過看先天盲人對顏色的知識,在人腦發(fā)現(xiàn)有兩種不同機制的知識表征。我推薦給大家。
Wang, X., Men, W., Gao, J., Caramazza, A., & Bi, Y. (2020). Two Forms of Knowledge Representations in the Human Brain. Neuron, 107,
https://doi.org/10.1016/j.neuron.2020.04.010
山世光:人腦中是否存在誤差反向傳播?
唐華錦:回答是肯定的,一定是存在誤差反傳,比如說肯定有全局信號、獎勵信號,只是反傳方式不一樣。傳統(tǒng)人工智能的反傳是基于梯度下降,但是在神經(jīng)科學里很難實現(xiàn),因為要求對稱的傳播。我覺得是具體實驗方式的不同,但是一定是存在的。如果對這個問題感興趣可以看最近一篇論文《Backpropagation and the brain》(Nature Reviews Neuroscience,2020)。