智源研究院發(fā)布世界首個“機(jī)器學(xué)習(xí)通用數(shù)學(xué)符號集”
● ● ●
上周舉行的智源大會嘉賓眾多、信息量巨大,相信很多老師同學(xué)都會覺得有點(diǎn)應(yīng)接不暇吧。智源研究院在大會上有很多重要的發(fā)布,因?yàn)闀r間關(guān)系,來不及展開。今天我們要好好說說其中非常有意義的一項。這就是智源研究院組織的協(xié)作成果——世界首個“機(jī)器學(xué)習(xí)通用數(shù)學(xué)符號集”。
這件事兒為什么重要呢?人工智能很大程度上是基于數(shù)學(xué)的,需要采用數(shù)學(xué)符號來表達(dá)、交流和學(xué)習(xí)。
數(shù)學(xué)符號,就是用一套符號來表示數(shù)學(xué)概念、數(shù)學(xué)關(guān)系。
數(shù)學(xué)史學(xué)家梁宗巨曾如此評價它們的意義:“它能夠精確、深刻地表達(dá)某種概念、方法和邏輯關(guān)系。一個較復(fù)雜的公式,如果不用符號而用日常語言來敘述,往往十分冗長而且含混不清?!敝袊缭诹咔昵暗奶掌魃?,就刻畫有表達(dá)計數(shù)意義的符號圖形。自世界歷史步入15世紀(jì)以來,數(shù)學(xué)符號更是取得了迅速的發(fā)展:比如1489年德國數(shù)學(xué)家魏德曼首次使用了加減號,1591年法國數(shù)學(xué)韋達(dá)開始使用括號“()”,1859年哈佛大學(xué)B·佩爾斯開始使用“π”等等,迄今為止已經(jīng)發(fā)展成超過200個符號的符號體系集,也使得數(shù)學(xué)作為科研研究的通用符號語言,為現(xiàn)代科學(xué)的蓬勃發(fā)展起著舉足輕重的作用。計算機(jī)領(lǐng)域同樣如此,1979年圖靈獎獲得者 Kenneth E. Iverson ,在其獲獎演說中認(rèn)為數(shù)學(xué)符號“可以讓大腦自由地專注于更高級的問題”,并可以作為一種連貫的語言,有效地表達(dá)計算機(jī)編程語言的可執(zhí)行性和通用性。
現(xiàn)在,數(shù)學(xué)符號同樣開始成為各國AI學(xué)者、產(chǎn)業(yè)創(chuàng)新者用來研究、學(xué)習(xí)和交流人工智能理論和技術(shù)的主要媒介。
但在人工智能、機(jī)器學(xué)習(xí)等新興學(xué)科,方興未艾的數(shù)學(xué)符號集尚存在符號不統(tǒng)一、容易混淆的問題,這在某種程度上阻撓了人工智能理論和技術(shù)交流的快速發(fā)展需要。為了解決這方面的問題,北京智源人工智能研究院正式發(fā)布學(xué)術(shù)界首個機(jī)器學(xué)習(xí)領(lǐng)域的通用數(shù)學(xué)符號集。這個數(shù)學(xué)符號設(shè)計項目的第一版,由上海交通大學(xué)副教授許志欽,普渡大學(xué)的羅濤和馬征,普林斯頓高等研究所的張耀宇等學(xué)者,秉承“準(zhǔn)確、自洽和直觀”的原則,共同組織設(shè)計完成。這些學(xué)者來自計算數(shù)學(xué)、計算神經(jīng)科學(xué)、偏微分方程、深度學(xué)習(xí)理論等領(lǐng)域,他們征集了許多機(jī)器學(xué)習(xí)領(lǐng)域的研究人員的意見。此外,智源研究院首席科學(xué)家、北京大學(xué)數(shù)學(xué)學(xué)院張平文教授對這個項目也給予了指導(dǎo)性建議和支持。
下面,我們從這套數(shù)學(xué)符號的作用、內(nèi)容和設(shè)計原則等幾個方面,進(jìn)行詳細(xì)介紹。
數(shù)學(xué)符號集的意義:統(tǒng)一規(guī)范,提高交流效率
智源研究院發(fā)布的這套數(shù)學(xué)符號集,主要特色便是針對一些非常常用且容易混淆的符號,給出了一套標(biāo)準(zhǔn)化的建議,為解決以下問題提供基礎(chǔ):1)在論文寫作過程中常用符號的選擇問題;2)由符號混亂導(dǎo)致的交流問題。它的意義具體表現(xiàn)為如下幾個方面。
提升文獻(xiàn)閱讀速度。理論文章通常需要有一節(jié)專門介紹符號使用,而后的定理中常常不再介紹符號的意義。當(dāng)符號多的時候,常常需要往前查閱符號的意義。
避免誤解文章的本意。文章量大的情況下,有時讀文章會直接讀定理,對符號的理解是基于自己平時的習(xí)慣。符號混亂的情況可能會導(dǎo)致誤解定理本身的含義。比如,m, n, M, N, 經(jīng)常被用來指神經(jīng)元數(shù)目和采樣數(shù)目,但沒有統(tǒng)一的規(guī)范。一旦混淆,就會導(dǎo)致誤解。
有效提升交流效率。在學(xué)術(shù)報告中,給聽眾理解內(nèi)容的時間很短。記憶和辨識符號的含義會給聽眾帶來較大的負(fù)擔(dān),并可能導(dǎo)致聽眾跟不上或者錯誤理解報告內(nèi)容。比如f有時表示目標(biāo)函數(shù),有時用來表示神經(jīng)網(wǎng)絡(luò)。在一些情況下,f的含義很難短時間內(nèi)通過上下文分辨,從而影響聽眾理解。
降低符號理解難度。降低機(jī)器學(xué)習(xí)領(lǐng)域新進(jìn)研究者閱讀符號以及在論文寫作中選擇符號的難度。
下面,我們用幾個例子來說明,在機(jī)器學(xué)習(xí)領(lǐng)域?qū)τ诮y(tǒng)一個概念,當(dāng)存在不同的表達(dá)方式時會帶來諸多不便。我們選擇2018和2019兩年內(nèi)比較重要的研究方向:平均場理論(Mean field theory)、神經(jīng)正切核理論(Neural Tangent kernel theory)、過參數(shù)化神經(jīng)網(wǎng)尋找全局最小(Over-parameterized network finds global minima),列舉了相關(guān)論文中對于同一研究問題的不同符號選擇。這些符號的差異增加了論文讀者的符號記憶負(fù)擔(dān),提高了準(zhǔn)確理解內(nèi)容的難度。
數(shù)學(xué)符號集的主要內(nèi)容:常用、重要和關(guān)鍵符號
本次發(fā)布的數(shù)學(xué)符號集,所選的主要是機(jī)器學(xué)習(xí)領(lǐng)域中常用、重要且對文章理解比較關(guān)鍵的一些符號。整套符號集包括:數(shù)據(jù)集合(Dataset)、函數(shù)(Function)、損失函數(shù)(Loss function)、激活函數(shù)(Activation function)、雙層神經(jīng)網(wǎng)絡(luò)(Two-layer neural network)、通用深度神經(jīng)網(wǎng)絡(luò)(General deep neural network)、復(fù)雜性(Complexity)、訓(xùn)練(Training)、傅里葉頻率(Fourier Frequency)、卷積(Convolution)等類別。同時我們提供了這些符號的LaTex代碼,方便大家使用。
下面,我們列舉幾個數(shù)學(xué)符號的設(shè)計思路。

需要說明的是,目前這套數(shù)學(xué)符號集作為第一版目前還沒有囊括機(jī)器學(xué)習(xí)領(lǐng)域所有的符號定義,對于強(qiáng)化學(xué)習(xí),生成網(wǎng)絡(luò),循環(huán)網(wǎng)絡(luò)等的一些符號目前都還沒完全考慮進(jìn)來,在后續(xù)的版本更新中,我們會根據(jù)領(lǐng)域發(fā)展慢慢完善更多符號的定義。

數(shù)學(xué)符號集的設(shè)計原則:準(zhǔn)確、自洽和直觀
鑒于機(jī)器學(xué)習(xí)屬于交叉領(lǐng)域,每個領(lǐng)域有自己偏好的符號,所以我們設(shè)計這套數(shù)學(xué)符號集的基本標(biāo)準(zhǔn),是準(zhǔn)確、自洽和直觀,能將現(xiàn)有的符號進(jìn)行統(tǒng)一,能結(jié)合數(shù)學(xué)和機(jī)器學(xué)習(xí)一般的使用習(xí)慣,以便實(shí)現(xiàn)看到符號便知其義。
目前,這套數(shù)學(xué)符號集已經(jīng)發(fā)給一些機(jī)器學(xué)習(xí)領(lǐng)域的研究人員們試用,它的適用性已經(jīng)得到了同行們初步的肯定和驗(yàn)證,我們希望這次的正式發(fā)布能夠拋磚引玉,吸引更多人參與到機(jī)器學(xué)習(xí)符號標(biāo)準(zhǔn)的建設(shè)中來。歡迎大家持續(xù)關(guān)注我們以后的定期版本更新。
https://github.com/Mayuyu/suggested-notation-for-machine-learning
歡迎大家通過GitHub提供反饋。
[1]Mei et al., 2019, A mean field view of the landscape of two-layer neural networks
[2]Rotskoff et al., 2018, Parameters as interacting particles: long time convergence and asymptotic error scaling of neural networks
[3]Sirignano et al., 2018, Mean Field Analysis of Neural Networks
[4]Jacot et al., 2018, Neural Tangent Kernel: Convergence and Generalization in Neural Networks
[5]Arora et al., 2019, On Exact Computation with an Infinitely Wide Neural Net
[6]Du et al., 2018, Gradient Descent Finds Global Minima of Deep Neural Networks
[7]Zou et al., 2018, Stochastic Gradient Descent Optimizes Over-parameterized Deep ReLU Networks
[8]Allen-Zhu et al., 2018, A Convergence Theory for Deep Learning via Over-Parameterization
注:本文轉(zhuǎn)載自北京智源人工智能研究院。