人工智能,如何 “拯救” 不堪重負(fù)的天文學(xué)家?


- 導(dǎo) 讀 -
● ● ●
一周之內(nèi),獨自對5萬個星系進行手動分類后,牛津大學(xué)的天體物理學(xué)家 Kevin Schawinski 有點受不了。怎么辦呢?他和同行們想到,不如發(fā)動群眾。
星系動物園(Galaxy Zoo)項目由此誕生,科學(xué)家希望找到3萬人,對90萬個星系分類,比如一個星系到底是屬于漩渦星系還是橢圓星系。90萬的工作量,即使讓一位業(yè)務(wù)熟練的研究生來做,一周7天,每天24小時,也得花個三到五年。
沒想到,公眾熱烈響應(yīng),10萬志愿者花了175天就完成了4000萬個星系分類,一個星系平均分類了38次。
這是在2007年。“斯隆數(shù)字巡天” 項目七年時間內(nèi)拍攝的百萬張照片,其檢測和分類已經(jīng)讓天文學(xué)家不堪重負(fù),不得不借助群眾的力量。
今天,大型巡天項目的數(shù)據(jù)規(guī)模更是大到驚人。
比如,明年即將發(fā)射的歐洲的空間望遠鏡項目 “歐幾里德”,預(yù)計將觀察100億的星系,數(shù)據(jù)量達到幾十PB(1PB = 100萬GB);再比如正在智利建設(shè)的維拉 · 魯賓天文臺一旦運行,每晚將產(chǎn)生多達20TB(1TB = 1000GB)的原始數(shù)據(jù),差不多是斯隆數(shù)字巡天十年的數(shù)據(jù)規(guī)模,預(yù)計總共處理的數(shù)據(jù)量將達到幾百PB。粗略理解,100PB如果用來播放高清視頻,可以一直放700年。
如此龐大的數(shù)據(jù),即使找大眾幫忙,也不容易做到了,天文學(xué)家轉(zhuǎn)而向人工智能求助。

“河圖” 問世
Artificial Intelligence

最近,上海天文臺安濤研究員為天文學(xué)中雄心勃勃的項目——平方公里陣列射電望遠鏡(SKA),設(shè)計了一套名為 “河圖” 的人工智能系統(tǒng),采用了深度學(xué)習(xí)的方法,能自動實現(xiàn)對海量天體的快速識別和準(zhǔn)確分類。

位于上海天文臺SKA中國數(shù)據(jù)中心的運行人工智能系統(tǒng)“河圖”的原型機 | 受訪者供圖
今年的2月4日,SKA天文臺正式宣布成立,中國是成員國之一。SKA的第一階段(占總規(guī)模的10%)會在南非的Karoo地區(qū)建設(shè)197個碟形天線,在西澳建造131072根天線,預(yù)計將以每秒幾個TB的速度產(chǎn)生原始數(shù)據(jù),每年產(chǎn)生的預(yù)校準(zhǔn)科學(xué)數(shù)據(jù)達到700多PB,也就是7億GB。
可以說,在天文大數(shù)據(jù)上,SKA到達了新的高度。
為了完整地處理這些海量的數(shù)據(jù),方便全球的科學(xué)家使用,也為了控制預(yù)算,SKA在2019年就開始籌劃由成員國在各國或地區(qū)建設(shè)SKA區(qū)域數(shù)據(jù)中心。中國SKA區(qū)域中心的建設(shè)由安濤所在的上海天文臺負(fù)責(zé)。2019年8月,該數(shù)據(jù)中心原型機的部署和測試在該臺的佘山科技園區(qū)完成。人工智能系統(tǒng) “河圖” 也是在這臺機器上進行開發(fā)和各種實驗。
這臺原型機的一個特點,是針對SKA不同的科學(xué)任務(wù)的需求,設(shè)計了不同的架構(gòu),同時也要適應(yīng)SKA巨量數(shù)據(jù)的存儲與提取。
“像SKA這樣的,處理的都是大數(shù)據(jù)。一般的計算機,一個CPU對應(yīng)的內(nèi)存也就幾個GB,無法滿足SKA數(shù)據(jù)密集型的運算需求。而我們差不多得幾百個GB,就是幾十倍的差距。為了實現(xiàn)這個技術(shù)要求,硬件架構(gòu)、軟件系統(tǒng)都要做相應(yīng)的優(yōu)化?!?安濤告訴《知識分子》。

軟硬一體化的設(shè)計讓原型機性能得到充分發(fā)揮。不過,僅僅這些還不夠,數(shù)據(jù)處理的智能化也必不可少。說起來,安濤研究員帶領(lǐng)的團隊設(shè)計人工智能系統(tǒng)的想法比原型機的建造還要更早些。
2018年11月,SKA組織發(fā)布了第一期的科學(xué)數(shù)據(jù)挑戰(zhàn)賽,參與者可以自行下載9張4GB的高清圖片,用各自的軟件和方法來對圖片中的天體進行識別和分類。在不同的噪音水平、曝光時間和波段下,這些模擬的圖片中預(yù)計可探測到的天體數(shù)目也不同,如在1000小時的曝光下,高頻段可以達到10萬的量級。
一張圖片10萬個天體,聽起來很多,但其實也只是完整SKA數(shù)據(jù)的 “冰山一角”,使得這樣的挑戰(zhàn)也變成了熱身賽。實際上,位于澳大利亞西部的SKA探路者(ASKAP)巡天項目預(yù)計將探測到7000萬個射電星系。
在這次挑戰(zhàn)賽中,安濤團隊設(shè)計了三種傳統(tǒng)的方法,雖然當(dāng)時也用了人工智能,但效果卻一般。同時,安濤也注意到有其他團隊用到了當(dāng)時最新的人工智能的技術(shù),比如殘差網(wǎng)絡(luò)。殘差網(wǎng)絡(luò)最初是由微軟亞洲研究院于2015年開發(fā),屬于卷積神經(jīng)網(wǎng)絡(luò)的一種。
在安濤看來,以卷積神經(jīng)網(wǎng)絡(luò)為代表的新一代人工智能技術(shù)在天體識別和分類方面具有巨大的潛能,一時的落后可能是由于網(wǎng)絡(luò)的設(shè)計等方面還沒有達到最佳。在分析了深度學(xué)習(xí)網(wǎng)絡(luò)設(shè)計的優(yōu)缺點后,在 “河圖” 的設(shè)計中,安濤團隊一方面將殘差網(wǎng)絡(luò)的深度提高,這樣有助于提高精度;同時引入金字塔網(wǎng)絡(luò),可以在一張圖片中同時檢測多個不同形態(tài)的天體。
實驗結(jié)果表明,河圖的檢測和分類速度,比傳統(tǒng)的軟件快20倍,達到了一張圖萬分之一秒。
自動和準(zhǔn)確的天體普查工具,對于大型巡天項目的圖像分析尤為重要。
“ ‘河圖’ 不僅具有更高的識別精度,而且在識別延展源和弱源方面也有卓越的能力?!?安濤告訴《知識分子》,他們未來將進一步提高 “河圖” 的識別性能和速度以支持更大規(guī)模的圖像處理,并更多地關(guān)注特殊形態(tài)天體,預(yù)計在SKA先導(dǎo)(ASKAP)巡天中將發(fā)揮重要作用。
“神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)的理解比預(yù)期的要深,但它需要大量的數(shù)據(jù)集進行訓(xùn)練(學(xué)習(xí)),浩瀚的宇宙為神經(jīng)網(wǎng)絡(luò)提供了天然的巨大數(shù)據(jù)量,人工智能的發(fā)展無疑將對天文學(xué)產(chǎn)生深遠的影響?!? 安濤說。

越來越大的影響
Artificial Intelligence

在天文學(xué)中,對天體進行識別分類是基礎(chǔ)性的工作。在這方面,如 “河圖” 所展現(xiàn)的,人工智能的表現(xiàn)令人驚艷。事實上,在天文學(xué)的其它領(lǐng)域,人工智能也正發(fā)揮巨大的作用。
“AI、機器學(xué)習(xí)、深度學(xué)習(xí)等在天文學(xué)中應(yīng)用是不可避免的,在大型巡天中海量天體自動分類、稀有特殊天體識別證認(rèn)等研究中發(fā)揮了越來越重要的作用。我自己也已參加利用機器學(xué)習(xí)對天體分類的研究?!?北京大學(xué)物理學(xué)院天文學(xué)系教授、系主任吳學(xué)兵告訴《知識分子》。
在論文預(yù)印本arxiv網(wǎng)站上,用關(guān)鍵詞 “卷積神經(jīng)網(wǎng)絡(luò)” 搜索天體物理領(lǐng)域,可以得到400多個結(jié)果,最早的文獻從2014年開始;而同樣搜索條件下,過去12個月的文獻達到了193條。從題目看,涉及到的問題也多種多樣——
● “用CNNs在GeV級冰立方事件中重建中微子能量”
● “暗能量巡天項目第三年數(shù)據(jù)用卷積神經(jīng)網(wǎng)絡(luò)處理生成的星系形態(tài)分類目錄”
確實,系外行星的搜索也已經(jīng)處在了大數(shù)據(jù)的時代,人工智能的上場也順理成章。
美國航空航天局(NASA)的開普勒空間望遠鏡,通過測量17萬顆恒星的亮度變?nèi)?/span>(由繞行而過的行星短暫遮擋造成)特征來發(fā)現(xiàn)系外行星,這中間就用到了人工智能技術(shù)。來自倫敦大學(xué)學(xué)院的研究人員,也已經(jīng)開發(fā)了深度學(xué)習(xí)網(wǎng)絡(luò)RobERt,“投喂” 模擬的85000條5種類別的系外行星光變曲線,訓(xùn)練完成后,能以99.7%的準(zhǔn)確度確定真實系外行星光變曲線中的大氣層分子成分。
除了系外行星,人工智能還能幫忙找新的恒星。
2017年6月,歐洲空間局(European Space Agency, ESA)的Gaia衛(wèi)星,在人工智能網(wǎng)絡(luò)的協(xié)助下,發(fā)現(xiàn)了6顆極速運行的恒星,這種新型恒星是因為與一顆巨型黑洞的相互作用所推動。
天體之外,人工智能還能檢測天文現(xiàn)象,比如引力透鏡。

引力透鏡是由極大質(zhì)量引起的時空變形,比如星系團就可以看作是一面宇宙的放大鏡,可用來觀察其身后更遙遠的天體。2017年10月,荷蘭的格羅寧根大學(xué)、意大利的那不勒斯大學(xué)和波恩大學(xué)的研究者,就開發(fā)了檢測引力透鏡的方法,用的也是人工智能中的卷積神經(jīng)網(wǎng)絡(luò)。

尚需改進
Artificial Intelligence

當(dāng)然,現(xiàn)在的人工智能還不能稱得上完美,一些普遍性的缺點在天文應(yīng)用中也有出現(xiàn)。
首先在訓(xùn)練人工智能模型中,需要準(zhǔn)備很多帶標(biāo)簽的數(shù)據(jù),這還得有經(jīng)驗的天文學(xué)家手動完成,工作量不少。
此外,還有業(yè)界詬病的 “可解釋” 難題——深度學(xué)習(xí)網(wǎng)絡(luò)就像是一個黑匣子,無論是奇跡發(fā)生還是智障在線,你都無法知道,它到底是如何做出這個決策的。
第三,如果預(yù)訓(xùn)練的數(shù)據(jù)存在某種 “偏差”,等人工智能模型訓(xùn)練完成后,也會影響到結(jié)果的準(zhǔn)確性。
不過,有些缺陷也許會隨著人工智能的進一步發(fā)展得到解決。
“未來的人工智能也許可以直接學(xué)習(xí)望遠鏡產(chǎn)生的真實數(shù)據(jù),而不需要用預(yù)先打了標(biāo)簽的數(shù)據(jù)進行訓(xùn)練。這樣既省下了工作量,也避免了數(shù)據(jù)偏差。” 安濤說。
盡管如此,安濤對未來人工智能的發(fā)展仍抱有信心,畢竟它在天文學(xué)中正發(fā)揮實實在在、不可取代的作用。如果哪天人工智能首先發(fā)現(xiàn)了適宜人類生存的系外行星,或者揭開暗能量、暗物質(zhì)等宇宙最深邃的奧秘,天文學(xué)家應(yīng)該會感到慶幸而不是嫉妒。
