人工智能,如何 “拯救” 不堪重負(fù)的天文學(xué)家?


- 導(dǎo) 讀 -
● ● ●
一周之內(nèi),獨(dú)自對5萬個(gè)星系進(jìn)行手動(dòng)分類后,牛津大學(xué)的天體物理學(xué)家 Kevin Schawinski 有點(diǎn)受不了。怎么辦呢?他和同行們想到,不如發(fā)動(dòng)群眾。
星系動(dòng)物園(Galaxy Zoo)項(xiàng)目由此誕生,科學(xué)家希望找到3萬人,對90萬個(gè)星系分類,比如一個(gè)星系到底是屬于漩渦星系還是橢圓星系。90萬的工作量,即使讓一位業(yè)務(wù)熟練的研究生來做,一周7天,每天24小時(shí),也得花個(gè)三到五年。
沒想到,公眾熱烈響應(yīng),10萬志愿者花了175天就完成了4000萬個(gè)星系分類,一個(gè)星系平均分類了38次。
這是在2007年?!八孤?shù)字巡天” 項(xiàng)目七年時(shí)間內(nèi)拍攝的百萬張照片,其檢測和分類已經(jīng)讓天文學(xué)家不堪重負(fù),不得不借助群眾的力量。
今天,大型巡天項(xiàng)目的數(shù)據(jù)規(guī)模更是大到驚人。
比如,明年即將發(fā)射的歐洲的空間望遠(yuǎn)鏡項(xiàng)目 “歐幾里德”,預(yù)計(jì)將觀察100億的星系,數(shù)據(jù)量達(dá)到幾十PB(1PB = 100萬GB);再比如正在智利建設(shè)的維拉 · 魯賓天文臺(tái)一旦運(yùn)行,每晚將產(chǎn)生多達(dá)20TB(1TB = 1000GB)的原始數(shù)據(jù),差不多是斯隆數(shù)字巡天十年的數(shù)據(jù)規(guī)模,預(yù)計(jì)總共處理的數(shù)據(jù)量將達(dá)到幾百PB。粗略理解,100PB如果用來播放高清視頻,可以一直放700年。
如此龐大的數(shù)據(jù),即使找大眾幫忙,也不容易做到了,天文學(xué)家轉(zhuǎn)而向人工智能求助。

“河圖” 問世
Artificial Intelligence

最近,上海天文臺(tái)安濤研究員為天文學(xué)中雄心勃勃的項(xiàng)目——平方公里陣列射電望遠(yuǎn)鏡(SKA),設(shè)計(jì)了一套名為 “河圖” 的人工智能系統(tǒng),采用了深度學(xué)習(xí)的方法,能自動(dòng)實(shí)現(xiàn)對海量天體的快速識(shí)別和準(zhǔn)確分類。

位于上海天文臺(tái)SKA中國數(shù)據(jù)中心的運(yùn)行人工智能系統(tǒng)“河圖”的原型機(jī) | 受訪者供圖
今年的2月4日,SKA天文臺(tái)正式宣布成立,中國是成員國之一。SKA的第一階段(占總規(guī)模的10%)會(huì)在南非的Karoo地區(qū)建設(shè)197個(gè)碟形天線,在西澳建造131072根天線,預(yù)計(jì)將以每秒幾個(gè)TB的速度產(chǎn)生原始數(shù)據(jù),每年產(chǎn)生的預(yù)校準(zhǔn)科學(xué)數(shù)據(jù)達(dá)到700多PB,也就是7億GB。
可以說,在天文大數(shù)據(jù)上,SKA到達(dá)了新的高度。
為了完整地處理這些海量的數(shù)據(jù),方便全球的科學(xué)家使用,也為了控制預(yù)算,SKA在2019年就開始籌劃由成員國在各國或地區(qū)建設(shè)SKA區(qū)域數(shù)據(jù)中心。中國SKA區(qū)域中心的建設(shè)由安濤所在的上海天文臺(tái)負(fù)責(zé)。2019年8月,該數(shù)據(jù)中心原型機(jī)的部署和測試在該臺(tái)的佘山科技園區(qū)完成。人工智能系統(tǒng) “河圖” 也是在這臺(tái)機(jī)器上進(jìn)行開發(fā)和各種實(shí)驗(yàn)。
這臺(tái)原型機(jī)的一個(gè)特點(diǎn),是針對SKA不同的科學(xué)任務(wù)的需求,設(shè)計(jì)了不同的架構(gòu),同時(shí)也要適應(yīng)SKA巨量數(shù)據(jù)的存儲(chǔ)與提取。
“像SKA這樣的,處理的都是大數(shù)據(jù)。一般的計(jì)算機(jī),一個(gè)CPU對應(yīng)的內(nèi)存也就幾個(gè)GB,無法滿足SKA數(shù)據(jù)密集型的運(yùn)算需求。而我們差不多得幾百個(gè)GB,就是幾十倍的差距。為了實(shí)現(xiàn)這個(gè)技術(shù)要求,硬件架構(gòu)、軟件系統(tǒng)都要做相應(yīng)的優(yōu)化?!?安濤告訴《知識(shí)分子》。

軟硬一體化的設(shè)計(jì)讓原型機(jī)性能得到充分發(fā)揮。不過,僅僅這些還不夠,數(shù)據(jù)處理的智能化也必不可少。說起來,安濤研究員帶領(lǐng)的團(tuán)隊(duì)設(shè)計(jì)人工智能系統(tǒng)的想法比原型機(jī)的建造還要更早些。
2018年11月,SKA組織發(fā)布了第一期的科學(xué)數(shù)據(jù)挑戰(zhàn)賽,參與者可以自行下載9張4GB的高清圖片,用各自的軟件和方法來對圖片中的天體進(jìn)行識(shí)別和分類。在不同的噪音水平、曝光時(shí)間和波段下,這些模擬的圖片中預(yù)計(jì)可探測到的天體數(shù)目也不同,如在1000小時(shí)的曝光下,高頻段可以達(dá)到10萬的量級(jí)。
一張圖片10萬個(gè)天體,聽起來很多,但其實(shí)也只是完整SKA數(shù)據(jù)的 “冰山一角”,使得這樣的挑戰(zhàn)也變成了熱身賽。實(shí)際上,位于澳大利亞西部的SKA探路者(ASKAP)巡天項(xiàng)目預(yù)計(jì)將探測到7000萬個(gè)射電星系。
在這次挑戰(zhàn)賽中,安濤團(tuán)隊(duì)設(shè)計(jì)了三種傳統(tǒng)的方法,雖然當(dāng)時(shí)也用了人工智能,但效果卻一般。同時(shí),安濤也注意到有其他團(tuán)隊(duì)用到了當(dāng)時(shí)最新的人工智能的技術(shù),比如殘差網(wǎng)絡(luò)。殘差網(wǎng)絡(luò)最初是由微軟亞洲研究院于2015年開發(fā),屬于卷積神經(jīng)網(wǎng)絡(luò)的一種。
在安濤看來,以卷積神經(jīng)網(wǎng)絡(luò)為代表的新一代人工智能技術(shù)在天體識(shí)別和分類方面具有巨大的潛能,一時(shí)的落后可能是由于網(wǎng)絡(luò)的設(shè)計(jì)等方面還沒有達(dá)到最佳。在分析了深度學(xué)習(xí)網(wǎng)絡(luò)設(shè)計(jì)的優(yōu)缺點(diǎn)后,在 “河圖” 的設(shè)計(jì)中,安濤團(tuán)隊(duì)一方面將殘差網(wǎng)絡(luò)的深度提高,這樣有助于提高精度;同時(shí)引入金字塔網(wǎng)絡(luò),可以在一張圖片中同時(shí)檢測多個(gè)不同形態(tài)的天體。
實(shí)驗(yàn)結(jié)果表明,河圖的檢測和分類速度,比傳統(tǒng)的軟件快20倍,達(dá)到了一張圖萬分之一秒。
自動(dòng)和準(zhǔn)確的天體普查工具,對于大型巡天項(xiàng)目的圖像分析尤為重要。
“ ‘河圖’ 不僅具有更高的識(shí)別精度,而且在識(shí)別延展源和弱源方面也有卓越的能力。” 安濤告訴《知識(shí)分子》,他們未來將進(jìn)一步提高 “河圖” 的識(shí)別性能和速度以支持更大規(guī)模的圖像處理,并更多地關(guān)注特殊形態(tài)天體,預(yù)計(jì)在SKA先導(dǎo)(ASKAP)巡天中將發(fā)揮重要作用。
“神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)的理解比預(yù)期的要深,但它需要大量的數(shù)據(jù)集進(jìn)行訓(xùn)練(學(xué)習(xí)),浩瀚的宇宙為神經(jīng)網(wǎng)絡(luò)提供了天然的巨大數(shù)據(jù)量,人工智能的發(fā)展無疑將對天文學(xué)產(chǎn)生深遠(yuǎn)的影響?!? 安濤說。

越來越大的影響
Artificial Intelligence

在天文學(xué)中,對天體進(jìn)行識(shí)別分類是基礎(chǔ)性的工作。在這方面,如 “河圖” 所展現(xiàn)的,人工智能的表現(xiàn)令人驚艷。事實(shí)上,在天文學(xué)的其它領(lǐng)域,人工智能也正發(fā)揮巨大的作用。
“AI、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等在天文學(xué)中應(yīng)用是不可避免的,在大型巡天中海量天體自動(dòng)分類、稀有特殊天體識(shí)別證認(rèn)等研究中發(fā)揮了越來越重要的作用。我自己也已參加利用機(jī)器學(xué)習(xí)對天體分類的研究?!?北京大學(xué)物理學(xué)院天文學(xué)系教授、系主任吳學(xué)兵告訴《知識(shí)分子》。
在論文預(yù)印本arxiv網(wǎng)站上,用關(guān)鍵詞 “卷積神經(jīng)網(wǎng)絡(luò)” 搜索天體物理領(lǐng)域,可以得到400多個(gè)結(jié)果,最早的文獻(xiàn)從2014年開始;而同樣搜索條件下,過去12個(gè)月的文獻(xiàn)達(dá)到了193條。從題目看,涉及到的問題也多種多樣——
● “用CNNs在GeV級(jí)冰立方事件中重建中微子能量”
● “暗能量巡天項(xiàng)目第三年數(shù)據(jù)用卷積神經(jīng)網(wǎng)絡(luò)處理生成的星系形態(tài)分類目錄”
確實(shí),系外行星的搜索也已經(jīng)處在了大數(shù)據(jù)的時(shí)代,人工智能的上場也順理成章。
美國航空航天局(NASA)的開普勒空間望遠(yuǎn)鏡,通過測量17萬顆恒星的亮度變?nèi)?/span>(由繞行而過的行星短暫遮擋造成)特征來發(fā)現(xiàn)系外行星,這中間就用到了人工智能技術(shù)。來自倫敦大學(xué)學(xué)院的研究人員,也已經(jīng)開發(fā)了深度學(xué)習(xí)網(wǎng)絡(luò)RobERt,“投喂” 模擬的85000條5種類別的系外行星光變曲線,訓(xùn)練完成后,能以99.7%的準(zhǔn)確度確定真實(shí)系外行星光變曲線中的大氣層分子成分。
除了系外行星,人工智能還能幫忙找新的恒星。
2017年6月,歐洲空間局(European Space Agency, ESA)的Gaia衛(wèi)星,在人工智能網(wǎng)絡(luò)的協(xié)助下,發(fā)現(xiàn)了6顆極速運(yùn)行的恒星,這種新型恒星是因?yàn)榕c一顆巨型黑洞的相互作用所推動(dòng)。
天體之外,人工智能還能檢測天文現(xiàn)象,比如引力透鏡。

引力透鏡是由極大質(zhì)量引起的時(shí)空變形,比如星系團(tuán)就可以看作是一面宇宙的放大鏡,可用來觀察其身后更遙遠(yuǎn)的天體。2017年10月,荷蘭的格羅寧根大學(xué)、意大利的那不勒斯大學(xué)和波恩大學(xué)的研究者,就開發(fā)了檢測引力透鏡的方法,用的也是人工智能中的卷積神經(jīng)網(wǎng)絡(luò)。

尚需改進(jìn)
Artificial Intelligence

當(dāng)然,現(xiàn)在的人工智能還不能稱得上完美,一些普遍性的缺點(diǎn)在天文應(yīng)用中也有出現(xiàn)。
首先在訓(xùn)練人工智能模型中,需要準(zhǔn)備很多帶標(biāo)簽的數(shù)據(jù),這還得有經(jīng)驗(yàn)的天文學(xué)家手動(dòng)完成,工作量不少。
此外,還有業(yè)界詬病的 “可解釋” 難題——深度學(xué)習(xí)網(wǎng)絡(luò)就像是一個(gè)黑匣子,無論是奇跡發(fā)生還是智障在線,你都無法知道,它到底是如何做出這個(gè)決策的。
第三,如果預(yù)訓(xùn)練的數(shù)據(jù)存在某種 “偏差”,等人工智能模型訓(xùn)練完成后,也會(huì)影響到結(jié)果的準(zhǔn)確性。
不過,有些缺陷也許會(huì)隨著人工智能的進(jìn)一步發(fā)展得到解決。
“未來的人工智能也許可以直接學(xué)習(xí)望遠(yuǎn)鏡產(chǎn)生的真實(shí)數(shù)據(jù),而不需要用預(yù)先打了標(biāo)簽的數(shù)據(jù)進(jìn)行訓(xùn)練。這樣既省下了工作量,也避免了數(shù)據(jù)偏差?!?安濤說。
盡管如此,安濤對未來人工智能的發(fā)展仍抱有信心,畢竟它在天文學(xué)中正發(fā)揮實(shí)實(shí)在在、不可取代的作用。如果哪天人工智能首先發(fā)現(xiàn)了適宜人類生存的系外行星,或者揭開暗能量、暗物質(zhì)等宇宙最深邃的奧秘,天文學(xué)家應(yīng)該會(huì)感到慶幸而不是嫉妒。

好好好
好好好