人工智能,如何 “拯救” 不堪重負的天文學家?


- 導 讀 -
● ● ●
一周之內,獨自對5萬個星系進行手動分類后,牛津大學的天體物理學家 Kevin Schawinski 有點受不了。怎么辦呢?他和同行們想到,不如發(fā)動群眾。
星系動物園(Galaxy Zoo)項目由此誕生,科學家希望找到3萬人,對90萬個星系分類,比如一個星系到底是屬于漩渦星系還是橢圓星系。90萬的工作量,即使讓一位業(yè)務熟練的研究生來做,一周7天,每天24小時,也得花個三到五年。
沒想到,公眾熱烈響應,10萬志愿者花了175天就完成了4000萬個星系分類,一個星系平均分類了38次。
這是在2007年?!八孤底盅蔡臁?項目七年時間內拍攝的百萬張照片,其檢測和分類已經讓天文學家不堪重負,不得不借助群眾的力量。
今天,大型巡天項目的數據規(guī)模更是大到驚人。
比如,明年即將發(fā)射的歐洲的空間望遠鏡項目 “歐幾里德”,預計將觀察100億的星系,數據量達到幾十PB(1PB = 100萬GB);再比如正在智利建設的維拉 · 魯賓天文臺一旦運行,每晚將產生多達20TB(1TB = 1000GB)的原始數據,差不多是斯隆數字巡天十年的數據規(guī)模,預計總共處理的數據量將達到幾百PB。粗略理解,100PB如果用來播放高清視頻,可以一直放700年。
如此龐大的數據,即使找大眾幫忙,也不容易做到了,天文學家轉而向人工智能求助。

“河圖” 問世
Artificial Intelligence

最近,上海天文臺安濤研究員為天文學中雄心勃勃的項目——平方公里陣列射電望遠鏡(SKA),設計了一套名為 “河圖” 的人工智能系統,采用了深度學習的方法,能自動實現對海量天體的快速識別和準確分類。

位于上海天文臺SKA中國數據中心的運行人工智能系統“河圖”的原型機 | 受訪者供圖
今年的2月4日,SKA天文臺正式宣布成立,中國是成員國之一。SKA的第一階段(占總規(guī)模的10%)會在南非的Karoo地區(qū)建設197個碟形天線,在西澳建造131072根天線,預計將以每秒幾個TB的速度產生原始數據,每年產生的預校準科學數據達到700多PB,也就是7億GB。
可以說,在天文大數據上,SKA到達了新的高度。
為了完整地處理這些海量的數據,方便全球的科學家使用,也為了控制預算,SKA在2019年就開始籌劃由成員國在各國或地區(qū)建設SKA區(qū)域數據中心。中國SKA區(qū)域中心的建設由安濤所在的上海天文臺負責。2019年8月,該數據中心原型機的部署和測試在該臺的佘山科技園區(qū)完成。人工智能系統 “河圖” 也是在這臺機器上進行開發(fā)和各種實驗。
這臺原型機的一個特點,是針對SKA不同的科學任務的需求,設計了不同的架構,同時也要適應SKA巨量數據的存儲與提取。
“像SKA這樣的,處理的都是大數據。一般的計算機,一個CPU對應的內存也就幾個GB,無法滿足SKA數據密集型的運算需求。而我們差不多得幾百個GB,就是幾十倍的差距。為了實現這個技術要求,硬件架構、軟件系統都要做相應的優(yōu)化。” 安濤告訴《知識分子》。

軟硬一體化的設計讓原型機性能得到充分發(fā)揮。不過,僅僅這些還不夠,數據處理的智能化也必不可少。說起來,安濤研究員帶領的團隊設計人工智能系統的想法比原型機的建造還要更早些。
2018年11月,SKA組織發(fā)布了第一期的科學數據挑戰(zhàn)賽,參與者可以自行下載9張4GB的高清圖片,用各自的軟件和方法來對圖片中的天體進行識別和分類。在不同的噪音水平、曝光時間和波段下,這些模擬的圖片中預計可探測到的天體數目也不同,如在1000小時的曝光下,高頻段可以達到10萬的量級。
一張圖片10萬個天體,聽起來很多,但其實也只是完整SKA數據的 “冰山一角”,使得這樣的挑戰(zhàn)也變成了熱身賽。實際上,位于澳大利亞西部的SKA探路者(ASKAP)巡天項目預計將探測到7000萬個射電星系。
在這次挑戰(zhàn)賽中,安濤團隊設計了三種傳統的方法,雖然當時也用了人工智能,但效果卻一般。同時,安濤也注意到有其他團隊用到了當時最新的人工智能的技術,比如殘差網絡。殘差網絡最初是由微軟亞洲研究院于2015年開發(fā),屬于卷積神經網絡的一種。
在安濤看來,以卷積神經網絡為代表的新一代人工智能技術在天體識別和分類方面具有巨大的潛能,一時的落后可能是由于網絡的設計等方面還沒有達到最佳。在分析了深度學習網絡設計的優(yōu)缺點后,在 “河圖” 的設計中,安濤團隊一方面將殘差網絡的深度提高,這樣有助于提高精度;同時引入金字塔網絡,可以在一張圖片中同時檢測多個不同形態(tài)的天體。
實驗結果表明,河圖的檢測和分類速度,比傳統的軟件快20倍,達到了一張圖萬分之一秒。
自動和準確的天體普查工具,對于大型巡天項目的圖像分析尤為重要。
“ ‘河圖’ 不僅具有更高的識別精度,而且在識別延展源和弱源方面也有卓越的能力?!?安濤告訴《知識分子》,他們未來將進一步提高 “河圖” 的識別性能和速度以支持更大規(guī)模的圖像處理,并更多地關注特殊形態(tài)天體,預計在SKA先導(ASKAP)巡天中將發(fā)揮重要作用。
“神經網絡對數據的理解比預期的要深,但它需要大量的數據集進行訓練(學習),浩瀚的宇宙為神經網絡提供了天然的巨大數據量,人工智能的發(fā)展無疑將對天文學產生深遠的影響?!? 安濤說。

越來越大的影響
Artificial Intelligence

在天文學中,對天體進行識別分類是基礎性的工作。在這方面,如 “河圖” 所展現的,人工智能的表現令人驚艷。事實上,在天文學的其它領域,人工智能也正發(fā)揮巨大的作用。
“AI、機器學習、深度學習等在天文學中應用是不可避免的,在大型巡天中海量天體自動分類、稀有特殊天體識別證認等研究中發(fā)揮了越來越重要的作用。我自己也已參加利用機器學習對天體分類的研究?!?北京大學物理學院天文學系教授、系主任吳學兵告訴《知識分子》。
在論文預印本arxiv網站上,用關鍵詞 “卷積神經網絡” 搜索天體物理領域,可以得到400多個結果,最早的文獻從2014年開始;而同樣搜索條件下,過去12個月的文獻達到了193條。從題目看,涉及到的問題也多種多樣——
● “用CNNs在GeV級冰立方事件中重建中微子能量”
● “暗能量巡天項目第三年數據用卷積神經網絡處理生成的星系形態(tài)分類目錄”
確實,系外行星的搜索也已經處在了大數據的時代,人工智能的上場也順理成章。
美國航空航天局(NASA)的開普勒空間望遠鏡,通過測量17萬顆恒星的亮度變弱(由繞行而過的行星短暫遮擋造成)特征來發(fā)現系外行星,這中間就用到了人工智能技術。來自倫敦大學學院的研究人員,也已經開發(fā)了深度學習網絡RobERt,“投喂” 模擬的85000條5種類別的系外行星光變曲線,訓練完成后,能以99.7%的準確度確定真實系外行星光變曲線中的大氣層分子成分。
除了系外行星,人工智能還能幫忙找新的恒星。
2017年6月,歐洲空間局(European Space Agency, ESA)的Gaia衛(wèi)星,在人工智能網絡的協助下,發(fā)現了6顆極速運行的恒星,這種新型恒星是因為與一顆巨型黑洞的相互作用所推動。
天體之外,人工智能還能檢測天文現象,比如引力透鏡。

引力透鏡是由極大質量引起的時空變形,比如星系團就可以看作是一面宇宙的放大鏡,可用來觀察其身后更遙遠的天體。2017年10月,荷蘭的格羅寧根大學、意大利的那不勒斯大學和波恩大學的研究者,就開發(fā)了檢測引力透鏡的方法,用的也是人工智能中的卷積神經網絡。

尚需改進
Artificial Intelligence

當然,現在的人工智能還不能稱得上完美,一些普遍性的缺點在天文應用中也有出現。
首先在訓練人工智能模型中,需要準備很多帶標簽的數據,這還得有經驗的天文學家手動完成,工作量不少。
此外,還有業(yè)界詬病的 “可解釋” 難題——深度學習網絡就像是一個黑匣子,無論是奇跡發(fā)生還是智障在線,你都無法知道,它到底是如何做出這個決策的。
第三,如果預訓練的數據存在某種 “偏差”,等人工智能模型訓練完成后,也會影響到結果的準確性。
不過,有些缺陷也許會隨著人工智能的進一步發(fā)展得到解決。
“未來的人工智能也許可以直接學習望遠鏡產生的真實數據,而不需要用預先打了標簽的數據進行訓練。這樣既省下了工作量,也避免了數據偏差?!?安濤說。
盡管如此,安濤對未來人工智能的發(fā)展仍抱有信心,畢竟它在天文學中正發(fā)揮實實在在、不可取代的作用。如果哪天人工智能首先發(fā)現了適宜人類生存的系外行星,或者揭開暗能量、暗物質等宇宙最深邃的奧秘,天文學家應該會感到慶幸而不是嫉妒。

好好好
好好好