數(shù)據(jù)“卡脖子”,何談研究話語權(quán)?
“我們國家在數(shù)據(jù)方面基本沒有話語權(quán)?!?| 圖源:pixabay.com圖源:pexels.com
在大氣、海洋等研究領(lǐng)域,中國普遍缺乏拿得出手的高質(zhì)量數(shù)據(jù)。問題出在了哪里?
撰文 | 邸利會
責(zé)編 | 陳曉雪 馮灝
● ● ●
“我們國家在數(shù)據(jù)方面基本沒有話語權(quán)。”
談到IPCC報告里鮮有來自中國的數(shù)據(jù)時,A學(xué)者不無感慨地告訴《知識分子》。
這位要求匿名的研究者舉例說,在最新發(fā)布的IPCC第六次評估報告(IPCC-AR6)中(見報告附錄Ⅰ,觀測數(shù)據(jù)產(chǎn)品Annex I: Observational Products),列出了報告使用的所有數(shù)據(jù)產(chǎn)品,總共有283套,其中,中國貢獻(xiàn)的只有9套(含中國香港、中國臺灣),不僅數(shù)量少,且絕大部分是區(qū)域數(shù)據(jù)產(chǎn)品(如中國的氣溫、降水等)。
IPCC全稱 “政府間氣候變化專門委員會”,IPCC報告體現(xiàn)了整個氣候變化科學(xué)界的智慧,對各國氣候變化的政策制定有很大的影響。如此重要的一個報告,中國數(shù)據(jù)貢獻(xiàn)寥寥,令人遺憾。
在氣候變化領(lǐng)域,中國缺乏國際上拿得出手的高質(zhì)量數(shù)據(jù),事實上,這也是中國科學(xué)數(shù)據(jù)普遍貧弱的一個縮影。
拿不到的數(shù)據(jù)
相比國外,中國的某些科學(xué)數(shù)據(jù)很難拿到,可讓一般人想不到的是,國內(nèi)難拿到的數(shù)據(jù),反而很容易從國外拿。
中國氣象數(shù)據(jù)網(wǎng)(http://data.cma.cn,上圖)和NOAA氣象數(shù)據(jù)網(wǎng)站(下圖)。下圖中圓點就是站點,無須注冊即可下載各個站點的氣象數(shù)據(jù)(https://www.ncei.noaa.gov/),可溯至1951年。
例如,個人以普通用戶的身份登陸主流的氣象數(shù)據(jù)網(wǎng)站進(jìn)行條目搜索,在中國氣象數(shù)據(jù)網(wǎng)(http://data.cma.cn),可選擇的地面逐小時觀測資料被限定在七天之內(nèi);而在美國國家海洋和大氣管理局NOAA的數(shù)據(jù)網(wǎng)站(https://www.ncei.noaa.gov/),各個站點的各項氣象數(shù)據(jù)非常完備,無須注冊,個人用戶就可以下載到詳細(xì)的氣象數(shù)據(jù),以基本的地表溫度數(shù)據(jù)為例,最早可追溯至1951年。
這種 “怪事” 由來已久。
早在2016年4月發(fā)表的《公共數(shù)據(jù)不開放共享,中國就要落后》的文章中 [1],北京大學(xué)教授陳松蹊就談過他研究霧霾的尷尬經(jīng)歷——北京氣象局的歷史數(shù)據(jù)需要花錢買,據(jù)說 “每小時只是幾塊錢,不貴的”。無奈之下,他們從美國一家氣象研究機(jī)構(gòu)的網(wǎng)站上找到了北京南郊觀象臺每半小時的氣象數(shù)據(jù),免費(fèi)。
并非只有陳松蹊注意到這個問題。
在2017年11月的文章 [2] 中,Patrick Funk、薛瀾、梁正等來自中美兩國的學(xué)者指出,“在過去,中國大氣污染數(shù)據(jù)的收集分散且經(jīng)常失真。很多數(shù)據(jù)無法公開獲得?!?“研究人員和機(jī)構(gòu)為了最大化地發(fā)表文章,把數(shù)據(jù)捏在手里?!?/span>
他們認(rèn)為,由于高質(zhì)量的傳感器是被全國各個不同團(tuán)體占有,而空氣污染的分析需要來自每個區(qū)域內(nèi)多個站點的高質(zhì)量數(shù)據(jù),只有克服數(shù)據(jù)共享和合作的障礙才能更好地管理和減少中國的空氣污染;而且,如果只用有限的數(shù)據(jù),還可能得到錯誤的結(jié)論——比如在理解臭氧空洞時,最初很多科學(xué)家和決策者不相信氯氟烴假說,但通過收集了不同范圍、各個平臺的數(shù)據(jù)后,這個假說得到了驗證。
不僅是在環(huán)保、大氣領(lǐng)域,在海洋研究領(lǐng)域,即使是作為領(lǐng)域內(nèi)的研究者,A學(xué)者坦言,國內(nèi)的數(shù)據(jù)獲取同樣困難——
“其實國內(nèi)很多人去做測量,測量回來后,數(shù)據(jù)都是保密的,(攥)在自己手里,不給別人用。那么一個團(tuán)隊能測多少數(shù)據(jù)呢?所以就沒辦法搞全局性的研究,因為數(shù)據(jù)量太少了。這樣的話就形成了類似于軍閥割據(jù),大家都用自己手里的一點點數(shù)據(jù),發(fā)幾篇小文章。中國的數(shù)據(jù)其實并沒有匯聚到統(tǒng)一的地方去?!?/span>
在海洋研究領(lǐng)域,中國通過數(shù)據(jù)共享貢獻(xiàn)給國際同行的也很少。
海洋觀測領(lǐng)域頗為知名的Argo計劃 [3],通過全球30多個國家的合作來維持一個全球海洋的觀測網(wǎng)絡(luò),該計劃強(qiáng)制要求所有的參與方,必須把測出來的數(shù)據(jù)共享給國際,其中中國的數(shù)據(jù)貢獻(xiàn)少的可憐,大概不到4%。
“我們這么大的體量,其實(貢獻(xiàn))也是比較小的,所以我們國家長期在海洋觀測領(lǐng)域是抬不起頭來。”A學(xué)者說。
海洋極大且深,缺乏數(shù)據(jù)尚可理解,但令人驚奇的是,在普通人看來并不缺乏數(shù)據(jù)的領(lǐng)域,研究者想獲取數(shù)據(jù)也困難重重。
今年8月5日,國家青藏高原科學(xué)數(shù)據(jù)中心主任李新等人在《自然-地球科學(xué)》發(fā)表評論文章,呼吁數(shù)據(jù)共享 [4]。
作者們在政策、管理、技術(shù)、國際化四個層面提出了具體的建議。在政策層面,他們指出,應(yīng)該進(jìn)一步明確敏感數(shù)據(jù)及其使用界線——
“地球科學(xué)數(shù)據(jù),尤其是涉及到國家安全、商業(yè)秘密和個人隱私時,本身可能是敏感的。為了最大化數(shù)據(jù)共享的實踐,很重要的是,要對敏感數(shù)據(jù)確立清晰的定義、共享界線和限制的規(guī)則。在共享限制規(guī)定之外的數(shù)據(jù),共享的實踐應(yīng)完全基于可查找、可訪問、可互操作、可重用的FAIR原則?!?/span>
李新等人提到的FAIR原則,是國際上幾位學(xué)者在2016年3月發(fā)表的文章中 [5],正式提出的,可以看作是提升數(shù)據(jù)可重用性的某種指南。之后,這些原則得到了不同國際組織的廣泛認(rèn)可。
的確,界定清楚敏感數(shù)據(jù)以及各方的權(quán)責(zé),是數(shù)據(jù)權(quán)利領(lǐng)域非常基礎(chǔ)的問題——如果不是保密數(shù)據(jù),理應(yīng)就不該以 “保密” 為緣由拒絕合理的分享。
可喜的是,尤其是近些年,中國也在努力提升數(shù)據(jù)共享水平。
2018年,國務(wù)院辦公廳印發(fā)的《科學(xué)數(shù)據(jù)管理辦法》,共19處提到共享,其中第19條規(guī)定,“政府預(yù)算資金資助形成的科學(xué)數(shù)據(jù)應(yīng)當(dāng)按照開放為常態(tài)、不開放為例外的原則,由主管部門組織編制科學(xué)數(shù)據(jù)資源目錄,有關(guān)目錄和數(shù)據(jù)應(yīng)及時接入國家數(shù)據(jù)共享交換平臺,面向社會和相關(guān)部門開放共享,暢通科學(xué)數(shù)據(jù)軍民共享渠道。國家法律法規(guī)有特殊規(guī)定的除外?!?/span>
2019年,國家海洋科學(xué)數(shù)據(jù)中心、國家青藏高原科學(xué)數(shù)據(jù)中心、國家人口健康科學(xué)數(shù)據(jù)中心、國家天文科學(xué)數(shù)據(jù)中心等第一批20個國家數(shù)據(jù)中心上線。
但這里提到的科學(xué)數(shù)據(jù)究竟包含了哪些?里面卻存在著模糊地帶。
舉例來說,涉及到地球科學(xué)領(lǐng)域的數(shù)據(jù),很大部分來自政府部門——
其中的一大類是由各個部委,根據(jù)其業(yè)務(wù)職能,在國家財政的支持下,成體系、成規(guī)模地開展各種資源、環(huán)境調(diào)查等所得到的數(shù)據(jù)(如水利部門開展的全國河流斷面的水位、流速等監(jiān)測數(shù)據(jù);林業(yè)部門開展的林業(yè)調(diào)查樣方數(shù)據(jù);環(huán)保部關(guān)于各種類型的空氣質(zhì)量、水域污染物等數(shù)據(jù);自然資源部的土地調(diào)查數(shù)據(jù)等)。
這樣一些部門的數(shù)據(jù),如何界定其中的科學(xué)數(shù)據(jù),是要討論的地方,屬于一個灰色地帶。中國目前還沒有明文規(guī)定什么類型的業(yè)務(wù)數(shù)據(jù)應(yīng)當(dāng)作為科學(xué)數(shù)據(jù)進(jìn)行管理,因為一旦歸入科學(xué)數(shù)據(jù)進(jìn)行界定,按照《科學(xué)數(shù)據(jù)管理辦法》,現(xiàn)在理應(yīng)轉(zhuǎn)移到20個科學(xué)數(shù)據(jù)中心或者其他合理的數(shù)據(jù)倉儲,按照科學(xué)數(shù)據(jù)共享的原則、方式來做。
除了各個部委產(chǎn)生的數(shù)據(jù),在地球觀測領(lǐng)域,另外一大類是采用制作衛(wèi)星載荷、統(tǒng)一發(fā)射、統(tǒng)一接受、統(tǒng)一管控、統(tǒng)一處理,然后分發(fā)到主要牽頭的部和委(作為衛(wèi)星數(shù)據(jù)的主用戶)而獲得的數(shù)據(jù)。
從實際情況看,這兩大類數(shù)據(jù),因為未被明確劃入科學(xué)數(shù)據(jù),科研界都難以獲取。
在之前的文章中,陳松蹊表示,“氣象局、環(huán)保局已經(jīng)開始對氣象、環(huán)境信息通過網(wǎng)站即時發(fā)布。但對各學(xué)科的研究者來說,規(guī)范的長時間的歷史數(shù)據(jù)更有科學(xué)價值。然而獲取規(guī)范的長時間的歷史數(shù)據(jù)仍是無路可循。往往要通過關(guān)系,甚至高價購買?!?/span>
可國內(nèi)拿不到的數(shù)據(jù),從國外卻可以免費(fèi)拿到。陳教授在上述文章中提到,“我后來和北大一數(shù)學(xué)院士談起此事,他說北大一同事所研究的中國地表方面的數(shù)據(jù)也是從美國得到的??磥磉@不是一個部門的問題。”
外國的數(shù)據(jù)更“香”嗎?
一些學(xué)者能夠方便地從國外拿數(shù)據(jù)(包括產(chǎn)生于中國的數(shù)據(jù)),得益于這些國家較成熟的數(shù)據(jù)政策和實踐。
以遙感數(shù)據(jù)為例,在歐洲、日本、澳大利亞、德國,這些發(fā)達(dá)國家里,美國對地觀測的科學(xué)數(shù)據(jù)在本身的質(zhì)量,國際開放的程度等一直是比較領(lǐng)先的。
據(jù)劉潤達(dá)等 [6],美國很早就鼓勵信息自由流通,希望信息在流通中增值。
具體來說,美國的《自由信息法》要求聯(lián)邦政府部門將政府信息向公眾開放并接受公眾的監(jiān)督,允許向任何的公共或私人事物進(jìn)行拷貝;此外,美國的《版權(quán)法》明確規(guī)定,版權(quán)保護(hù)條款下的版權(quán)保護(hù) “不適合于美國政府的作品”。
在地學(xué)領(lǐng)域,1991年7月,美國白宮總統(tǒng)科技政策辦公室發(fā)布了 “全球變化研究數(shù)據(jù)管理政策聲明” [7],從此,美國聯(lián)邦政府明確提出,將 “完全與開放”(Full and Open)的數(shù)據(jù)共享政策作為國家科學(xué)數(shù)據(jù)共享的基本國策。美國國家研究委員會在其研究報告中指出,要遵循 “數(shù)據(jù)的價值在于使用” 的原則 [8],科學(xué)數(shù)據(jù)的 “完全與開放” 獲取原則應(yīng)被采納, 并將其作為公共資助研究所產(chǎn)生的科學(xué)數(shù)據(jù)交換的國際標(biāo)準(zhǔn)。
美國國家航空航天局(National Aeronautics and Space Administration, NASA)、美國地質(zhì)調(diào)查局(United States Geological Survey, USGS)、美國國家大氣研究中心(The US National Center for Atmospheric Research, NCAR)、美國國家海洋和大氣管理局(National Oceanic and Atmospheric Administration,NOAA)等機(jī)構(gòu),也很大程度上秉承了這些理念,在數(shù)據(jù)的收集、儲存、分析、共享方面走在世界的前列。
在美國,這些機(jī)構(gòu)也是屬于典型的業(yè)務(wù)部門,因為美國聯(lián)邦相關(guān)的法律規(guī)定,這些部委對于數(shù)據(jù)開放和共享的認(rèn)識、共識等要比較深入,所以數(shù)據(jù)開放,徹底和免費(fèi)的程度等還是非常高的。
除了 “公開” “免費(fèi)” 的好處,這些機(jī)構(gòu)的數(shù)據(jù)之所以有吸引力,還有兩個特點:首先,具備長時間的特征,比如有長達(dá)幾十年的地表環(huán)境變化研究或者全球變化研究的數(shù)據(jù);其次,數(shù)據(jù)的一致性等方面質(zhì)量較高。
這方面知名的一個例證是USGS的Landsat項目。該項目從1972年開始已經(jīng)發(fā)射了8顆系列陸地觀測衛(wèi)星,是目前為止地球持續(xù)觀測時間最長的一個衛(wèi)星系列。美國政府通常免費(fèi)提供由政府資助的地球觀測衛(wèi)星獲得的圖像,而Landsat此前是個例外,直到 2008年USGS通過互聯(lián)網(wǎng)免費(fèi)提供了Landsat數(shù)據(jù)。
Zhe Zhu 等人的研究指出,“隨之而來的是 Landsat 圖像下載量的大幅增加,并導(dǎo)致科學(xué)和業(yè)務(wù)應(yīng)用程序的迅速擴(kuò)展,為政府、私營部門和民間社會提供服務(wù)。Landsat計劃因此為世界各地的航天機(jī)構(gòu)提供了一個關(guān)于開放獲取地球觀測數(shù)據(jù)的價值的例子,并刺激了全球,包括歐洲的哥白尼計劃,采取了類似的政策?!?[9]
而在海洋研究領(lǐng)域,A學(xué)者表示,美國的數(shù)據(jù)中心也是最受國際尊重的。
“因為他們確實做了大量的工作,我們之前的很多研究也都是和美國、歐洲的數(shù)據(jù)中心的人一起合作完成的。他們也比較開放,我們研發(fā)的方法他們也會用,已經(jīng)用到美國的數(shù)據(jù)中心去了,所以是一個非常健康的良性的互動?!?A學(xué)者說。
不僅是數(shù)據(jù)的開放,開放的思維也貫徹在整個數(shù)據(jù)中心的建設(shè)上,比如充分利用 “外腦”。
NASA就有這方面的例子——
馬里蘭大學(xué),因為地域的原因,開車幾十分鐘就可以到達(dá)戈達(dá)德太空飛行中心(Goddard Space Flight Center),該校很多老師是NASA數(shù)據(jù)衛(wèi)星的科學(xué)團(tuán)隊成員。
就整個數(shù)據(jù)處理流程和人員安排來說,根據(jù)每顆衛(wèi)星任務(wù)的不同,NASA每次會組建不一樣的科學(xué)團(tuán)隊,指導(dǎo)衛(wèi)星的設(shè)計。等衛(wèi)星上天,數(shù)據(jù)傳回后,科學(xué)團(tuán)隊緊接著為數(shù)據(jù)產(chǎn)品的研制和將來的數(shù)據(jù)生產(chǎn)設(shè)計算法。
之后,NASA的數(shù)據(jù)中心內(nèi)部的一支專門的工程師團(tuán)隊,做硬件的、做基礎(chǔ)和應(yīng)用軟件的,接過手來,把科學(xué)團(tuán)隊的算法在計算機(jī)系統(tǒng)上實現(xiàn)。
最后,NASA還有一支專門做對外服務(wù)的團(tuán)隊,不定期對外宣講,豐富數(shù)據(jù)產(chǎn)品文檔、實驗過程、地面控制以及各種數(shù)據(jù)庫。
充分利用 “外腦” 組建的科學(xué)家團(tuán)隊、專職的工程師團(tuán)隊、專業(yè)的對外服務(wù),如此三位一體的安排,除了NASA,也被USGS、NOAA、NCAR所采用。相比較而言,國內(nèi)的數(shù)據(jù)中心在這三個方面都存在一定程度的差距。
國內(nèi)的人才困境
相比國外這些較為成熟的數(shù)據(jù)政策、體制機(jī)制,制約中國科學(xué)數(shù)據(jù)發(fā)展的核心還在于專業(yè)人才的缺乏以及不合理的評價體制。
他山之石或可攻玉。以上文提到的Landsat為例,這個跨越了40多年的項目,USGS的數(shù)據(jù)中心團(tuán)隊幾十年如一日,跨越不同的物質(zhì)形態(tài)和技術(shù)手段,整理分析甚至是膠片的、磁帶的記錄,持續(xù)性地保證Landsat科學(xué)數(shù)據(jù)的國際共享價值。
但這種幾十年如一日的工作,如果是放在國內(nèi)做,在科技評價中則不占便宜。
作為海洋數(shù)據(jù)研究領(lǐng)域的學(xué)者,A學(xué)者對此有深刻的體會——
“我個人的感受就是我們國家的基礎(chǔ)研究其實還是非常弱的。對于全球變化,要判斷全球到底有沒有變暖,海洋溫度的上升,冰川的融化,這些主要的判斷要依據(jù)數(shù)據(jù),這個很基礎(chǔ),只有知道了怎么變才能去應(yīng)對它…… 其實國內(nèi)有很多人去做測量,但沒有專門去做數(shù)據(jù)的,因為做數(shù)據(jù)的人在現(xiàn)行的體制下,很難活下去,(當(dāng)前的評價體制)要求你不斷去寫論文,但是做數(shù)據(jù)天然地需要花大量的時間去了解數(shù)據(jù)是長什么樣子。這也是為什么大家不太愿意去做(數(shù)據(jù))工作的原因?!?/span>
圖靈獎得主 Jim Gray 在2007年加州山景城召開的一次會議上,發(fā)表演講 “第四范式,數(shù)據(jù)密集型的科學(xué)發(fā)現(xiàn)”,提出今天的科學(xué)已經(jīng)進(jìn)化到可以是數(shù)據(jù)驅(qū)動的發(fā)現(xiàn) [10]。從涉及到地球各個圈層的氣候變化研究,到關(guān)系到人類健康的遺傳基因組、蛋白組、臨床試驗,數(shù)據(jù)成為了必不可少的創(chuàng)新源泉和力量,再沒有什么時候比重視數(shù)據(jù)基礎(chǔ)建設(shè)和共享更迫切的了。
中國在數(shù)據(jù)方面的基本功建設(shè)依然任重道遠(yuǎn)。
制版編輯 | 盧卡斯