數(shù)據(jù)爛手里,何談研究話語權(quán)?

在大氣、海洋、冰川等需要國際合作的研究領(lǐng)域,中國普遍缺乏拿得出手的高質(zhì)量數(shù)據(jù)。問題出在了哪里?
撰文 | 邸利會
● ● ●
“我們國家在數(shù)據(jù)方面基本沒有話語權(quán)。”
在談到IPCC報(bào)告里鮮有來自中國的數(shù)據(jù)時(shí),A學(xué)者不無感慨地告訴《知識分子》。這位要求匿名的研究者舉例說,在2013年第五次IPCC報(bào)告中,為決策者列的大約10個(gè)主要的氣候變化的判斷指標(biāo),50多個(gè)時(shí)間序列,“沒有一個(gè)是我們國家的”。
IPCC全稱 “政府間氣候變化專門委員會”,IPCC報(bào)告體現(xiàn)了整個(gè)氣候變化科學(xué)界的智慧,對各國氣候變化的政策制定有很大的影響。如此重要的一個(gè)報(bào)告,卻沒有多少是來自中國的數(shù)據(jù),無疑令人驚訝。
在氣候變化領(lǐng)域,中國缺乏國際上拿得出手的高質(zhì)量數(shù)據(jù),事實(shí)上,這也是中國科學(xué)數(shù)據(jù)普遍貧弱的一個(gè)縮影。
拿不到的數(shù)據(jù)
在國內(nèi),數(shù)據(jù)難獲取早已不是新鮮事。
在2016年4月發(fā)表于《知識分子》的文章中 [1],北京大學(xué)教授陳松蹊就談過他研究霧霾的尷尬經(jīng)歷——北京氣象局的歷史數(shù)據(jù)需要花錢買,據(jù)說 “每小時(shí)只是幾塊錢,不貴的”。無奈之下,他們從美國一家氣象研究機(jī)構(gòu)的網(wǎng)站上找到了北京南郊觀象臺每半小時(shí)的氣象數(shù)據(jù),免費(fèi)。

注意到這個(gè)問題的并非只有陳教授。
在2017年10月的文章 [2] 中,Patrick Funk、薛瀾等來自中美兩國的學(xué)者指出,“在過去,中國大氣污染數(shù)據(jù)的收集分散且經(jīng)常失真。很多數(shù)據(jù)無法公開獲得?!?“研究人員和機(jī)構(gòu)為了最大化地發(fā)表文章,把數(shù)據(jù)捏在手里?!?/span>
他們進(jìn)一步認(rèn)為,由于高質(zhì)量的傳感器是被全國各個(gè)不同團(tuán)體占有,而空氣污染的分析需要來自每個(gè)區(qū)域內(nèi)多個(gè)站點(diǎn)的高質(zhì)量數(shù)據(jù),只有克服數(shù)據(jù)共享和合作的障礙才能更好地管理和減少中國的空氣污染;而且,如果只用有限的數(shù)據(jù),還可能得到錯(cuò)誤的結(jié)論——比如在理解臭氧空洞時(shí),最初很多科學(xué)家和決策者不相信氯氟烴假說,但通過收集了不同范圍、各個(gè)平臺的數(shù)據(jù)后,這個(gè)假說得到了驗(yàn)證。
不僅是在環(huán)保、大氣領(lǐng)域,在海洋研究領(lǐng)域,即使是作為領(lǐng)域內(nèi)的研究者,A坦言,國內(nèi)的數(shù)據(jù)獲取同樣困難——
“其實(shí)國內(nèi)很多人去做測量,測量回來后,數(shù)據(jù)都是保密的,(攥)在自己手里,不給別人用。那么一個(gè)團(tuán)隊(duì)能測多少數(shù)據(jù)呢?所以就沒辦法搞全局性的研究,因?yàn)閿?shù)據(jù)量太少了。這樣的話就形成了類似于軍閥割據(jù),大家都用自己手里的一點(diǎn)點(diǎn)數(shù)據(jù),發(fā)幾篇小文章。中國的數(shù)據(jù)其實(shí)并沒有匯聚到統(tǒng)一的地方去?!?/span>
在海洋研究領(lǐng)域,中國通過數(shù)據(jù)共享貢獻(xiàn)給國際同行的也很少。
海洋觀測領(lǐng)域頗為知名的Argo計(jì)劃 [3],通過全球30多個(gè)國家的合作來維持一個(gè)全球海洋的觀測網(wǎng)絡(luò),該計(jì)劃強(qiáng)制要求所有的參與方,必須把測出來的數(shù)據(jù)共享給國際,其中中國的數(shù)據(jù)貢獻(xiàn)少的可憐,大概不到4%。
“我們這么大的體量,其實(shí)(貢獻(xiàn))也是比較小的,所以我們國家長期在海洋觀測領(lǐng)域是抬不起頭來。” A學(xué)者說。
海洋極大且深,缺乏數(shù)據(jù)尚可理解,但令人驚奇的是,在普通人看來并不缺乏數(shù)據(jù)的領(lǐng)域,研究者想獲取數(shù)據(jù)也困難重重。
今年8月5日,國家青藏高原科學(xué)數(shù)據(jù)中心主任李新等人在《自然-地球科學(xué)》發(fā)表評論文章,呼吁數(shù)據(jù)共享 [4]。
作者們在政策、管理、技術(shù)、國際化四個(gè)層面提出了具體的建議。在政策層面,他們指出,應(yīng)該進(jìn)一步明確敏感數(shù)據(jù)及其使用界線——
“地球科學(xué)數(shù)據(jù),尤其是涉及到國家安全、商業(yè)秘密和個(gè)人隱私時(shí),本身可能是敏感的。為了最大化數(shù)據(jù)共享的實(shí)踐,很重要的是,要對敏感數(shù)據(jù)確立清晰的定義、共享界線和限制的規(guī)則。在共享限制規(guī)定之外的數(shù)據(jù),共享的實(shí)踐應(yīng)完全基于可查找、可訪問、可互操作、可重用的FAIR原則(幾位學(xué)者在2016年3月發(fā)表的文章中 [5],正式提出FAIR數(shù)據(jù)原則,可以看作是提升數(shù)據(jù)可重用性的某種指南。之后,這些原則得到了不同國際組織的廣泛認(rèn)可)。”
李新等人的呼吁不無道理,界定清楚敏感數(shù)據(jù)以及各方的權(quán)責(zé),可以避免一個(gè)顯而易見的悖論——如果某些數(shù)據(jù)屬于保密性質(zhì),為什么反而可以從國外免費(fèi)拿到?如果是保密的數(shù)據(jù),為何還可以標(biāo)價(jià)出售,而且價(jià)格不菲?
當(dāng)然,近些年,中國也在努力提升數(shù)據(jù)共享水平。
2018年,國務(wù)院辦公廳印發(fā)的《科學(xué)數(shù)據(jù)管理辦法》,共19處提到共享,其中第19條規(guī)定,“政府預(yù)算資金資助形成的科學(xué)數(shù)據(jù)應(yīng)當(dāng)按照開放為常態(tài)、不開放為例外的原則,由主管部門組織編制科學(xué)數(shù)據(jù)資源目錄,有關(guān)目錄和數(shù)據(jù)應(yīng)及時(shí)接入國家數(shù)據(jù)共享交換平臺,面向社會和相關(guān)部門開放共享,暢通科學(xué)數(shù)據(jù)軍民共享渠道。國家法律法規(guī)有特殊規(guī)定的除外?!?/span>
2019年,國家海洋科學(xué)數(shù)據(jù)中心、國家青藏高原科學(xué)數(shù)據(jù)中心、國家人口健康科學(xué)數(shù)據(jù)中心、國家天文科學(xué)數(shù)據(jù)中心等第一批20個(gè)國家數(shù)據(jù)中心上線。
但究竟哪些是科學(xué)數(shù)據(jù)?這里面卻存在著模糊地帶。
舉例來說,涉及到地球科學(xué)領(lǐng)域的數(shù)據(jù),很大部分來自政府部門——
其中的一大類是由各個(gè)部委,根據(jù)其業(yè)務(wù)職能,在國家財(cái)政的支持下,成體系、成規(guī)模地開展各種資源、環(huán)境調(diào)查等所得到的數(shù)據(jù)(如水利部門開展的全國河流斷面的水位、流速等監(jiān)測數(shù)據(jù);林業(yè)部門開展的林業(yè)調(diào)查樣方數(shù)據(jù);環(huán)保部關(guān)于各種類型的空氣質(zhì)量、水域污染物等數(shù)據(jù);自然資源部的土地調(diào)查數(shù)據(jù)等)。
“像這樣一些部門的數(shù)據(jù),如何界定其中的科學(xué)數(shù)據(jù),是要討論的地方,屬于一個(gè)灰色地帶?!?清華大學(xué)全球變化研究院暨地球系統(tǒng)科學(xué)研究中心副教授白玉琪告訴《知識分子》,“國家沒有明文規(guī)定什么類型的業(yè)務(wù)數(shù)據(jù)應(yīng)當(dāng)作為科學(xué)數(shù)據(jù)進(jìn)行管理,因?yàn)?/span>(那些數(shù)據(jù))一旦作為科學(xué)數(shù)據(jù)進(jìn)行界定,國家現(xiàn)在認(rèn)為都要轉(zhuǎn)移到20個(gè)科學(xué)數(shù)據(jù)中心,按照原則以一種科學(xué)數(shù)據(jù)共享的方式來做?!?/span>
除了各個(gè)部委產(chǎn)生的數(shù)據(jù),在地球觀測領(lǐng)域,另外一大類是采用制作衛(wèi)星載荷、統(tǒng)一發(fā)射、統(tǒng)一接受、統(tǒng)一管控、統(tǒng)一處理,然后分發(fā)到主要牽頭的部和委(作為衛(wèi)星數(shù)據(jù)的主用戶)而獲得的數(shù)據(jù)。
從實(shí)際情況看,這兩大類數(shù)據(jù),因?yàn)槲幢幻鞔_劃入科學(xué)數(shù)據(jù),科研界都難以獲取。這或許就是為什么當(dāng)陳松蹊教授研究霧霾時(shí),拿環(huán)保數(shù)據(jù)和氣象數(shù)據(jù)那么的困難。
在之前的文章中,陳松蹊說,“氣象局、環(huán)保局已經(jīng)開始對氣象、環(huán)境信息通過網(wǎng)站即時(shí)發(fā)布。但對各學(xué)科的研究者來說,規(guī)范的長時(shí)間的歷史數(shù)據(jù)更有科學(xué)價(jià)值。然而獲取規(guī)范的長時(shí)間的歷史數(shù)據(jù)仍是無路可循。往往要通過關(guān)系,甚至高價(jià)購買?!?/span>
可國內(nèi)拿不到的數(shù)據(jù),從國外卻可以免費(fèi)拿到。陳教授在上述文章中提到,“我后來和北大一數(shù)學(xué)院士談起此事,他說北大一同事所研究的中國地表方面的數(shù)據(jù)也是從美國得到的??磥磉@不是一個(gè)部門的問題?!?/span>
外國的數(shù)據(jù)更香嗎?
一些學(xué)者轉(zhuǎn)而從國外拿數(shù)據(jù)(包括產(chǎn)生于中國的數(shù)據(jù)),得益于這些國家較成熟的數(shù)據(jù)政策和實(shí)踐。
“以遙感數(shù)據(jù)為例,歐洲、日本、澳大利亞、德國,這些發(fā)達(dá)國家里,應(yīng)當(dāng)來講,美國對地觀測的科學(xué)數(shù)據(jù)在本身的質(zhì)量,國際開放的程度等一直都是比較領(lǐng)先的?!?白玉琪說。
據(jù)劉潤達(dá)等 [6],美國很早就鼓勵(lì)信息自由流通, 希望信息在流通中增值。
具體來說,美國的《自由信息法》要求聯(lián)邦政府部門將政府信息向公眾開放并接受公眾的監(jiān)督, 允許向任何的公共或私人事物進(jìn)行拷貝;此外,美國的《版權(quán)法》明確規(guī)定,版權(quán)保護(hù)條款下的版權(quán)保護(hù) “不適合于美國政府的作品”。
在地學(xué)領(lǐng)域,1991年7月,美國白宮總統(tǒng)科技政策辦公室發(fā)布了 “全球變化研究數(shù)據(jù)管理政策聲明” [7],從此美國聯(lián)邦政府明確提出,將 “完全與開放”(Full and Open)的數(shù)據(jù)共享政策作為國家科學(xué)數(shù)據(jù)共享的基本國策。美國國家研究委員會在其研究報(bào)告中指出,要遵循 “數(shù)據(jù)的價(jià)值在于使用” 的原則 [8],科學(xué)數(shù)據(jù)的 “完全與開放” 獲取原則應(yīng)被采納, 并將其作為公共資助研究所產(chǎn)生的科學(xué)數(shù)據(jù)交換的國際標(biāo)準(zhǔn)。
美國國家航空航天局(National Aeronautics and Space Administration, NASA)、美國地質(zhì)調(diào)查局(United States Geological Survey, USGS)、美國國家大氣研究中心(The US National Center for Atmospheric Research, NCAR)、美國國家海洋和大氣管理局(National Oceanic and Atmospheric Administration,NOAA)等機(jī)構(gòu),也很大程度上秉承了這些理念,在數(shù)據(jù)的收集、儲存、分析、共享方面走在世界的前列。
“(像這些機(jī)構(gòu))他們也是屬于典型的業(yè)務(wù)部門,在美國因?yàn)槁?lián)邦相關(guān)的法律規(guī)定,對于數(shù)據(jù)開放和共享的認(rèn)識、共識等要比較深入,所以這些部委的數(shù)據(jù)開放,應(yīng)該來講,徹底的程度,免費(fèi)的程度等等都還是非常高的。我在美國工作這么多年,還沒有聽說過像這些部委的數(shù)據(jù)要通過付費(fèi)的訂購的方式來進(jìn)行獲取,這些數(shù)據(jù)只要能提供在互聯(lián)網(wǎng)上,幾乎都以零成本的方式來對外提供?!?白玉琪說。
在他看來,除了 “公開” “免費(fèi)” 的好處,這些機(jī)構(gòu)的數(shù)據(jù)之所以有吸引力,還有兩個(gè)特點(diǎn):首次,具備長時(shí)間的特征,比如有長達(dá)幾十年的地表環(huán)境變化研究或者全球變化研究的數(shù)據(jù);其次,數(shù)據(jù)的一致性等方面質(zhì)量較高。
這方面知名的一個(gè)例證是USGS的Landsat項(xiàng)目。該項(xiàng)目從1972年開始已經(jīng)發(fā)射了8顆系列陸地觀測衛(wèi)星,是目前為止地球持續(xù)觀測時(shí)間最長的一個(gè)衛(wèi)星系列。美國政府通常免費(fèi)提供由政府資助的地球觀測衛(wèi)星獲得的圖像,而Landsat此前是個(gè)例外,直到 2008年USGS通過互聯(lián)網(wǎng)免費(fèi)提供了Landsat數(shù)據(jù)。
Zhe Zhu 等人的研究指出,“隨之而來的是 Landsat 圖像下載量的大幅增加,并導(dǎo)致科學(xué)和業(yè)務(wù)應(yīng)用程序的迅速擴(kuò)展,為政府、私營部門和民間社會提供服務(wù)。Landsat計(jì)劃因此為世界各地的航天機(jī)構(gòu)提供了一個(gè)關(guān)于開放獲取地球觀測數(shù)據(jù)的價(jià)值的例子,并刺激了全球,包括歐洲的哥白尼計(jì)劃,采取了類似的政策”。[9]
而在海洋研究領(lǐng)域,A學(xué)者表示,美國的數(shù)據(jù)中心是最受國際尊重的。
“因?yàn)樗麄兇_實(shí)做了大量的工作,我們之前的很多研究也都是和美國、歐洲的數(shù)據(jù)中心的人一起合作完成的。他們也比較開放,我們研發(fā)的方法他們也會用,已經(jīng)用到美國的數(shù)據(jù)中心去了,所以是一個(gè)非常健康的良性的互動(dòng)?!?A學(xué)者說。
不僅是數(shù)據(jù)的開放,開放的思維也貫徹在整個(gè)數(shù)據(jù)中心的建設(shè)上。
白玉琪舉了NASA充分利用 “外腦” 的例子:“馬里蘭大學(xué),因?yàn)榈赜虻脑?,開車幾十分鐘就可以到達(dá)戈達(dá)德太空飛行中心(Goddard Space Flight Center),該校的很多老師都是NASA數(shù)據(jù)衛(wèi)星的科學(xué)團(tuán)隊(duì)成員?!?/span>
根據(jù)每顆衛(wèi)星任務(wù)的不同,NASA每次會組建不一樣的科學(xué)團(tuán)隊(duì),指導(dǎo)衛(wèi)星的設(shè)計(jì),等衛(wèi)星上天,數(shù)據(jù)傳回后,為數(shù)據(jù)產(chǎn)品的研制和將來的數(shù)據(jù)生產(chǎn)設(shè)計(jì)算法;之后,數(shù)據(jù)中心內(nèi)部的一支專門的工程師團(tuán)隊(duì),做硬件的、做基礎(chǔ)和應(yīng)用軟件的,接過手來,把科學(xué)團(tuán)隊(duì)的算法在計(jì)算機(jī)系統(tǒng)上實(shí)現(xiàn);最終,還有一支團(tuán)隊(duì)專門做對外服務(wù),不定期對外宣講,豐富數(shù)據(jù)產(chǎn)品文檔、實(shí)驗(yàn)過程、地面控制以及各種數(shù)據(jù)庫。
充分利用 “外腦” 組建的科學(xué)家團(tuán)隊(duì)、專職的工程師團(tuán)隊(duì)、對外的專業(yè)服務(wù),在白玉琪看來是NASA數(shù)據(jù)中心取得成功的 “三件法寶”——
“這三位一體的安排,在USGS、NOAA、NCAR,多多少少也存在,只是配比不一定完全一致?!?/span>
國內(nèi)的人才困境
相比國外這些較為成熟的數(shù)據(jù)政策、體制機(jī)制,制約中國科學(xué)數(shù)據(jù)發(fā)展的核心還在于專業(yè)人才的缺乏以及不合理的評價(jià)體制。
“關(guān)于數(shù)據(jù)人才和能力建設(shè),這一塊確實(shí)急不得,任何一個(gè)我了解到的科學(xué)數(shù)據(jù)中心,基本都缺乏特別專業(yè)化的、多學(xué)科交叉的團(tuán)隊(duì)的支撐。這種人才不是隨便拉一個(gè)就能用的,而是需要經(jīng)過一個(gè)滾動(dòng)式的長期的積累,所以是可遇而不可求,需要耐心。” 白玉琪說。
以上文提到的Landsat為例,這個(gè)跨越了40多年的項(xiàng)目,USGS的數(shù)據(jù)中心團(tuán)隊(duì)幾十年如一日,跨越不同的物質(zhì)形態(tài)和技術(shù)手段,整理分析甚至是膠片的、磁帶的記錄,持續(xù)性地保證Landsat科學(xué)數(shù)據(jù)的國際共享價(jià)值。
但這種幾十年如一日的工作,如果是放在國內(nèi)做,在科技評價(jià)中則不占便宜。
“我們喜歡轟動(dòng),對這種需要長期投入、慢工出細(xì)活,屬于能力建設(shè)的工作,并不看好。這么一個(gè)評價(jià)體制和機(jī)制,比如一篇頂刊的文章,足以讓你在同行有很高的影響力。但說我10年就干這一件事,服務(wù)了很多人,顯得都沒有那么的充分。所以,這么一個(gè)機(jī)制也不會吸引更年輕的同志們,在這樣一個(gè)很重要、很基礎(chǔ),但表現(xiàn)度不那么高的工作上面持續(xù)積累。” 白玉琪說。
作為海洋數(shù)據(jù)研究領(lǐng)域的學(xué)者,A學(xué)者對此也有深刻的體會——
“我個(gè)人的感受就是我們國家的基礎(chǔ)研究其實(shí)還是非常弱的。對于全球變化,要判斷全球到底有沒有變暖,海洋溫度的上升,冰川的融化,這些主要的判斷要依據(jù)數(shù)據(jù),這個(gè)很基礎(chǔ),只有知道了怎么變才能去應(yīng)對它。…… 其實(shí)國內(nèi)有很多人去做測量,但沒有專門去做數(shù)據(jù)的,因?yàn)樽鰯?shù)據(jù)的人在現(xiàn)行的體制下,很難活下去,(當(dāng)前的評價(jià)體制)要求你不斷去寫論文,但是做數(shù)據(jù)天然地需要花大量的時(shí)間去了解數(shù)據(jù)是長什么樣子。這也是為什么大家不太愿意去做(數(shù)據(jù))工作的原因?!?/span>
圖靈獎(jiǎng)得主 Jim Gray 在2007年加州山景城召開的一次會議上,發(fā)表演講 “第四范式,數(shù)據(jù)密集型的科學(xué)發(fā)現(xiàn)”,提出今天的科學(xué)已經(jīng)進(jìn)化到可以是數(shù)據(jù)驅(qū)動(dòng)的發(fā)現(xiàn) [10]。從涉及到地球各個(gè)圈層的氣候變化研究,到關(guān)系到人類健康的遺傳基因組、蛋白組、臨床試驗(yàn),數(shù)據(jù)成為了必不可少的創(chuàng)新源泉和力量,再?zèng)]有什么時(shí)候比重視數(shù)據(jù)基礎(chǔ)建設(shè)和共享更迫切的了。
“如果有越來越多的中國人能夠在國際化的視野當(dāng)中去工作,只有你貢獻(xiàn)的多了,你才可能有話語權(quán)。所以我認(rèn)為話語權(quán)是個(gè)真的問題,它并不是你要強(qiáng)行奪取的,在科學(xué)領(lǐng)域里,是因?yàn)槟闩艿脡蚩?,成為了事?shí)上的標(biāo)準(zhǔn),就自然而然有了話語權(quán)。對地觀測、地球模擬、航空航天等領(lǐng)域,這些例子比比皆是。” 白玉琪說。
制版編輯 | 盧卡斯