謝宇:大數(shù)據(jù)的重要價值不是“大” | 專訪
● ● ●
不久前,美國普林斯頓大學(xué)教授、《知識分子》主編謝宇接受《嚴肅的人口學(xué)八卦組》專訪,主要探討了三個問題:
1. 現(xiàn)在似乎已經(jīng)進入了大數(shù)據(jù)時代,大家很看重大數(shù)據(jù),每個人都在談?wù)摯髷?shù)據(jù),那么,社科研究應(yīng)該怎么做或怎么看待大數(shù)據(jù)問題,大數(shù)據(jù)和傳統(tǒng)研究數(shù)據(jù)的關(guān)系是什么?
2. 關(guān)于在新媒體時代,科學(xué)工作者應(yīng)該如何面對大眾的問題。對于公眾號這種形式,科學(xué)工作者是否應(yīng)該參與到對大眾的科普中?
3. 關(guān)于人口學(xué)的發(fā)展問題,中國社會處在快速轉(zhuǎn)型時期,中國的人口學(xué)發(fā)展也面臨很多挑戰(zhàn),未來人口學(xué)的主要研究方向和重要研究議題有哪些?
《知識分子》獲《嚴肅的人口學(xué)八卦組》授權(quán)轉(zhuǎn)載。
大數(shù)據(jù)是什么
謝宇:你這個問題提得很好。我覺得社會上對大數(shù)據(jù)有很多誤解,也有一些盲目的追求。總體來講,中國民眾對數(shù)據(jù)的需求很大,但真正懂數(shù)據(jù)、認識數(shù)據(jù)的人并不多。現(xiàn)在隨著大數(shù)據(jù)的產(chǎn)生,每個人都在談?wù)摯髷?shù)據(jù),大數(shù)據(jù)就變成了一個時髦的、甚至被一些人濫用的詞語。
至于我對大數(shù)據(jù)的理解。首先我同意你講的,大數(shù)據(jù)的產(chǎn)生會影響到社會、研究和文化。但是它為什么重要、怎么來用,絕大多數(shù)人都是茫然的。什么是大數(shù)據(jù)?大數(shù)據(jù)是我們現(xiàn)代生活或工作留下來的數(shù)字腳印 (footprint)。這些數(shù)據(jù)不是為研究采集的,而是一個生活的副產(chǎn)品。
現(xiàn)代化生活在很多地方都會留下數(shù)據(jù)的腳印,比如打電話、付帳、乘地鐵、使用打車軟件等,我們所有的行為都電子化了,這種電子化的生活方式和工作方式就為我們提供了可以利用電子化數(shù)據(jù)的機會。所以我說大數(shù)據(jù)實際上不是為研究而存在,而是我們的生活工作留下來的痕跡、是一種電子腳印。
從這個意義上來理解大數(shù)據(jù),就會認識到大數(shù)據(jù)有幾個典型的特點。首先它并不是一個新事物,過去就有電子化的數(shù)據(jù),比如美國的人口普查很早就有,當然有些已經(jīng)失去了,而且并不是電子化的,但是它有數(shù)據(jù),是為政府服務(wù)的。后來我們有檔案、有文本,雖然沒有完全電子化,但是我們的生活已經(jīng)留下了很多數(shù)據(jù),這些是可以電子化的,而且現(xiàn)在也正在變成電子化。
其次,大數(shù)據(jù)并不意味著 “大”很重要,很多人說大數(shù)據(jù)的優(yōu)勢在于它很大,它這個“大”的確有它的規(guī)模很大的這層涵義,因為生活每時每刻都在產(chǎn)生數(shù)據(jù),所以它的量很大。但這個意義上的“大”還不是主要特征,它的主要特征是它的產(chǎn)生方式不一樣,它不是為了研究而存在的,而是由我們生活和工作本身就能產(chǎn)生很多數(shù)據(jù)。
有的時候我將大數(shù)據(jù)叫被動數(shù)據(jù),因為它不是為研究目的而有目的性地收集,而是被動產(chǎn)生的,比如打個電話,這些電話的記錄留下來。這時,你并不是為了研究而去打電話記錄數(shù)據(jù),打電話只是你的日常工作和生活,這些數(shù)據(jù)是被動記錄的。
謝宇:以前我們沒有數(shù)據(jù),特別在中國,相對來講,數(shù)據(jù)獲得途徑是受限的,而且學(xué)術(shù)數(shù)據(jù)特別缺乏,很多數(shù)據(jù)不共享。對于官方數(shù)據(jù),一是不能得到,二是不知道準確不準確。所以,中國很多年來由于數(shù)據(jù)的貧乏和質(zhì)量的不確定性,以及數(shù)據(jù)獲得受限,民眾對數(shù)據(jù)的需求難以滿足,大家想知道現(xiàn)實到底是什么。
在沒有其它數(shù)據(jù)來源的情況下,大數(shù)據(jù)的產(chǎn)生使得大家有了一些了解情況的渠道。這個產(chǎn)生從無到有,一下子就激發(fā)了人們的興趣,覺得大數(shù)據(jù)非常好。大數(shù)據(jù)的出現(xiàn)打破了過去那種數(shù)據(jù)被壟斷封鎖的局面,給我們提供了以前沒有的數(shù)據(jù)。
另外,以前很多方面是沒有數(shù)據(jù)的,比如說交通的數(shù)據(jù)非常難收集,還有社交網(wǎng)絡(luò)的數(shù)據(jù)也非常復(fù)雜難以掌握,所以大數(shù)據(jù)最重要的貢獻,并不是它量大,而是我們能夠通過大數(shù)據(jù)獲得在社會現(xiàn)象和行為方面過去沒有的數(shù)據(jù)。
在西方,數(shù)據(jù)系統(tǒng)相對比較完善,有些政府的數(shù)據(jù)是公開的,是共享的,研究者的數(shù)據(jù)也要求要公開,還有一些商業(yè)數(shù)據(jù)、企業(yè)的數(shù)據(jù)、NGO的數(shù)據(jù)、智庫 (thinktank) 的數(shù)據(jù)等都是共享的。
西方的數(shù)據(jù)文化大約有100年左右的歷史,社會調(diào)查的數(shù)據(jù)大概有70年左右,數(shù)據(jù)文化是一個緩慢的發(fā)展過程,在這個過程中,大數(shù)據(jù)慢慢填補了很多空白,在這個數(shù)據(jù)生態(tài)里面逐漸起到了作用,但大數(shù)據(jù)沒有把其他的數(shù)據(jù)完全排擠出去,所以數(shù)據(jù)領(lǐng)域呈現(xiàn)出一個各種數(shù)據(jù)都有的全生態(tài)景象。
而在中國,因為學(xué)術(shù)數(shù)據(jù)、政府數(shù)據(jù)相對來講比較缺乏,所以大數(shù)據(jù)一出,給人的感覺就像把其他數(shù)據(jù)都取代了,但實際上不應(yīng)該是這樣的。
謝宇:大數(shù)據(jù)有幾個缺陷:
1. 它雖然量大,但你仍然需要懷疑它的代表性。
有的人用手機,有的人不用;有的人一天發(fā)很多條微博,也有人一條不發(fā);有人有幾個銀行賬戶,有的人沒有賬戶。所以它的代表性是有缺陷的,你不知道它的總體是什么,這是選擇性的問題,是難以克服的。因為它是行為數(shù)據(jù),是被動記錄的,很難控制,所以我們只能用統(tǒng)計的方法盡量減少偏差??傮w是什么,到底能不能推論,今天的總體和明天的總體是不是一樣,推論的對象是誰,這些異質(zhì)性問題和選擇性問題都很難解決。
2. 大數(shù)據(jù)的變量可靠性和數(shù)據(jù)質(zhì)量也是不確定的。
比如機器學(xué)習(xí)中的文本分析,正面情緒的一個形容詞和一個主語在一起,機器認為它是正面的,但它可能是諷刺的,或者有其他的含義。你只有讀完這句話才能讀出背后的情緒,但機器不一定能讀出來,所以有很多干擾 (noise) 在里面。數(shù)據(jù)量大了以后,數(shù)據(jù)清理的代價也很大,很多人不做數(shù)據(jù)清理,可能也不做verification(數(shù)據(jù)驗證)。如果不做最基本的工作,數(shù)據(jù)質(zhì)量將是個很大的問題。
3. 它的測量問題 (measurement) 。
大數(shù)據(jù)是被動數(shù)據(jù),很多事情沒法問,比如情感問題、滿意度問題。在被動數(shù)據(jù)里面,除非是非常非常不滿意,或者是抱怨這個客戶,才能通過數(shù)據(jù)讀出這個人的情感,可是一般人的情感可能沒有那么強,是否滿意他不會主動告訴,而且很難用設(shè)計來把內(nèi)在的(隱私的)東西挖掘出來,也是不合法的。大數(shù)據(jù)作為被動數(shù)據(jù)是本來就存在的,就不能再改造它,也不能通過設(shè)計來改進,所以它的測量是有限的。
4. 第四個缺陷可能是更致命的,就是數(shù)據(jù)整合(data integration) 和數(shù)據(jù)厚度問題。
比如你有電話數(shù)據(jù),銀行數(shù)據(jù),銀行數(shù)據(jù)和電話數(shù)據(jù)整合起來可以知道一個人的很多事情,但也是不確定的,因為你的錢可能放到別人賬戶里了,或者說我們也并不知道你賬戶的錢是不是你的、是哪里來的。還有很多類似問題,需要整合其他數(shù)據(jù),比如學(xué)歷、病歷等。
合并這些數(shù)據(jù)是非常困難的,首先是電子數(shù)據(jù)產(chǎn)生沒幾年,可以使用的信息有限,其次是大數(shù)據(jù)的變量非常少,不夠用來對一個人的長期軌跡做描述。
而傳統(tǒng)調(diào)查卻不同,調(diào)查數(shù)據(jù)可能有幾千個變量,各種方面都有,而大數(shù)據(jù)他只有一個方面,手機就是手機,微博就是微博,你對個體其他的特征知道得非常少,而且沒有一個長期的跟蹤,所以大數(shù)據(jù)比較致命的就是很薄,對一個人的了解很少,很難深入探索異質(zhì)性問題。
比如,個體差異的原因是什么?可能有關(guān)他過去的經(jīng)歷、家庭背景等一些我們不能通過大數(shù)據(jù)看到的東西(缺失變量)非常多。再比如,看微博但并不知道他發(fā)帖還是留言是真人還是假的,是一個人在操作還是多個人。
所以很多事情是沒法確定的。這就導(dǎo)致大數(shù)據(jù)的厚度受到很大限制,時間的長度也受限制。因為異質(zhì)性問題,大數(shù)據(jù)用于因果推測仍然十分困難,也需要諸如工具變量、斷點回歸等方法,還是需要假設(shè),所以大數(shù)據(jù)不能解決最根本的困難。雖然大數(shù)據(jù)對研究有很多幫助,但是最根本還是要靠學(xué)者自己的能力,所以好的學(xué)者永遠有優(yōu)勢,好的訓(xùn)練底子永遠有優(yōu)勢。想要通過大數(shù)據(jù)本身來解決方法上困境的想法和做法是行不通的。
實際上,所有社會現(xiàn)象的數(shù)據(jù)都是有局限的,這也就是為什么我們要收集不同的數(shù)據(jù),從不同的方面、不同的角度看一個問題。
這和我以前講的三個基本原則有關(guān):為什么需要數(shù)據(jù)、為什么需要不同的數(shù)據(jù)?就是因為個體的異質(zhì)性很強,個體與個體不一樣,這個人不能代替那個人,那么如何知道這個人的特征?
我們可能需要不同的測量,包括現(xiàn)在學(xué)者們想測量的基因、這個人小時候生下來的情況、家庭背景、中年生活、老年生活等整個生命歷程。我們經(jīng)常需要跟蹤性調(diào)查,而中國其實很少有這種幾十年的跟蹤調(diào)查,這種數(shù)據(jù)都是需要相當長期的積累。
雖然大數(shù)據(jù)獲取速度快、量大,但它相對來講信息量中每一個個體的信息非常少,一個人的各個方面也不能夠聯(lián)系在一起。所以,我覺得大數(shù)據(jù)是一個薄數(shù)據(jù)或者淺數(shù)據(jù),而不是深數(shù)據(jù),不是一個暢通數(shù)據(jù)。
也因此做研究用大數(shù)據(jù)還是有缺陷的。但也不能因為大數(shù)據(jù)有缺陷就不用,恰恰相反,大數(shù)據(jù)可以從另一個角度反映事實的真相。正是因為每種數(shù)據(jù)都會有缺陷,現(xiàn)在的大數(shù)據(jù)可以彌補其他數(shù)據(jù)的缺陷,同樣,其他類型的數(shù)據(jù)也可以彌補大數(shù)據(jù)缺陷。
所以我對大數(shù)據(jù)的看法就是,我們需要一個數(shù)據(jù)生態(tài),這個生態(tài)應(yīng)該是有各種各樣的數(shù)據(jù),各種數(shù)據(jù)發(fā)揮不同的作用,大數(shù)據(jù)有大數(shù)據(jù)的作用,調(diào)查數(shù)據(jù)有調(diào)查數(shù)據(jù)的作用,政府數(shù)據(jù)也有政府數(shù)據(jù)的作用。
我這里把政府數(shù)據(jù)和大數(shù)據(jù)分開,實際上大數(shù)據(jù)也可以包括政府數(shù)據(jù),因為政府管理也是工作,也產(chǎn)生大量的數(shù)據(jù)。
一般數(shù)據(jù)類型基本的劃分是包括三種:商業(yè)的、行為的數(shù)據(jù),這是一般的大數(shù)據(jù);政府的管理數(shù)據(jù),這實際上也是大數(shù)據(jù);第三種就是研究性的調(diào)查,這是傳統(tǒng)數(shù)據(jù),也就是常說的抽樣調(diào)查數(shù)據(jù),此外還有一些為研究目的而特定產(chǎn)生的數(shù)據(jù)。
這三種數(shù)據(jù)在社會里、在學(xué)術(shù)團體里、在國家制定的政策里都有它們的作用。我們不能夠只重視一種數(shù)據(jù)而忽略其他的數(shù)據(jù),不同的數(shù)據(jù)、不同的主題、不同的類型、不同的人群、不同的數(shù)據(jù)結(jié)構(gòu)都需要存在,因為它們能夠互相彌補各自的缺點。
謝宇:伴隨大數(shù)據(jù)的產(chǎn)生,我覺得社會科學(xué)基本的研究范式并沒有變。用數(shù)據(jù)檢驗理論的研究范式?jīng)]變,因果分析的標準、方式也沒變。從研究設(shè)計來講,我覺得大數(shù)據(jù)的產(chǎn)生給我們的研究帶來了很多便利,以前不能做的現(xiàn)在能做了,但是整個大的范式并沒有改變。
那么它帶來的改變在哪呢?首先是選題的改變,以前很多不能做的現(xiàn)在有數(shù)據(jù)能做了,數(shù)據(jù)量比較大,能夠支持一些以前傳統(tǒng)數(shù)據(jù)不能做到的。
其次它對計算的要求也高了,也給方法上帶來了挑戰(zhàn),主要是計算方面的挑戰(zhàn),比如機器學(xué)習(xí)(machinelearning),small area的非參數(shù) (non-parametric) 估計,這些理論上的范式上以前都是有的,但是以前沒有數(shù)據(jù)來支持這樣的設(shè)計和方法。所以從計算方法和選題上都有很大的進步,我們不再局限于傳統(tǒng)的命題和傳統(tǒng)的方法。
謝宇:大數(shù)據(jù)的產(chǎn)生會造成分化,但我認為不是像你說的那種分化。我覺得主要的分化就是資源的不平等,大數(shù)據(jù)的價值在于數(shù)據(jù)的獲得和使用。
有一些數(shù)據(jù),比如說政府部門的數(shù)據(jù),只對一部分人開放,這樣的話能否獲得政府資源就決定了你能不能有這方面的資料做研究。很多商業(yè)的數(shù)據(jù)也是只對部分人開放,所以有頭銜的、受到信任、受到委托的,或者成就高的人更可能有資源,所以是資源的不平等造成的分化。
還有一個不平等,現(xiàn)在的大數(shù)據(jù)研究需要團隊合作,因為大數(shù)據(jù)研究可能需要不同的專業(yè)、需要計算能力、需要編程、需要可視化等,各方面都有團隊要求。單槍匹馬做研究比較困難。
這兩個方面的不平等實際上也會反映到機構(gòu)層面,比如可能更好的學(xué)校更容易得到資源,更可能有不同的團隊來支持他,可能像北大清華這樣的學(xué)校會更有利,一般的學(xué)校一般的老師他們可能就沒有得到資源,或者不能夠有一個很大的團隊,我覺得這個不平等是有的。
研究方法上的分化和不平等,我并不認為會產(chǎn)生。因為大數(shù)據(jù)技術(shù)的使用跟以前的方法一樣,我覺得掌握技術(shù)并不難。真正有了大數(shù)據(jù),要學(xué)要做都能做到,因為數(shù)據(jù)是有限的,方法也是有限的。
像機器學(xué)習(xí)、參數(shù)估計這些方法都是以前人們就知道的。在這些大數(shù)據(jù)出現(xiàn)之前我們就假想了有這樣的數(shù)據(jù)要怎么樣做。我們當時就知道,再換一個很大的數(shù)據(jù)會怎樣,像今天運用到的一些例子的確證明了我們原來的想法。
謝宇:有時候,很多學(xué)者和民眾會抱有一種幻想,覺得什么新東西的到來就可以改變一切。當然這與人們在中國見證的經(jīng)歷相符,比如經(jīng)濟上的改革開放之后市場就變得繁榮,智能手機的出現(xiàn)改變了很多生活方式等等。而學(xué)術(shù)實際上并不是這樣,并不是說有新的技術(shù)、新的數(shù)據(jù),就可以去改變它的所有方面,這些技術(shù)和數(shù)據(jù)當然會有很大幫助,但并不能完全改變一切。因為根本的問題還不能解決,這需要我們的學(xué)者有很好的訓(xùn)練,寫出好的文章。這些訓(xùn)練、文章來自于對理論的把握、對文獻、對人的觀察等各方面最基本的訓(xùn)練,這些都是不會改變的。
把科學(xué)作為一種思維和生活方式來提倡
謝宇:我覺得我們應(yīng)該承擔這個責任。我參與了《賽先生》公眾號的創(chuàng)立,后來又做了《知識分子》。我有很多朋友是自然科學(xué)家,所以我先講講自然科學(xué)。我認為中國的自然科學(xué)發(fā)展非常快也非常好,特別當你在北大清華,可以看到中國自然科學(xué)真的走上了國際水平。如今中國有謝曉亮、施一公、饒毅等優(yōu)秀的學(xué)者歸來,而且他們幾個人不單單是回國,他們也改變了學(xué)術(shù)生態(tài)。自然科學(xué)的生態(tài),就是一個高標準的生態(tài),是國際化的生態(tài)。中國的自然科學(xué)家當中有很多人已經(jīng)對世界性的科學(xué)、前沿領(lǐng)域作出了很大的貢獻。
所以中國的自然科學(xué)現(xiàn)在已經(jīng)非常好了,當自然科學(xué)的學(xué)術(shù)發(fā)展好了以后,就會對科普提出更高要求。因為要科普前沿的東西實際上是很難的,中國以前沒有很多很好的科學(xué)家,民眾需求也沒那么高,一些記者、學(xué)生就自己做科普,這是可以有的,在過去他們可能已經(jīng)做了很多,但到了介紹最前沿的科學(xué)的時候,就需要真正的科學(xué)家。因此,有一些科學(xué)家直接參與科普和與大眾接觸,我覺得是自然而然的事情。
謝宇:我覺得科學(xué)家參與科普是很好的事情。為什么呢?在這里,我的想法就更廣了。中國現(xiàn)在有很多方面實際上都在突飛猛進,進步非常大。比如現(xiàn)在中國電商的很多技術(shù)、營銷手段和行為已經(jīng)超過美國。又比如中國中小學(xué)教育也做得非常好,除了給學(xué)生的壓力太大,但至少教育質(zhì)量還是過得去的,甚至本科教育也不錯。
中國的很多行業(yè),實際上也都已經(jīng)走到了世界比較前沿的地方。但是到底是第一第二第三,這其實不重要,我個人比較反對動不動就講中國是第一、中國什么了不起的說法,這其實不是很健康的情緒。
但中國現(xiàn)在也存在很多問題,除了不平等還有很多其他問題。我認為中國許多社會問題的核心實際上都可以歸結(jié)為沒有一個共同話語體系的問題,實際上就是個理念的問題。所以呢,我覺得我們提倡科學(xué),就是希望給大家一個新的選擇。通過科學(xué),我們可以培養(yǎng)自己的興趣,提高自己對自然的理解,可以尊重事實、尊重科學(xué)規(guī)律,形成一種客觀的、而不是主觀的,國際化的、而不是狹隘的民族主義的取向。在科學(xué)的事實上,在科學(xué)文明的影響下,我們會對科學(xué)本身肅然起敬。在中國,有很多現(xiàn)象,比如說迷信、不禮貌、不文明,實際上就是因為缺乏這種敬畏。
科學(xué)是很偉大的,當偉大的科學(xué)家做出來偉大的研究,你就不能不佩服他們。所以在我看來,強調(diào)客觀事實、講客觀性、尊重科學(xué)性和國際化,在當代中國,都應(yīng)該作為一種生活方式和思維方式來進行提倡。那些看起來比較敏感的話題,往往就是因為沒有一個統(tǒng)一的話語體系能夠把不同的人聯(lián)系起來,所以才會擔心誤解、擔心謠言被輕信??茖W(xué)的話語是得到國家和政府支持的,至少我至今從未碰到一個干部,說科學(xué)不重要,他們都說重要,都是支持的,因為它也是經(jīng)濟基礎(chǔ)之一。
科學(xué)能影響到經(jīng)濟,實際上對做人的方式也能夠有所影響。我為什么覺得科學(xué)家重要呢?作為公眾人物,科學(xué)家可以發(fā)揮正能量的作用。在中國需要一些能夠產(chǎn)生這種正能量的公眾人物,讓他們發(fā)些聲音,給大眾特別是年輕人帶來正面的想法,而不是像有些“網(wǎng)紅”靠庸俗題材出名。我覺得科學(xué)家應(yīng)該可以站出來,以科學(xué)家的形象,提倡科學(xué)地考慮問題和科學(xué)的生活方式,這對年輕人乃至整個社會都會有幫助。
謝宇:中國如今從比較閉塞的農(nóng)業(yè)社會走向了一個比較開放的現(xiàn)代化社會,大眾對知識的需求迅速增加。中國文化本身就有推崇教育、推崇知識的傳統(tǒng)。但是由于這個轉(zhuǎn)型過程太快,個體處于不同的環(huán)境、來自不同的背景,獲得信息的渠道也有限。在這種情況下,價值觀和情緒的社會分化比較嚴重。就是這種情緒分化對知識的需求和傳播造成了很多不確定性。
比如,轉(zhuǎn)基因的事情在美國也有爭論,但不像中國這樣發(fā)展到極端的地步。所謂極端,就是覺得我一定對,也不聽別人的,而且很情緒化。這對社會實際上不太好,因為社會是有分工的,社會現(xiàn)象需要研究,需要理性探討。這個社會還是缺乏優(yōu)良的知識傳播生態(tài)。我覺得對社會現(xiàn)象的討論也應(yīng)該有一個生態(tài):這個生態(tài)里面有對應(yīng)領(lǐng)域的專家,有其他領(lǐng)域的專家,有關(guān)心相應(yīng)議題的社會/公益人士,有退休老干部,有政府的職責執(zhí)行部門,有志愿者,有贊助商家等等。但不同的人都要理性地參與。
我覺得中國的教育還是有一定缺陷。大眾很容易情緒化,很容易不信任別人,喜歡小道消息,喜歡和朋友飯桌上討論。中國大眾其實一方面很饑餓,他們很想知道事實,想?yún)⑴c,一方面沒有很好的信息。有很多記者發(fā)布的東西并不準確,造成了很多人的憤怒和情緒。所以這就是為什么科學(xué)家能夠并且非常需要參與到這個生態(tài)里。
對生活中的社會現(xiàn)象來說,如生育的問題、養(yǎng)老的問題,需要有更多嚴謹?shù)难芯?,有更多更好的?shù)據(jù)來支持,也應(yīng)該有更多的人參與討論。這并不是說一個學(xué)者做了一個報告,或者在著名雜志發(fā)表了就一定是對的。政府也應(yīng)該了解民眾需要什么,應(yīng)該多支持社會科學(xué)研究有不同的聲音。如果是嚴謹?shù)摹⒑玫挠懻?,民眾就不會有那么多怨言,因為你是有證據(jù)的、是理性的。
假如說(政府)支持了比較好的、比較嚴謹?shù)膶W(xué)術(shù)研究,民眾就會尊重,就會懷有一種敬意。往理性的方向去討論,能夠說客觀的話,就不容易情緒化。而現(xiàn)在我覺得社會環(huán)境還是不太重視社會科學(xué),認為它不重要。而缺乏支持就不能有很好的研究,不能好好研究,就只能簡化成幾句很簡單浮躁的口號。
謝宇:互聯(lián)網(wǎng)的產(chǎn)生,實際上為中國的社會科學(xué)家提供了很多良機。除了對學(xué)術(shù)研究和合作的幫助之外,還有就是使學(xué)者跟大眾能夠有很好的互動,這在以前是沒有的,現(xiàn)在一個微信(文章)可能有500萬人讀過,通過這樣的方式,很多人都開始知道以前都沒法知道的?;ヂ?lián)網(wǎng)的產(chǎn)生同時加速了信息的傳播。因為網(wǎng)上的信息很容易廣為傳播,不是靠報紙編輯控制的。所以我們的學(xué)術(shù)成果也是可以很快被許多人接觸到的。
從這一點來講,自然科學(xué)家和社會科學(xué)家都肩負著相當?shù)纳鐣熑?,因為他們的參與有可能改變這個生態(tài),可以改變民眾的想法和思維,幫助他們理解很多事情。我們做好了以后,實際上是可以給很多人很好的支持的,比如社會參與和社會創(chuàng)業(yè)都是需要知識的。
我覺得,這個社會中的很多問題,有社會學(xué)家的參與會幫助國家更好地應(yīng)對,不能只靠刪貼和保持網(wǎng)上輿論基調(diào)就能解決問題。大家的素質(zhì)提高了,他們獲得的信息透明了、通暢了,整個生態(tài)也就會變好了。
跨學(xué)科視野下的人口學(xué)研究
謝宇:我2000年在JASA (Journal ofthe American Statistical Association) 上發(fā)表了一篇文章“Demography: Past, Present, and Future”,是對人口學(xué)的一個回顧和展望?,F(xiàn)在18年過去了,我覺得這篇文章的意義還在。我當時提出了“小”人口和“大”人口的概念。“小”人口(就是formal demography)重點關(guān)注生育、死亡、遷移,更多地考慮人口結(jié)構(gòu)的變量,如年齡和性別,卻較少考慮社會的整體結(jié)構(gòu)。 “大”人口的概念即 population research /studies,提出這個概念是由于人口和很多社會現(xiàn)象有關(guān)聯(lián),人口學(xué)和社會學(xué)、人類學(xué)、生物學(xué)、心理學(xué)、經(jīng)濟學(xué)等都有很緊密的聯(lián)系。所以我一直主張把人口學(xué)看作是跨學(xué)科的,這樣它就很豐富,否則它就可能會有些單調(diào)。
人口學(xué)應(yīng)該用理論來探討更深的社會議題,做更深入的研究,所以跨學(xué)科我覺得是最好的方案。我認為這個“大”人口學(xué)的概念就是人口學(xué)和其他不同學(xué)科的交集。這個交集點非常重要,為什么呢?因為任何量化研究,幾乎都離不開人口學(xué)。人是有異質(zhì)性的,當你考慮一個總體的時候,你就要考慮其中的異質(zhì)性問題,就要考慮人口最基本的結(jié)構(gòu),比如說地區(qū)、年齡、性別、教育、婚姻狀況等等。從這個意義上講,只要是做量化研究的人,政治學(xué)也好、社會學(xué)也好、經(jīng)濟學(xué)也好,研究只要跟個體的人有關(guān),就離開不了人口學(xué),就一定要把人口學(xué)作為一個基礎(chǔ)。
在這個情況下,人口學(xué)怎么發(fā)展呢?我覺得多推廣“大”人口很重要,比如研究養(yǎng)老、結(jié)婚、離婚、同居等等。在我們做同居方面的研究之前,中國沒有同居方面的數(shù)據(jù),也沒有這個議題。我們CFPS(China Family Panel Studies,中國家庭追蹤調(diào)查)在2008年就開始就設(shè)計同居相關(guān)的問題,如今顯示同居在中國也已經(jīng)成為一種重要的社會現(xiàn)象和生活方式,我覺得這是我們需要去關(guān)心的。
我們每年在國內(nèi)有一個社會學(xué)和人口學(xué)領(lǐng)域的量化方法研究年會,實際上量化的社會學(xué)和人口學(xué)研究是一回事。所以當很多人問我,你到底是社會學(xué)家還是人口學(xué)家,我就經(jīng)常講我既不是人口學(xué)家,又不是社會學(xué)家,我就是謝宇。所以,沒必要把每個學(xué)者擺進一個盒子里,好像你就只能屬于這個“盒子”,不能屬于那個“盒子”了。我覺得做學(xué)者是沒有“盒子”的,它是個人的愛好、自己的興趣和工作。所以,不一定非要區(qū)分到底是社會學(xué)家還是人口學(xué)家。我覺得學(xué)者之間不要因為你是這個專業(yè)、不是那個專業(yè),而制造太多界限。在學(xué)術(shù)上不交流,對學(xué)術(shù)的發(fā)展是很不利的。
對于你的問題,“大” 人口學(xué)的方向、議題很多。比如不平等、社會地位這一套議題非常重要,也是我們?nèi)丝趯W(xué)應(yīng)該關(guān)心的。這些問題不簡單是數(shù)量上的問題,還是一個社會分布、資源分配的問題,也就是說在不平等的大框架下面很多議題可以做。此外,即便是研究生育,除了關(guān)心生多生少,還應(yīng)該關(guān)心孩子將來的發(fā)展,關(guān)心他/她的健康、智力發(fā)展、心理發(fā)展、教育和就業(yè)等等這一系列議題,也可以關(guān)注他/她的生命軌跡 (life course) 的變化,關(guān)注他/她一生經(jīng)歷了什么事情。
另一個比較重要的議題,也是我現(xiàn)在比較關(guān)注的,是家庭。我覺得改革開放以后、城市化以后、不平等產(chǎn)生以后,尤其是大城市房價高了以后,中國的家庭發(fā)生了很多變化。以結(jié)婚為例,從建國以后到改革開放中期,基本上絕大多數(shù)人都會結(jié)婚,是universalmarriage(普婚)。而如今,很多人晚婚,或者想結(jié)婚卻結(jié)不了婚。而結(jié)婚對于社會穩(wěn)定很重要,對個人的身心滿足、事業(yè)與追求,都有幫助。但假如個人希望結(jié)婚卻結(jié)不了婚,就說明供需不匹配,供需不匹配就反映了很多問題。
擇偶困難可能有出生性別比失衡造成的男多女少方面的原因,這是數(shù)量問題,但一個人的社會地位或者接受的教育水平高卻找不到合適的對象,這卻是匹配的問題。而在當前的中國背景下,經(jīng)濟實力是婚姻匹配中的重要因素,比如房價上漲,大家對消費又有很多的要求,于是婚姻市場中的不平等也增加。
在這個情況下,我覺得婚姻是家庭研究領(lǐng)域的一個重要話題。而且結(jié)婚以后還有很多問題可以研究,比如婚姻的穩(wěn)定性、家庭幸福感、生育行為、生育意愿、代際流動的影響等,都是非常重要的問題。與婚姻行為有關(guān)的問題及背后反映的社會地位、社會流動、家庭關(guān)系機制等都值得關(guān)注。
再一個重要的問題是養(yǎng)老。老齡化并不只是講贍養(yǎng)問題,而是要考慮到老齡生活的各個方面,包括老年人的經(jīng)濟情況、健康狀況、和子女的來往,還有可能喪偶、離婚,也可能再重新組織家庭或者同居,以后可能會發(fā)現(xiàn)老年人同居也是個常見的現(xiàn)象,因為財產(chǎn)原因和子女反對(老年人再婚)。所以我們以后也要研究老年人同居,社會發(fā)展了以后,它既有固定的基礎(chǔ),又有文化的改變,還有來自現(xiàn)實的壓力,社會變化中會有很多現(xiàn)象是需要我們研究的。
我覺得還可以多研究少數(shù)民族的問題,同樣從家庭的角度。少數(shù)民族不僅生育率不一樣,實際上他們的婚姻、經(jīng)濟、子女養(yǎng)育、養(yǎng)老也可能有很大的不同,而且這些方面都可能正在發(fā)生變化,這些問題都值得我們研究。
此外,還有主觀幸福感的問題。我覺得社會上很多人會感到不滿足。這種不滿足,有可能是主觀的,比如他們想要什么,他們的主觀認可是什么。當我們想知道他想要什么,才能知道怎樣讓他們滿足。
還有一個議題也與主觀幸福感有關(guān),可能實際上已經(jīng)有學(xué)者開始做了,就是基因和環(huán)境對人的影響,我覺得這個議題也是蠻重要的,這也是跟大數(shù)據(jù)有關(guān)系的,基因數(shù)據(jù)的量也是很龐大的。以后基因和人口行為的關(guān)系也是個研究方向。上面我講的議題是從主題上看,要從方法論和數(shù)據(jù)上看,有更多的問題。
謝宇:是,不僅是和量化的社會學(xué),我覺得和一些其他學(xué)科,比如勞動經(jīng)濟學(xué)也是融合的。舉個最簡單的例子,比如說婦女的勞動力市場回報,就是勞動力市場的性別不平等,這是個很經(jīng)典的經(jīng)濟學(xué)問題、社會學(xué)問題、也是人口學(xué)問題。因為它牽涉面很廣,它可能牽涉到婦女的教育,可能牽扯到婦女的婚姻情況,涉及到她的家務(wù)、她的生育、以及其他方方面面。所以研究這個問題,就不要分社會學(xué)和人口學(xué),實際上各方面的知識都需要有,可能還涉及心理學(xué),所以這是很復(fù)雜的問題。
社會學(xué)和人口學(xué)兩者的共性是:首先都需要有數(shù)據(jù)來說話,要有證據(jù),即evidence-based,這是基礎(chǔ)。其次,手段都是通過數(shù)據(jù)和統(tǒng)計分析,這意味著使用的是同一套標準,比如什么叫causal influence(因果推斷),什么是significance(顯著性),這是通用的。average(均值)和medium(中位數(shù))大家都能理解,只是使用者偏好不一樣。第三,兩個學(xué)科都關(guān)心同樣的問題,所以實際上理論也是可以通用的。不同理論視角能夠給你不同的啟發(fā),據(jù)此你希望提出一個假設(shè),這個假設(shè)是對社會現(xiàn)象、社會行為的理解,這個假設(shè)和理解也是通用的。所以,你要做的就提出這個理解和假設(shè)并給予證明,但是怎么來證明就要用到數(shù)據(jù),兩個學(xué)科都是用同一種研究范式,實際上不同的社會科學(xué)只要是量化取向的就和人口學(xué)是一致的。
謝宇,社會學(xué)家,美國國家科學(xué)院院士、美國藝術(shù)與科學(xué)院院士和臺灣“中央研究院”院士,美國普林斯頓大學(xué)社會學(xué)和國際研究BertG.Kerstetter '66大學(xué)教授、當代中國中心主任,北京大學(xué)千人計劃講座教授、社會研究中心主任,微信公號《知識分子》主編之一。
謝宇教授的主要研究領(lǐng)域包括社會分層、統(tǒng)計方法、人口學(xué)、科學(xué)社會學(xué)和中國研究,代表性學(xué)術(shù)專著有《回歸分析》、《社會學(xué)方法與定量研究》、《分類數(shù)據(jù)分析的統(tǒng)計方法》、《科學(xué)界的女性》、《婚姻與同居》、《美國的科學(xué)在衰退嗎?》等。近些年,他致力于在中國推廣實證的社會學(xué)研究。
更多精彩文章:
凱西·奧尼爾:盲目信仰大數(shù)據(jù)的時代必須結(jié)束 | 算法密碼
制版編輯 | 皮皮魚



▼▼▼點擊“閱讀原文”,直達知識分子書店。