經(jīng)不起推敲的哈佛研究:疫情嚴重,科研更需嚴謹
圖源:Mikhail Denishchenko
撰文 | 底騫 王雅琪
責編 | 陳曉雪
● ● ●
最近哈佛醫(yī)學院一項未經(jīng)同行評議的研究引起社會廣泛關(guān)注,該研究宣稱新冠肺炎疫情早在2019年8月就已經(jīng)在武漢開始傳播。
在研究方法上,這項研究使用了武漢多家醫(yī)院停車場的衛(wèi)星影像數(shù)據(jù),發(fā)現(xiàn)2019年夏秋季節(jié)醫(yī)院停車場的車輛明顯增加。同時,在百度搜索引擎上“咳嗽”和“腹瀉”關(guān)鍵詞的搜索量也出現(xiàn)增加;而咳嗽和腹瀉是新冠肺炎的重要癥狀。此外,這些關(guān)鍵詞搜索量的增加和衛(wèi)星影像上停車場車輛數(shù)目的增加時間上重合。于是,作者得出結(jié)論,判斷出新冠肺炎疫情開始傳播的時間為2019年8月。
從研究方法上講,通過遙感衛(wèi)星影像獲取信息,甚至判斷疾病發(fā)生的趨勢,是常見的方法。例如,研究人員曾用遙感衛(wèi)星數(shù)據(jù)獲取植被覆蓋的信息,結(jié)合當?shù)氐臐駶櫝潭?,綜合判斷出一個區(qū)域釘螺適宜的分布范圍,從而估計血吸蟲病發(fā)病的風險[1]。
筆者也曾使用衛(wèi)星遙感數(shù)據(jù),估計地表的空氣污染濃度,研究低濃度空氣污染對人群健康的危害[2]。這些研究,首先對遙感數(shù)據(jù)的使用有著嚴格的要求,而且一般需要地表的實測數(shù)據(jù)對模型進行訓練和糾正。更重要的是,研究人員需要是領(lǐng)域?qū)<?,對相關(guān)研究題目熟悉,了解使用遙感衛(wèi)星數(shù)據(jù)的局限和可能產(chǎn)生的偏差。
回到哈佛醫(yī)學院的這篇論文,停車場的數(shù)據(jù)是否能夠真實反映醫(yī)院就診人數(shù)的變化,醫(yī)院就診人數(shù)的變化是否能夠反映因為新冠肺炎疫情就診人數(shù)的變化?這兩個問題都要打大大的問號。另外,當?shù)蒯t(yī)院是否有地下停車場?遙感圖像采集時間是否一致從而車流量是可比較的?天氣是否會影響停車場車輛的數(shù)量?從遙感衛(wèi)星圖像估計新冠肺炎疫情屬于間接測量,中間依賴太多的邏輯假設。這些問題的回答,都會對這些邏輯假設是否成立產(chǎn)生影響,嚴重影響遙感衛(wèi)星圖像在該研究問題中的正確使用。不知道是疏忽大意還是有意為之,這些使用遙感圖像做間接測量的重要邏輯假設,都被作者們忽略或者浮光掠影一筆帶過。
通過搜索引擎中關(guān)鍵詞搜索量的變化,來估計甚至預測疾病發(fā)展的趨勢,是一種常見的研究方法。早在十年前,谷歌的研究人員就利用一系列關(guān)鍵詞搜索頻率的變化,預測全美國范圍內(nèi)流感暴發(fā)的趨勢,甚至能比疾控中心的數(shù)據(jù)更早地發(fā)現(xiàn)流感暴發(fā),相關(guān)的研究成果也被制作為“谷歌流感趨勢”放在網(wǎng)上供用戶免費使用[3]。使用類似的方法,人們還研究了登革熱發(fā)生的時空分布[4]。不僅是搜索引擎關(guān)鍵詞的數(shù)據(jù),推特等社交媒體上和疾病相關(guān)的關(guān)鍵詞數(shù)據(jù),也可以用于預測疾病的流行[5]。
但是,這種使用搜索引擎數(shù)據(jù)和社交媒體數(shù)據(jù)的方法,因存在嚴重缺陷而廣受詬病[6]:搜索引擎數(shù)據(jù)和社交媒體數(shù)據(jù),都不是臨床數(shù)據(jù)或者實驗室化驗數(shù)據(jù),會存在嚴重的局限。例如,一個人在搜索引擎中搜索“打噴嚏”可能因為他感染流感,也可能僅僅因為花粉過敏。更重要的是,感染流感的病人中有相當一部分不表現(xiàn)任何癥狀。
關(guān)鍵詞選取是否恰當?是否有實際數(shù)據(jù)進行訓練?這些方面的諸多缺陷決定了哈佛醫(yī)學院的這項研究,僅僅使用百度搜索引擎中極個別關(guān)鍵詞的數(shù)據(jù)來判斷武漢新冠肺炎疫情的暴發(fā)時間,存在方法上的嚴重缺陷。
另外,百度官方在6月10日的聲明中表示,武漢地區(qū)“咳嗽”的整體搜索量峰值與每年的流感季是吻合的,而“腹瀉”的搜索量與往年相比并沒有明顯變化。同時百度指數(shù)顯示,2019年12月左右 “腹瀉”搜索量還有輕微的下降。哈佛醫(yī)學院的論文數(shù)據(jù)和百度聲明的矛盾之處,還需要作者做出進一步的說明。
如果說哈佛醫(yī)學院所謂的相關(guān)研究讓人“吐槽無力”,一些看似嚴謹,但在統(tǒng)計學存在偏差,不仔細分析很難分辨出結(jié)論是否可靠的研究,在新冠肺炎疫情期間也吸引了不少的眼球。
新冠肺炎發(fā)展趨勢的影響因素是研究人員關(guān)注的熱點。人們很容易從流感在秋冬季節(jié)暴發(fā)這一日常經(jīng)驗中得到啟發(fā),猜想新冠肺炎疫情和氣溫、濕度等天氣變量之間存在的相關(guān)性。
關(guān)于新冠肺炎疫情和環(huán)境因素之間的研究大量涌現(xiàn):例如,新冠肺炎死亡病例數(shù)與空氣中的絕對濕度呈現(xiàn)負相關(guān)關(guān)系[7]。甚至空氣污染和新冠肺炎疫情之間也存在關(guān)聯(lián):研究人員利用美國大約3000個縣的數(shù)據(jù),發(fā)現(xiàn)新冠肺炎的死亡率與空氣中細顆粒物(PM2.5)的濃度顯著正相關(guān)[8]。在預印本網(wǎng)站MedRxiv上,可以找到許多類似的研究論文。
另有一些研究結(jié)果表明在強制接種卡介苗(一種預防肺結(jié)核的疫苗)的國家,新冠肺炎確診及死亡人數(shù)的上升速度較其他國家而言更為平緩[9],進而宣稱卡介苗在一定程度上可抑制病毒的傳播或減少其危害。
這些研究都是將環(huán)境因素和新冠肺炎疫情在城市、地區(qū)或者國家層面內(nèi)整合,研究疾病與變量之間的統(tǒng)計學關(guān)系。
簡單來講,研究人員統(tǒng)計每個地區(qū)(例如各個?。?/span>的新冠肺炎死亡病例數(shù)/確診數(shù),以及該地區(qū)的平均氣溫、濕度、空氣污染程度、卡介苗接種率等,然后將新冠肺炎死亡數(shù)/確診數(shù)和這些可能的影響因素之間做回歸分析,得出結(jié)論。
這種簡單直觀的統(tǒng)計方法,實際上存在著嚴重的統(tǒng)計學偏差,因為統(tǒng)計模型的結(jié)果依賴于我們?nèi)绾蝿澐謪^(qū)域。
我們以一個簡單的例子來說明(圖 1)。下圖中,假設每個黑點代表一個確診病例,白點代表非確診病例,圖a的小方框代表5個不同的地區(qū),可以發(fā)現(xiàn)確診病例只出現(xiàn)在0度的低溫區(qū)域。從個體數(shù)據(jù)出發(fā)可以發(fā)現(xiàn):氣溫越低,患病率越高,氣溫和患病率是負相關(guān)。

圖1:個體層面的疾病和溫度數(shù)據(jù)(圖a),按照不同的區(qū)域劃分進行匯總(左圖,b-d),并繪制出相應的溫度和疾病發(fā)生之間的關(guān)系。在按照不同的區(qū)域劃分方式匯總疾病和溫度的數(shù)據(jù)之后,兩者之間的關(guān)系可以是正相關(guān)、負相關(guān)或者無關(guān)(右圖, b-d)。
但在實際操作中,疫情統(tǒng)計報告中經(jīng)常將個體的數(shù)據(jù)匯總到市級別或者省級別,然后加以發(fā)布。我們將圖a中的個體層面的數(shù)據(jù)以三種不同的方式整合為2個大的區(qū)域(對應圖b-d),并計算每個大區(qū)域的患病率和平均溫度,用回歸模型考察患病率和平均溫度之間的關(guān)系。結(jié)果我們發(fā)現(xiàn),患病率與氣溫之間可以是正相關(guān)、負相關(guān)或無關(guān),完全依賴于如何劃分區(qū)域。
這樣一個簡單的例子向我們展示了不同的數(shù)據(jù)空間整合方式,會得出完全不同結(jié)論。類似地,在考察濕度、空氣污染、卡介苗接種率和新冠肺炎疫情之間關(guān)系的時候,也會面臨類似的統(tǒng)計學偏差。
我們可以用實際數(shù)據(jù)進一步證明,劃分區(qū)域的不同為何會影響新冠肺炎疫情和各種因素之間的統(tǒng)計學關(guān)系。我們通過使用湖北省新冠肺炎的死亡病例和當?shù)囟趸諝馕廴境潭鹊臄?shù)據(jù),考察了兩者之間的關(guān)系如何隨著區(qū)域邊界的劃分而變化。
我們發(fā)現(xiàn),隨著區(qū)域劃分方式的不同,二氧化氮污染程度和新冠肺炎疫情之間呈現(xiàn)不同的方向,可以是正相關(guān)也可以是負相關(guān)(圖 2)。也就是說,同一組湖北省的環(huán)境和疫情數(shù)據(jù),只是在空間上采取了不同的區(qū)域劃分,兩者的關(guān)聯(lián)卻可以呈現(xiàn)完全相反的結(jié)果。這種因為區(qū)域劃分不同可能產(chǎn)生的統(tǒng)計差異叫做可變面元問題(Modifiable Unit Areal Problem,MAUP)。

新冠肺炎疫情和環(huán)境因素、卡介苗接種率等變量之間的關(guān)系,需要采用更加嚴謹?shù)姆椒ㄟM一步研究,例如研究者們可以:(1)將流行病學分析建立在更精確的尺度上,比如在個人尺度上;(2)除統(tǒng)計學模型外,結(jié)合流行病學、生物學等實驗分析,使結(jié)果更具有說服力。
學術(shù)研究是嚴肅認真的,需要確保研究成果的嚴謹性;同時,學術(shù)研究也需要對當下熱點問題做出及時回應,確保研究的時效性。優(yōu)秀的研究多是針對重大的問題做出及時有力而且嚴謹客觀的回應。但是,學術(shù)研究嚴謹性和時效性在面對例如新冠肺炎疫情這種緊急事件的時候會存在矛盾:面對瞬息萬變的疫情和奔涌而來的新信息,研究人員很難在短時間內(nèi)對所有信息進行處理和有效回應,做出一項完全嚴謹?shù)难芯俊?/strong>
在面對諸如新冠肺炎疫情等緊急事件的時候,及時發(fā)表意見是我們科研工作者責無旁貸的使命,它可以幫助社會各界更好應對危機。但同時,我們作為科學工作者,應該對科研保持敬畏之心,確保所做的科研成果是嚴謹?shù)模?jīng)得起時間考驗的。一項不嚴謹?shù)目茖W研究,可能會對社會正常秩序帶來嚴重影響,一個典型的案例便是疫情蔓延初期的雙黃連哄搶事件,民眾連夜排隊將大小藥房的雙黃連搶購一空,最后不僅發(fā)現(xiàn)雙黃連并未用于肺炎的預防或治療,反而人群聚集使感染風險進一步提升。
筆者之一也曾在哈佛長期工作學習,敬佩于哈佛的崇高的學術(shù)聲譽和扎實的學術(shù)作風。此次哈佛醫(yī)學院的論文一經(jīng)媒體披露,作者也和其他哈佛研究人員一樣驚愕萬分。一個學術(shù)機構(gòu)的聲譽建立是長久的過程,科研工作者發(fā)表的不嚴謹科學研究會讓自己和所在機構(gòu)的學術(shù)聲譽蒙羞,帶來長期的影響。
科研工作者要能做出更多經(jīng)得起推敲的、證據(jù)充分的科研成果,避免大眾、政府采取不必要的防疫措施,或?qū)ο奶旄邷販p緩肺炎傳播抱有幻想,對防疫掉以輕心;也需避免我們的研究成果成為政治集團的工具,繼續(xù)分化這個已經(jīng)分崩離析的世界,阻礙全人類團結(jié)抗疫的努力。
注:本文的部分內(nèi)容,已經(jīng)在最新一期的《整體環(huán)境科學》(Science of the Total Environment)雜志上刊文發(fā)表[10]。
作者簡介
制版編輯 | 皮皮魚