頂尖學術期刊的同行評審存在問題?一篇《自然》論文引發(fā)爭議
來源:http://www.jamesyang.com/
編譯 | 施佳鑫(《知識分子》特約撰稿人、香港科技大學碩士研究生)
責編 | 陳曉雪
● ● ●
同行評議是主流國際學術期刊決定一篇文章是否錄用的重要制度,除了期刊編輯外,同一領域的匿名評審人對來稿扮演著“把關人”的角色。正是這項制度的存在,才保證了期刊論文的質(zhì)量,然而,這項制度也并不是完美無缺。
最近,《自然》(Nature)雜志發(fā)表的一篇關于人類壽命極限的論文迅速吸引到媒體和學界的關注,BBC和《紐約時報》均對該論文做了報道。論文的研究方法也隨之遭到多方質(zhì)疑,甚至有同行認為《自然》這樣的頂級刊物不應該發(fā)表這一研究。荷蘭《新鹿特丹商報》(Nieuwe Rotterdamsche Courant)首先揭開了該文審稿過程的曲折,并引發(fā)學界關于期刊同行評議的討論。
假設與數(shù)據(jù)相符可能只是巧合?
去年10月,美國阿爾伯特愛因斯坦醫(yī)學院(Albert Einstein College of Medicine)的遺傳學家Jan Vijg和其團隊的博士后董瀟、博士生Brandon Milholland在《自然》發(fā)表了題為“人類壽命極限的證據(jù)”(Evidence for a Limit to Human Lifespan)的研究,宣稱世界上最長壽命自1995年起就不再增長了,“人類的壽命的極限大約是114.9歲”。 實際上,最長壽命紀錄的保持者是1997年去世的法國女子Jeanne Calment,她活了122歲。文章指出,從統(tǒng)計學上來說,人類活到122歲的概率幾乎可以忽略不計。
這一研究主要基于兩個全球長壽老人數(shù)據(jù)庫,運用統(tǒng)計分析來說明世界最長壽命在1995年出現(xiàn)轉(zhuǎn)折點。研究人員發(fā)現(xiàn),自20世紀中至1995年,世界最長壽命持續(xù)上升,而1995年后出現(xiàn)了下降趨勢。
下面的兩張圖是文章的核心部分,展現(xiàn)了這一趨勢。圖1出現(xiàn)在正文,圖2用了另一數(shù)據(jù)庫,作為材料補充出現(xiàn)在附錄。
?圖1
?圖2
值得注意的是,Vijg先假定有以上趨勢,再用統(tǒng)計方法擬合出以1995年為分界點的兩條潛在的“趨勢線”。
荷蘭烏得勒支大學(Universiteit Utrecht)的方法學與統(tǒng)計學教授Peter van der Heijden就文章數(shù)據(jù)提出質(zhì)疑:“分析數(shù)據(jù)前,先要有非常可靠的理論背景。當只是用你的數(shù)據(jù)來推測存在這樣一個轉(zhuǎn)折點,你所發(fā)現(xiàn)的很有可能只是巧合?!彼赋?,文章研究中1995年后的下降趨勢僅僅是基于122歲的Calment和另外11個長壽老人的壽命得到的,樣本量非常有限。
統(tǒng)計學上用顯著性水平來判斷根據(jù)樣本模擬出的趨勢在多大程度上接近真實情況,一般認為95%的顯著性水平是可以接受的,實際上,根據(jù)Vijg等人的論文,第二段趨勢線并沒有達到95%的顯著水平(P=0.27,P值越小,表明結(jié)果越顯著),意味著真實的最長壽命隨著年份的變化不一定是下降,它也可能是上升或者不變。
在《新鹿特丹商報》的采訪中,Vijg回應說,“你不需要用統(tǒng)計學來說明你用眼睛就能看出的東西”,他認為,人類最長壽命以1995年為轉(zhuǎn)折點、先升后降的趨勢很明顯。
而《新鹿特丹商報》的制圖員利用GRG數(shù)據(jù)重新制作了圖表,不同的是,他去掉了論文中的兩條斜線,把所有點換成同一個顏色,并且未將數(shù)值近似,這樣得到的圖就很難看出先升后降的趨勢了。
除了一些非正式的批評,荷蘭跨學科人口研究所(Netherlands Interdisciplinary Demographic Institute)的博士候選人Ilya Kashnitsky在經(jīng)同行審查的在線論文發(fā)表平臺Publons上發(fā)表文章批評Vijg等人的研究。
他就數(shù)據(jù)選取、異常值處理和對不同國家、不同世代的壽命差異的忽視等方面提出了質(zhì)疑。例如,Vijg等人只使用數(shù)據(jù)庫中法、日、英、美等國的數(shù)據(jù),他們的理由是“這幾個國家是長壽老人最多的國家”,而Kashnitsky認為這么選取數(shù)據(jù)缺乏足夠的理由。另外,Kashnitsky認為分析數(shù)據(jù)時應去除異常值,因為是否保留異常值對結(jié)果的影響很大,而Vijg等人認為丟掉異常值意味著丟掉40%的數(shù)據(jù),因此保留了異常值。
關于統(tǒng)計結(jié)果的批評,在《新鹿特丹商報》的報道中,Vijg反駁說:“我們的統(tǒng)計系認為這么做沒問題,而且兩個評審人本身也是人口學家,他們應該知道對不對,是吧?”Vijg的這番話也反映了許多人對“同行評審”的觀點,那就是,能夠通過同行審查的學術文章想必是沒有什么問題。
最初被拒
“這么頂尖的雜志發(fā)表這一研究,令人沮喪?!痹凇缎侣固氐ど虉蟆返膱蟮乐?,聯(lián)合國人口部門主任John Wilmoth說。
有同行評審人參與的“把關機制”是主流國際學術期刊決定一篇文章是否錄用的重要制度。把關人由期刊編輯和同行評審人構(gòu)成,同行評審人是同一領域的專家,他們被邀請來評估來稿是否有資格發(fā)表。像《自然》這樣的頂尖期刊往往要拒絕許多文章,而最后通過同行評議的文章一經(jīng)發(fā)表,常常成為學術界和社會的熱門話題。
在《新鹿特丹商報》接下來的調(diào)查中,關于這一論文評審的過程被重構(gòu)出來,而學術期刊“把關機制”中的一些問題也浮出水面:同行評審應該審哪些內(nèi)容?把關人是否做到了認真、嚴格、獨立的評審?
Vijg等人的文章起初是遭到《自然》拒絕的。
在收到Vijg等人的文章后,在《自然》雜志有著21年工作經(jīng)歷的編輯Marie-Therese Heemels做了一個重要決定:送審文章。
根據(jù)《新鹿特丹商報》的調(diào)查,有三位匿名評審人獨立評審這篇文章,其中兩位是法國國家健康與醫(yī)學研究院(Institut national de la santé et de la recherche médicale,INSERM)的人口學家Jean-Marie Robine和伊利諾伊大學芝加哥分校(University of Illinois at Chicago)的流行病學家Jay Olshansky,還有一位審稿人的信息未能得到。
2016年4月14日,Jean-Marie Robine第一次收到這篇文章的審稿邀請時,他看到了方法部分的缺陷:當時初稿只用了美國的數(shù)據(jù),卻把結(jié)論推廣到全人類。他建議Vijg等人用全球的人類死亡數(shù)據(jù)庫(Human Mortality Database)。
而初稿的第二部分使用了年齡超過110歲的長壽老人的數(shù)據(jù),這是Robine的專長。自2002年起,Robine與合作者建立了包含每個國家壽命超過110歲的老人的“國際長壽老人數(shù)據(jù)”(International Database on Longevity,IDL)。Vijg等人初稿使用的是“老年學研究小組”(Gerontological Reserch Group,GRG)的數(shù)據(jù),而GRG記錄的是打破長壽記錄的的案例,與吉尼斯世界長壽記錄相同。
“建議《自然》拒稿”,Robine審稿的意見很負面。
Jay Olshansky的評審意見涉及較多方面,最主要的建議是關于生物學原理的,“我強調(diào)他們應該在文中加入這樣的話:人體內(nèi)并沒有控制衰老或者死亡的‘基因程序’,人體不存在這樣的‘生物鐘’?!?除了這些,他沒有其他重要的意見了?!拔铱赡芴岬竭^一些技術性的問題,但作為一個審稿人,我不會過多談及技術問題?!彼f。
“審稿人關注的重點并不是統(tǒng)計分析,而是一篇文章的整體觀點,那就是人類的壽命的增長不會永無止境。那才是重點!”在《新鹿特丹商報》的報道中,Olshansky解釋說。
在《自然》的審稿要求中,審稿人的最主要的職責并不是為研究方法部分把關。《自然》為審稿人列出了11條符合“理想的評審”的標準,其中無一條涉及統(tǒng)計或者研究方法,在11條以外的次要標準中,有一條關于方法部分,但僅在“時間允許的情況下”。在這11條中,有5條都關于新穎性和重要性,例如“這篇文章是否有可能成為本年度本學科最重要的五篇文章之一”。
Olshansky不記得他對第一稿的最后意見了,可能是拒稿,也可能是重新修改。
而Vijg告訴《新鹿特丹商報》,所有的審稿人對第一稿都給了“大量的批評意見”,其中有一位匿名評審人對分析方法的每一個部分都有批評,他認為那個評審人“非常不開心”。
《自然》編輯決定不予錄用這篇文章,投稿三周內(nèi)Vijg就收到了拒稿信。
“最初編輯說,我們不感興趣。但我們說,為什么不再看看呢?”文章的第二作者Milholland回憶道。
得到第二次機會
沒想到的是,去年五、六月份的時候,《自然》的編輯們又改變了想法,Vijg他們得到了第二次機會。
這一次他們熱切地向?qū)徃迦恕皩W習”如何進行人口學分析?!八麄兪职咽值馗嬖V我們?nèi)丝趯W分析錯在哪里,我們應該如何做?!盫ijg說。
Olshansky說,“編輯們給我多次來信,幾個作者也堅持不懈,他們努力去完善這篇文章?!?nbsp;
Robine向作者建議用IDL的數(shù)據(jù),后來被采納,GRG的數(shù)據(jù)分析結(jié)果在最終論文中只是作為補充。“IDL是一個基于總?cè)丝诘臄?shù)據(jù)庫,也就是說,它包含了一定時期某一特定人口中的所有長壽老人的案例。因此,我們可以無偏誤地得到在一定人口中,長壽老人的數(shù)量或該人口中所能達到的最長壽命隨著不同時期的變化”,Robine向《知識分子》解釋道。
“你可以說我們是非常好的學生”,Vijg說。Vijg雖然是文章的通訊作者,對文章負有最終的責任,但在他看來,幾個審稿人幾乎成了他的合作者。在《自然》雜志,文章的最后有這樣一行字:“《自然》感謝Robine和其他幾位匿名審稿人對此文的同行審查工作?!?/p>
在第一次收到審稿邀請后的三個月里,三位審稿人再次收到了Vijg等人修改后的文章,第二版文章使用了新的數(shù)據(jù),在文后的附錄中,還有200張基于人類死亡數(shù)據(jù)庫的圖表,分析了41個國家的死亡人口數(shù)據(jù)。
審稿人會看這些圖嗎?
“我不記得我是否看過那些圖了”,Robine說,“有其他的專家對這個更在行”。他第二次審稿時僅僅研究了新用的數(shù)據(jù)庫(IDL)。論文附錄中的每張圖如同兩歐元的硬幣大小,Robine覺得這些圖表“無聊、混亂和令人費解”。
Robine并不是唯一一個疏忽了圖表的,據(jù)《新鹿特丹商報》報道,Milholland記得第二次審稿時沒有一個審稿人提及41個國家死亡人口數(shù)據(jù)分析的細節(jié)。當被問及這是否讓他感到失望時,他表示不會,“當你的審稿人說這篇論文不錯,沒有人會因為審稿人沒過多談及細節(jié)而失望。文章發(fā)表,你知道,就夠好了?!笨傮w來說,審稿的過程會讓人有一點點失望,Milholland表示,“有的時候你覺得審稿人談論得很膚淺,你真的會想,你們讀論文了嗎?”
Robine的第二次審稿意見很簡短。他寫道,“……很難強烈地反對這篇文章”,因為“作者完全根據(jù)我之前的建議修改了”。
只有第三個審稿人堅持一審的意見,認為“這不是真的”,Vijg在接受《新鹿特丹商報》的采訪中說。
在Robine給編輯寫信給出積極的評價后6天,他從《自然》得到信息:Vijg的文章已經(jīng)被錄用,發(fā)表日期為2016年10月5日。在《自然》面向媒體的推薦中,這篇文章也出現(xiàn)了,還配有一整頁的正面評論,作者署名 Jay Olshansky。
評論中,Olshansky并沒有說明自己是該文的審稿人。審稿人發(fā)表評論性文章卻不說明自己的審稿人身份是否合適?《自然》出版經(jīng)理Rebecca Walton向《知識分子》表示,出于保密需要,他們無法對發(fā)表的學術或評論文章的審稿過程作出回應。
妥協(xié)的結(jié)果?
今年1月,《自然》向《知識分子》表示,他們所發(fā)表的文章都經(jīng)過了嚴苛的同行評議。
但回顧《新鹿特丹商報》調(diào)查所展示的審稿過程,荷蘭蒂爾堡大學(University of Tilburg)的研究方法學與同行評審專家Jelte Wicherts與原《英國醫(yī)學期刊》(British Medical Jpurnal)總編輯Richard Smith表示,審稿人的獨立性出現(xiàn)了“妥協(xié)”,審稿人對數(shù)據(jù)的批判性不夠。
比如,Jean-Marie Robine認為文章的數(shù)據(jù)分析并不足以支撐這個結(jié)論。不過,他又認為,審稿人不能因為不認同對結(jié)果的解讀就建議拒掉一篇文章。在《自然》的11條審稿標準中,還有一條 “文章的分析令人信服嗎?”顯然,Robine并沒有考慮到這一點。
去年11月在荷蘭的一個報告上,Robine提到了這篇論文,他表示很難預測人類壽命的極限,也不認為Jan Vijg論文中使用的是正確的方法。
而Olshansky在第二次審稿時認為圖表中新西蘭1960-1980年的曲線波動是數(shù)據(jù)有限的結(jié)果,但他并不認為這是什么問題。
只是,為什么《自然》會突然改變主意,給Vijg等人的文章第二次機會呢?
Smith猜測,可能是因為論文結(jié)論的“性感”。Wicherts認為,可能是因為編輯們意識到這一論文有“新聞價值和影響力”,“這也是他們的商業(yè)模式”。
與《自然》雜志一樣,世界上很多頂尖雜志都通過第三方的同行評審來決定錄用哪篇文章?!蹲匀弧返墓倬W(wǎng)感謝了2015年的32319位審稿人。據(jù)統(tǒng)計,92%的來稿被編輯或匿名審稿人拒絕了。就Vijg等人的文章,《自然》的編輯以及三位審稿人是否完成了嚴格、獨立的把關人的角色?據(jù)《新鹿特丹商報》,出版?zhèn)惱砦瘑T會(Committee on Publication Ethics,COPE,一個由約2萬名科學雜志編輯組成的機構(gòu))的副主席Chris Graf持否定觀點,他說,“我不認為《自然》會為發(fā)表這篇文章而開心,這件事反映了《自然》并沒有起到把關人的作用?!?/p>
今年1月,Vijg告訴《知識分子》,文章發(fā)表后收到的大部分反饋是“非常正面的”,他說,“(不僅僅是研究方法)也有許多批評是針對結(jié)論的,我們都盡可能答復那些批評。因為我們用的是公開的數(shù)據(jù),任何人都可以復制我們的研究。”
在Vijg看來,人類壽命是否有極限這樣一個具有爭議的話題,受到批評是難免的。他說:“如果我們沒有受到任何批評或者反對,我們反倒會不開心,因為那意味著我們的研究沒人關心。”
參考資料
1. Dong, X., Milholland, B., & Vijg, J. (2016). Evidence for a limit to human lifespan. Nature, 538(7624), 257-259.
2. Kashnitsky, I. (2016). A cohort is not representative of humanity. Publons.com.
3. Olshansky, S. J. (2016). Ageing: Measuring our narrow strip of life. Nature, 538(7624), 175-176.
4. Van Santen, H. (2016). Nature article is wrong about 115 year limit on human lifespan. Nrc.nl. https://www.nrc.nl/nieuws/2016/10/07/human-lifespan-limited-to-115-years-a1525476
5. Van Santen, H. (2016). Peer review post-mortem: how a flawed aging study was published in Nature. Nrc.nl. https://www.nrc.nl/nieuws/2016/12/09/how-weak-science-slipped-past-through-review-and-landed-in-a-top-journal-a1535637#photo=MjAwNDc
6. Van Santen, H. (2016). Statistical problems, but not enough to warrant a rejection. Nrc.nl.