數(shù)據(jù)告訴你,論文引文里有多少性別偏見

pixabay.com
近年來,隨著性別平等意識(shí)提升和性別不平等相關(guān)研究增多,科學(xué)界的性別不平衡問題日漸凸顯。不僅從事科學(xué)研究的女性比例持續(xù)偏低,這種性別不平等還仿佛章魚的觸手,從薪酬,基金,合作功勞,教學(xué)評(píng)估到雇傭,晉升,遍及學(xué)術(shù)領(lǐng)域的方方面面 [1]。
2020年6月19日,《自然神經(jīng)科學(xué)》(Nature Neuroscience)雜志上發(fā)表的一項(xiàng)研究分析了6萬多篇神經(jīng)科學(xué)類論文,發(fā)現(xiàn)其引用的參考文獻(xiàn)的作者性別,比通過數(shù)據(jù)庫預(yù)測(cè)出來的引文作者性別比例包含更多的男性作者文章。更重要的是,他們發(fā)現(xiàn)這種不平衡主要是由男性的引用習(xí)慣導(dǎo)致的,并且隨著時(shí)間的推移,這種不平衡現(xiàn)象仍在加劇 [2]。
這項(xiàng)研究指出,在多個(gè)領(lǐng)域,尤其是天文學(xué) [3],國際關(guān)系 [4] 和政治科學(xué) [5] 中,均有研究發(fā)現(xiàn)由女性主導(dǎo)的研究被嚴(yán)重低估。學(xué)者羅西特(M. W. Rossiter)曾提出,科學(xué)界存在 “瑪?shù)贍栠_(dá)效應(yīng)”(Matilda Effect),即女性所做研究的重要性經(jīng)常被忽視,而男性的貢獻(xiàn)被認(rèn)為是更重要的,人們更愿意給予男性更高的評(píng)價(jià)。那么在已經(jīng)發(fā)表的文章中,這種影響的存在可能會(huì)產(chǎn)生引文和聲譽(yù)上的不平等。
在某些情況下,引用者知道他們引文的作者性別,這時(shí)偏見是顯性的。但多數(shù)情況下,他們并不知情,僅僅憑借推斷猜測(cè)引文的作者性別,偏見則是隱性的。無論是已知或推斷性別,在引用文章時(shí),偏見都有可能在其中起作用。
這項(xiàng)研究從引文數(shù)據(jù)統(tǒng)計(jì)網(wǎng)站科學(xué)網(wǎng)(Web of Science,WoS)數(shù)據(jù)庫中,提取了自1995至2018年,發(fā)表在《自然神經(jīng)科學(xué)》,《神經(jīng)》,《大腦》,《神經(jīng)科學(xué)雜志》,《神經(jīng)成像》五種頂級(jí)神經(jīng)科學(xué)期刊上共61,416篇綜述或會(huì)議文章,用于統(tǒng)計(jì)分析。
研究者假設(shè)文章引文作者姓名對(duì)應(yīng)的性別是未知的,通過兩個(gè)公開的姓名性別相關(guān)概率數(shù)據(jù)庫—社會(huì)保障署(SSA)嬰兒名字?jǐn)?shù)據(jù)集和包含約80萬個(gè)名字的付費(fèi)數(shù)據(jù)庫 Gender API,給文章作者分配性別。當(dāng)作者的名字被識(shí)別為女性/男性的可能性≥0.70,就會(huì)給引文作者定義為女性/男性。
通過這種方法,研究者有效地捕獲了引用行為中的性別偏見,并且進(jìn)行了量化。
01
女性發(fā)文已有 “半邊天”
首先,研究者統(tǒng)計(jì)分析了男性和女性發(fā)文章的比例,發(fā)現(xiàn)男性主導(dǎo)的文章和女性主導(dǎo)的文章在數(shù)量上已經(jīng)趨于平衡。
所有樣本中,從1995年到2018年,以女性為第一作者(是這項(xiàng)科研成果的主要貢獻(xiàn)者)或最后一位作者(通常為通訊作者,即這項(xiàng)成果的責(zé)任者和受益人)的文章所占比例以每年約0.60%的速度增長。每種期刊上增長速度有所不同,總體上,這五種期刊中,以女性作為第一作者或最后一位作者的文章占所有文章的總比例從1995年的36%增加到2018年的50%(圖1)。

(文章比例顯示,其中男性為第一作者和最后作者(紫色),女性為第一作者,男性為最后作者(綠色),男性為第一作者,女性為最后作者(灰色),女性為第一作者和最后一位作者(橙色)。MM,男性為第一作者和最后作者;WM,女性為第一作者,男性最后作者;MW,男性為第一作者,女性最后作者;WW,女性為第一作者,女性最后作者。)
02
相對(duì)于總體性別比例,引文性別比例失衡
既然男性和女性發(fā)文章總量不相上下,那么這些文章中的引文作者性別比例是怎樣的呢?研究者發(fā)現(xiàn)相對(duì)于總體作者比例,引文的性別比例嚴(yán)重失衡,引用男性為主導(dǎo)的文章遠(yuǎn)遠(yuǎn)多于女性為主導(dǎo)的文章。
具體來說,研究者量化了神經(jīng)科學(xué)文章中的引用行為,專門研究了2009-2018年間發(fā)表的31,418篇論文中的303,886條引文。隨后,他們計(jì)算了四個(gè)類別被引用論文的數(shù)量,即第一作者和最后作者,分別為男男,女男,男女,女女,并將每個(gè)類別中的引文數(shù)量,與假設(shè)從論文庫中隨機(jī)抽取參考文獻(xiàn),所期望的引文數(shù)量進(jìn)行比較。在這30多萬條引文中,不同性別作者引文較預(yù)期的比例如下:

圖2 在隨機(jī)抽取模型下,將引文不同性別群體作者的百分比與其預(yù)期比例進(jìn)行比較,過度引用和不足引用的百分比(圖源,參考文獻(xiàn)[2])
03
考慮文章的相關(guān)特征后,引用仍失衡
接下來,研究者考慮了論文的相關(guān)特征后,發(fā)現(xiàn)以男性為主導(dǎo)的文章仍然被過度引用,以女性為主導(dǎo)的文章引用量過低。
上述將引文與總體作者比例進(jìn)行比較時(shí),并未考慮已發(fā)表論文的其他屬性,這可能會(huì)導(dǎo)致文章或多或少地被后來的學(xué)者引用。比如五年以內(nèi)發(fā)表的文章,由于其研究結(jié)果較新穎,所以更有可能被引用。由于存在文章特征的潛在關(guān)系干擾,性別與引文率之間的聯(lián)系就很難判定。
為了解決這個(gè)問題,研究者將性別和文章特征之間的可能存在的關(guān)系納入分析,選擇了與引用行為可能相關(guān)的五個(gè)文章特征:發(fā)表年份;發(fā)表的期刊;作者數(shù)量;文章性質(zhì)(研究性文章還是綜述);第一作者和最后作者的論文發(fā)表總數(shù)。研究者建立了一個(gè)包含以上五個(gè)特征的數(shù)學(xué)模型,當(dāng)給每篇文章套用這個(gè)模型時(shí),就會(huì)得出這篇文章是屬于男男,女男,男女,女女類別的一組的預(yù)期概率。接下來,將觀察到的引文率,與預(yù)期引文率進(jìn)行比較。在2009-2018年間的303,886次引用中,各分析指標(biāo)如下:

圖3 相關(guān)特征模型下,將引文中的性別比例與與在各個(gè)領(lǐng)域引用的相似的文章的性別比例進(jìn)行比較。與預(yù)期比例相比,顯示了對(duì)不同性別群體作者的過度和不足引用。(圖源,參考文獻(xiàn)[2])
04
失衡背后:男性更愛引用男性文章
那么這種巨大的引文失衡是由什么導(dǎo)致的?研究者提出假設(shè):男性在引用文章時(shí),更傾向于引用男性的文章。
為了驗(yàn)證假設(shè),研究者將文章分為兩組,即以男性為第一作者和最后作者的文章(又稱為MM,即男男),和以女性作為第一作者或最后作者的文章(以下簡稱為W∪W, 包含女男,男女和女女的文章),比較這兩組引用文章的類型。
在2009-2018年間,五種期刊上發(fā)表的31,418篇文章中,大約51%為MM,49%為W∪W。兩組引用文章較預(yù)期的比例如下表:
圖3 MM和W∪W引文列表中不同性別作者的過度引用和不足引用的程度。與以女性為第一作者或最后一位作者的論文相比,以男性為第一作者和最后一位作者的論文對(duì)男性的引用程度更高(圖源,參考文獻(xiàn)[2])
MM和W∪W兩組,引用參考文獻(xiàn)顯示出非常大的差異。MM組更加傾向于引用以男性為主導(dǎo)的文章,而在W∪W組中,對(duì)女性主導(dǎo)文章的引用增加,這顯然離不開女性在引用行為中的領(lǐng)導(dǎo)角色。這說明參考文獻(xiàn)中的性別不平衡現(xiàn)象,主要是由男性作者的引用慣例所致。
05
引文性別失衡正在加劇
除了總體的引用行為外,隨著領(lǐng)域的日益多樣化,研究者通過量化,發(fā)現(xiàn)女性主導(dǎo)文章的引文將隨著時(shí)間的推移減少。也就說,如果不施加任何干預(yù)措施,這種引文的性別失衡將會(huì)加劇。
通過計(jì)算和比較以男性為主導(dǎo)的文章作者引文比例與預(yù)期比例之間的年絕對(duì)差異,研究者發(fā)現(xiàn)觀察到的引文比例與預(yù)期比例之間,差異正在以每年0.41%的速度增長。在按作者的性別劃分時(shí),發(fā)現(xiàn)以男性為主導(dǎo)的文章的參考文獻(xiàn)的過度引用程度,一直比女性為主導(dǎo)的文章增長更快。

圖2 引用和被引作者的性別引用率的時(shí)間趨勢(shì)(圖源,參考文獻(xiàn)[2])
在以男性為主導(dǎo)的文章作者的引文中,觀察到的引用男性作者的文章比例,每年正以約0.15%的速度略有增加。而以女性為主導(dǎo)的文章作者的引文中,這一比例有微弱下降,每年以-0.08%的速度變化。盡管女性學(xué)者們引用男性工作的比例相對(duì)穩(wěn)定,但缺乏改變導(dǎo)致引文中的性別比例越來越無法代表多元化的領(lǐng)域。
06
社交網(wǎng)絡(luò)與引用行為之間的關(guān)系
在2019年發(fā)表的一項(xiàng)研究中,報(bào)道了研究人員更傾向于與同性別的研究人員一起工作 [6]。由于感知和親和力偏見,可能導(dǎo)致了男性過度引用男性,而女性輕微過度引用女性的論文。但是研究者發(fā)現(xiàn)在考慮了作者社交網(wǎng)絡(luò)結(jié)構(gòu)之后,引文性別比例的失衡仍然存在。
研究者量化了文章作者與其共同作者社交網(wǎng)絡(luò)的性別失衡。共同作者網(wǎng)絡(luò)中的男性人數(shù),男性人數(shù)更多,這一特征在以男性的主導(dǎo)工作中尤為明顯。這種社交網(wǎng)絡(luò)中的性別差異,與引文行為中性別差異相似。因此研究者建模,并進(jìn)行回歸分析,確定了作者的社交網(wǎng)絡(luò)導(dǎo)致了男性論文的過度引用。
但是值得注意的是,排除了作者社交網(wǎng)絡(luò)性別的影響后,男性作者對(duì)男性文章的過度引用約有三分之二仍然存在,而女性領(lǐng)導(dǎo)的團(tuán)隊(duì)更傾向于成比例的引用。

圖3 排除社交網(wǎng)絡(luò)結(jié)構(gòu)影響后,男性作者對(duì)男男文章的過度引用(圖源,參考文獻(xiàn)[2])
07
推動(dòng)性別平等,消除偏見,任重而道遠(yuǎn)
綜上所述,這項(xiàng)研究為我們提供了神經(jīng)科學(xué)引文中存在性別不平等的證據(jù)。也就是說,男性不太可能引用女性的工作,這可能源于男性對(duì)女性的自覺或無意識(shí)偏見,導(dǎo)致他們對(duì)女性主導(dǎo)工作的更多負(fù)面評(píng)價(jià)。
通常,性別不平等由系統(tǒng)偏見和個(gè)人偏見所致。系統(tǒng)性偏見是指在團(tuán)體中起作用的歧視性價(jià)值觀,做法和機(jī)制。在個(gè)人層面上的偏見,既可是顯而易見的,如對(duì)特定群體有意識(shí)持有的或表達(dá)的偏見,也可以是隱性的,如潛意識(shí)中存在的歧視態(tài)度,導(dǎo)致的偏見性言語和社會(huì)行為。比如我們?cè)诮榻B科研工作者的時(shí)候,總是會(huì)刻意強(qiáng)調(diào) “女科學(xué)家”,“女教授”,“女博士”,但很少有人這樣介紹一位男性的身份,從某種程度講,已經(jīng)顯示出對(duì)名字的隱性偏見 [7]。
神經(jīng)科學(xué)領(lǐng)域面臨的結(jié)構(gòu)性社會(huì)不平等,例如明顯的性別失衡,在其他科學(xué)學(xué)科也存在。雖然說解決失衡問題通常取決于當(dāng)權(quán)者(如期刊編輯,基金評(píng)審人和機(jī)構(gòu),部門主席和科學(xué)協(xié)會(huì)主席),但許多失衡都是由研究人員造成的,并且是長久存在的。
盡管引文這一衡量標(biāo)準(zhǔn)不完全代表科研成果的價(jià)值,但它們可能會(huì)影響同行對(duì)研究背后學(xué)者的重視程度,進(jìn)而影響演講邀請(qǐng),基金,獎(jiǎng)勵(lì),任期,晉升,列入教學(xué)大綱和教學(xué)評(píng)估等一系列的活動(dòng)。這篇文章所展示的引文失衡,只露出了科學(xué)界不平等的冰山一角,推動(dòng)性別平等,消除偏見或歧視,依然任重而道遠(yuǎn)。
制版編輯 | 盧卡斯