哈佛本科招生被訴歧視亞裔,統(tǒng)計數(shù)據(jù)會撒謊嗎?
?夜晚的哈佛大學(xué)法學(xué)院。圖片:Chensiyuan,wikipedia.org,(CC-BY-SA)
撰文 | 曹起曈(羅德學(xué)者,斯坦福大學(xué)政治學(xué)學(xué)士、管理科學(xué)與工程碩士)
責編 | 蔣海宇
編者按:
一個人若是被哈佛這樣的頂尖大學(xué)錄取,等待ta的不僅是世界級的學(xué)術(shù)資源,還有豐富的社交資源和進入上層社會的機會。大學(xué)的教育質(zhì)量,以及大學(xué)教育的社會屬性,都意味著錄取過程的公平性極其重要。
2014前,美國保守派團體“學(xué)生公平錄取促進會”起訴哈佛大學(xué),控告其本科招生歧視亞裔。最近,哈佛大學(xué)被迫向原告披露的錄取數(shù)據(jù)再掀波瀾,這場已持續(xù)4年的訴訟重新進入公眾視野。《知識分子》和自媒體《選·美》團隊合作,詳細介紹這一事件。今天推出的第一篇文章,將討論目前披露數(shù)據(jù)帶來的爭議。本周我們將推出第二篇文章,著重介紹這場訴訟的背景和法理依據(jù)。
● ● ●
2014年,美國保守派團體“學(xué)生公平錄取促進會”(Students for Fair Admissions)起訴哈佛大學(xué),控告其本科招生歧視亞裔(“亞裔美國人”的簡稱)學(xué)生,違反了1964年《民權(quán)法案》的第VI條:聯(lián)邦財政援助的項目和活動,不得以種族為由歧視任何美國人。(2017年,哈佛獲得了超過六億美元的聯(lián)邦資金。)一旦法院認定哈佛對亞裔學(xué)生存在歧視,這一最負盛名的常春藤院校,聲譽很可能遭受極大的打擊。
2018年6月15日,媒體報道稱,哈佛向原告披露了2000至2019屆本科生的錄取數(shù)據(jù),原告方聘請的經(jīng)濟學(xué)家Peter Arcadiacono分析后提出,亞裔申請人整體的學(xué)術(shù)成績、考試分數(shù)和課外活動均高于其他族裔,但哈佛招辦對亞裔的個人素質(zhì)和綜合評分卻顯著低于其他族裔。即便不考慮計分上的問題,同等綜合得分的亞裔學(xué)生,錄取概率也顯著低于其他申請人。與此同時,哈佛被迫向原告提交的一份報告顯示,早在2013年,哈佛內(nèi)部就針對亞裔本科生申請的錄取情況進行了研究,得出的結(jié)論印證了原告專家的指控——與學(xué)術(shù)成績相同的其他族裔申請人相比,亞裔被哈佛錄取的可能性低出不少。
這項披露,使得原本于今年10月開庭的案件提前成為輿論焦點。一時間,不少聲音指責哈佛刻意隱瞞了早在2013年就知曉的事實,并在此后延續(xù)對亞裔的不公對待。哈佛則宣稱,2013年的內(nèi)部報告并不嚴密,結(jié)論也并非可靠,所以才一直沒有采取行動。與此同時,哈佛方面聘請的經(jīng)濟學(xué)家David Card也出具了一份報告,批評了原告專家的統(tǒng)計方法,認為亞裔并沒有遭受任何顯著歧視。
為何原告和被告聘請的專家針對同樣的數(shù)據(jù)得出了不同結(jié)論?這還要從美國大學(xué)招生的復(fù)雜性說起。
美國的大學(xué)錄取和中國不同,申請人除了參加SAT(或者其他類似大學(xué)入學(xué)考試)之外,還必須提交申請文書、教師推薦信以及高中期間的課外活動和獲獎經(jīng)歷。大多數(shù)申請人在錄取前還須經(jīng)過校友面試的檢驗。許多大學(xué)都公開表示采用整體性(holistic)錄取標準,在評估申請人時不單單重視學(xué)術(shù)表現(xiàn),同時還會考量申請人其他方面的個人情況,例如申請人的家庭社會經(jīng)濟條件。
原告和被告聘用的經(jīng)濟學(xué)家都采用了同樣的模型基準——邏輯回歸(logistic regression)。這一模型將哈佛披露的各項申請人信息作為自變量,將錄取與否作為因變量,通過擬合樣本數(shù)據(jù),估計每個自變量在錄取中所占的權(quán)重,以及這種估計可能產(chǎn)生的誤差。如果一個自變量的權(quán)重很大,而其標準誤差很小,通常就會認為這個自變量對于因變量的效應(yīng)是顯著的,而不是偶然誤差所導(dǎo)致的(也就是說,假使這個自變量其實毫無影響,那我們看到這么大效應(yīng)的概率就會非常小)。
原告聘用的經(jīng)濟學(xué)家在回歸模型中囊括了申請人的基本信息、哈佛招生官賦予的學(xué)術(shù)、課外活動、體育能力評分,以及校友面試官、高中教師和輔導(dǎo)員賦予的評分,以及其SAT考試成績和高中成績作為自變量。相較而言,被告聘用的經(jīng)濟學(xué)家在其模型中額外添加了不少新的自變量,例如申請人是否在國外長大、將來計劃從事何種職業(yè),以及申請人的高中學(xué)術(shù)質(zhì)量(學(xué)校平均SAT成績)等。該經(jīng)濟學(xué)家在論證這樣做的原因時說,原告的模型收錄的信息太少,因而模型擬合的效果差。在添加額外自變量之后,擬合模型的McFadden偽R方(McFadden Pseudo R-squared)從0.62提高到了0.65。
然而,這個論證并不能成立。首先,根據(jù)McFadden本人的說法,偽R方的值在0.2-0.4之間就已經(jīng)是出色的擬合(excellent fit)。更大的問題在于,偽R方只是一種衡量樣本內(nèi)擬合程度的標準,不能反映一個模型是否合理。偽R方極高的邏輯回歸模型,并不一定是有用的模型——如果我們給一個回歸模型添加很多完全無關(guān)的自變量,未經(jīng)調(diào)整的(不懲罰添加無關(guān)自變量的)偽R方依然會上升。如果用北京某天是否下雨來預(yù)測哈佛大學(xué)申請的結(jié)果,我們也可能無意間撞對幾次,從而使得偽R方上升。但這并不意味著把北京的天氣加入這個模型是有意義的。
其次,添加無關(guān)變量,讓我們高估真正有關(guān)變量的標準誤。通常情況下,想要發(fā)表論文的社會科學(xué)家會希望自己的模型得出顯著的估計結(jié)果,因而他們會想盡辦法,通過統(tǒng)計學(xué)手段,讓自己的估計變得更高效(efficient),降低估計效應(yīng)的誤差。但是如果一個經(jīng)濟學(xué)家想讓某個效應(yīng)看起來不顯著,則需要反其道而行之,添加各種無關(guān)緊要的自變量,讓模型變得很低效。一旦標準誤升高到一定程度,這個自變量的效應(yīng)也就不顯著了。
需要指出,哈佛聘用的經(jīng)濟學(xué)家的確在報告中敘述了加入每個自變量的“理論依據(jù)”。不過,對于某些無關(guān)緊要的自變量,想用非形式化的語言“闡釋”其可能導(dǎo)致的作用并不困難。例如該專家援引哈佛內(nèi)部的《招生案例》說明,招生官的確會著重考慮申請的潛在職業(yè)安排(大學(xué)申請中需要申請人標注將來希望從事何種職業(yè))。但是這在形式化理論(例如博弈論)中很難論證。
高三學(xué)生自己很可能都不甚清楚將來希望從事什么職業(yè),這個問題的信號價值非常低。何況如果學(xué)生可以推斷出對錄取有利的職業(yè)偏好,完全可以“撒謊”——所以招生官在絕大多數(shù)時候都沒有理由認為申請人填寫的潛在職業(yè)偏好是可信的。不過,正如被告專家自己在其報告中指出,職業(yè)偏好的填寫和族裔高度相關(guān)。所以在同時包含了兩者的模型中,代表職業(yè)偏好的自變量很可能“稀釋”部分原本反映族裔自變量影響的效力。
但即使被告專家論證不合理,也不能自動證明原告的論證就是對的。因為不論原告還是被告使用的模型,本質(zhì)上都只能用來預(yù)測,無法進行因果推斷——論證亞裔身份是導(dǎo)致申請人哈佛錄取率降低的因素。
因果推斷可以用潛在結(jié)果模型(potential outcome framework)表述如下:對于某個亞裔哈佛申請人而言,在一個平行宇宙中,有一個和他其他所有條件都完全相同,唯有種族不同的申請人。這兩個人同時申請哈佛本科,如果他們被錄取的概率有很大的顯著差異,我們就可以說,哈佛招辦的確在歧視亞裔申請人。顯然,因為并不存在這樣的一個平行宇宙,這兩個潛在結(jié)果之間,我們只能觀察到一個,所以直接比較并不能得出結(jié)果。
具體到這個例子而言,原告專家的模型中雖然包含了大學(xué)申請的多項指標,但也遺漏了一項非常重要的考量,即學(xué)生的申請文書。假設(shè)亞裔的申請文書普遍比較枯燥,那么同等分數(shù)條件下,亞裔不被錄取也就不能被歸結(jié)為哈佛的歧視了。當然,筆者個人不相信這樣的假設(shè),也無意為其辯解。但問題在于,現(xiàn)有的數(shù)據(jù)不足以讓我們有力地徹底拒絕這個假設(shè),因為哈佛只披露了在他們看來“可以量化”的指標,并沒有對原告公開申請文書、教師推薦信等文字資料。整個案件中,哈佛也一再宣稱,其錄取標準非常重視申請文書等“無法量化”的指標,因而原告(以及哈佛2013年的內(nèi)部調(diào)查)結(jié)論不足為信。
不過,錄取文書并不是不可量化的。近年來,社會科學(xué)家在因果推斷的方法領(lǐng)域取得了很大的進展,不少研究都關(guān)注了如何控制高維數(shù)據(jù)(例如文字、多媒體信息)的問題。在2017年的一篇論文中,斯坦福大學(xué)商學(xué)院博士生Thai T. Pham和Yuanyuan Shen就嘗試解決了一個非常類似的問題。他們研究了一個微小金融平臺,發(fā)展中國家的農(nóng)民可以在平臺上提交一段描述,發(fā)達國家的用戶則可根據(jù)這段描述和平臺上的其他申請人資料決定是否給予金錢援助。論文探究個人申請和集體申請對得到的援助數(shù)量有何影響。
這個情形與哈佛招生的案例幾乎如出一轍——招辦和發(fā)達國家的用戶一樣,都只能通過申請人提交的信息(包括文字信息)做出決定。兩位研究者通過深度學(xué)習(xí)的方法,將轉(zhuǎn)為向量后的文字納入了模型中,做出了可信的因果推斷。所以,如果哈佛真的公開了所有申請數(shù)據(jù),現(xiàn)有方法并非不可嚴謹衡量哈佛是否歧視亞裔申請人。但幾乎可以肯定,無論是出于保護申請人隱私,還是出于自身的利益考慮,哈佛都不可能向原告方披露學(xué)生的申請文章。
原告的專家試圖通過邊緣突破的方法解決這個問題。他發(fā)現(xiàn),亞裔申請人的校友面試官和高中老師評分,遠遠高于哈佛招辦給出的個人素質(zhì)評分。面試官和老師都親自接觸過申請人,而招生人員并沒有,只能從面試官和老師的報告中形成對申請人的印象。因而這一評分差距很有可能是歧視的結(jié)果。不過哈佛同樣可以宣稱,校友面試官和高中老師和招辦的評判標準不同,并不具有可比性。
綜上所述,由于缺乏主動權(quán),原告在這個案件中出于非常不利的地位?,F(xiàn)有證據(jù)并不能充分證明,哈佛的本科招生的確構(gòu)成了對亞裔的歧視。
此外,原告即便真的贏得了統(tǒng)計學(xué)的論證,也未必能贏得法院的判決。2000年的美國大選,共和黨參選人布什以極為微弱的差距戰(zhàn)勝民主黨參選人戈爾。事后,政治學(xué)家通過數(shù)據(jù)分析,極為有力地證明,佛羅里達州的選票設(shè)計導(dǎo)致超過兩千位戈爾的支持者錯投他人,但這樣的數(shù)據(jù)分析絲毫不可能影響選舉的最終結(jié)果,以及最高法院對于選舉有效性的認定。
統(tǒng)計學(xué)的邏輯和法律的邏輯,本質(zhì)上是不一樣的,更何況大學(xué)招生和背后的平權(quán)法案(Affirmative Action)涉及到美國社會種族關(guān)系、公民權(quán)利和平等保護的重中之重??梢耘袛?,統(tǒng)計數(shù)據(jù)幾乎肯定不會成為這個案件判決的核心因素。
本文為知識分子與選·美(iamelection)合作專題。選·美是一個旨在系統(tǒng)介紹美國政治、歷史、法律、社會、文化的自媒體,欄目供稿者大多為各專業(yè)領(lǐng)域的研究者。Wechat ID: iAmElection
制版編輯:黃玉瑩 |