我知道“綁架者”是你 | 罪案遺蹤
圖片來(lái)自telemundo.com
這是“罪案遺蹤”系列的第1篇文章,也是《知識(shí)分子》科學(xué)新聞實(shí)驗(yàn)室的第1篇文章。
前言:
那是1983年,那名八歲的女孩正待在她最喜歡的地方:書(shū)店。女孩沒(méi)有太多錢(qián),但是她把生日和節(jié)日里收到的紅包都存了起來(lái),剛剛夠買一本書(shū)。
她的爸爸告訴她五分鐘后在書(shū)店的前面碰面,然后就放她自由活動(dòng),看她自己想看的書(shū)。書(shū)店里的燈光讓事物看起來(lái)要么太閃亮,要么有點(diǎn)褪色。不能說(shuō)這完全是個(gè)好地方,但有了那些燈光和人群,這里至少來(lái)說(shuō)是一個(gè)可以讓她安全獨(dú)處的地方。
她正在讀一本畫(huà)書(shū),講的是一只橙白相間的小貓的歷險(xiǎn)故事,就在這個(gè)時(shí)候,一只男人的手從她腦后伸過(guò)來(lái),捂住她的嘴。她能夠感到他的身體離她很近,就在她后面。她能夠聽(tīng)到身體上方傳來(lái)的粗重呼吸聲。
“你跟我來(lái),小女孩?!蹦腥说吐曊f(shuō)道。但是……他的聲音……聽(tīng)起來(lái)有點(diǎn)熟悉……
罪案每天都在發(fā)生,每處都在發(fā)生,是的,也許某一天你也會(huì)身陷其中。也許你認(rèn)識(shí)的某個(gè)人會(huì)偷竊你的東西,或是詐騙你。一個(gè)被拋棄的情人可能勒索你;一名政客可能許諾你一門(mén)好生意來(lái)交換你的一次非法徇私行為。這很誘人,不是嗎?你的兩名員工可能合謀從你的公司竊取錢(qián)財(cái)。(罪案對(duì)他們來(lái)說(shuō)也是很誘人的。)與此同時(shí),你的女兒可能從書(shū)店里被誘拐。
正像科學(xué)幫助我們揭示宇宙的奧秘那樣,它也幫我們理解更多世俗的謎題。畢竟,有些時(shí)候那些更世俗的謎題對(duì)我們的日常生活來(lái)講要重要得多。盡管了解宇宙的年齡在科學(xué)上是存在價(jià)值的,但你可能更愿意選擇找出殺害你妹妹的兇手,以便正義得以伸張。法國(guó)人埃德蒙?羅卡(1877-1966)曾說(shuō),“每一次接觸,都會(huì)留下蹤跡”,很多人把他當(dāng)作“現(xiàn)代法醫(yī)學(xué)之父”。
這一組六篇文章,想要探索這些蹤跡是什么,科學(xué)家如何分析它們,法庭如何使用(有時(shí)是誤用)它們,以及法醫(yī)學(xué)的科學(xué)方法和技術(shù)正在發(fā)生的改變。計(jì)劃中的一些話題對(duì)于羅卡來(lái)說(shuō)可能是熟悉的,但其他一些,比如我們的第一個(gè)話題“司法語(yǔ)言學(xué)”,則不在此列。
撰文 | 格蕾絲(《知識(shí)分子》科學(xué)新聞實(shí)驗(yàn)室特邀作者)
● ● ●
我知道“綁架者”是你
“司法語(yǔ)言學(xué)”這個(gè)術(shù)語(yǔ)在1968年之前是不存在的。司法語(yǔ)言學(xué)有多個(gè)不同的側(cè)面,包括商標(biāo)糾紛、聲音比對(duì)與分析、作者鑒定,以及演說(shuō)分析。盡管不是每個(gè)人都同意,但許多學(xué)者還將法律語(yǔ)言的研究以及法律文本的翻譯當(dāng)作司法語(yǔ)言學(xué)的問(wèn)題。
實(shí)際上,領(lǐng)域中的一些人認(rèn)為司法語(yǔ)音比對(duì)也不屬于司法語(yǔ)言學(xué)的一部分。
“基本上,我所處理的是講話中的聲學(xué)特點(diǎn),而司法語(yǔ)言學(xué)一般更多關(guān)注語(yǔ)言的意義或內(nèi)容。”杰弗里·斯圖爾特·莫里森博士解釋說(shuō)。他是一名獨(dú)立法醫(yī)顧問(wèn),專注于聲音比對(duì)分析以及法醫(yī)學(xué)中的統(tǒng)計(jì)建模。
通常的情境是這個(gè)樣子的:某人被指控犯有某項(xiàng)罪名并被捕,警方錄了一段此人講話的錄音。往往,這是一段警察問(wèn)訊的錄音。在尋找證據(jù)的過(guò)程中,一段跟該案有關(guān)的錄音被發(fā)現(xiàn)。它常常是一段兩人或多人的電話錄音,但也有可能是其他任何內(nèi)容。錄音中一個(gè)未知的聲音聽(tīng)起來(lái)像是嫌疑人的聲音,但是嫌疑人聲稱錄音中的聲音并不是他的。這兩段錄音——已知的和未知的——必須經(jīng)比對(duì)來(lái)斷定未知的說(shuō)話者與被捕者是否為同一人。
在他/她進(jìn)行聲音分析的時(shí)候,科學(xué)家究竟是在做什么呢?嗯,這取決于你向誰(shuí)發(fā)問(wèn)。不同國(guó)家不同執(zhí)法部門(mén)使用不同的識(shí)別方法。但是首先……我們應(yīng)該談一談錄音質(zhì)量的問(wèn)題。
“如果你說(shuō)了些話,我把你的話錄下來(lái),隨后,我立即嘗試錄下你以完全相同的方式說(shuō)完全相同的話,然后我對(duì)比兩段錄音,我們幾乎必然地會(huì)發(fā)現(xiàn)一些可察覺(jué)的不同?!蹦锷忉屨f(shuō),“也許警察的問(wèn)訊發(fā)生在一個(gè)墻壁堅(jiān)硬的小房間里,那錄音里就有回音。也許空調(diào)開(kāi)著,那錄音里就有額外的雜音。還可能發(fā)生其他一些事情,比如某人把文件存為了MP3格式的。MP3格式的文件之所以能相對(duì)較小,是因?yàn)樗鼈儗?shí)際上丟掉了某些信息?!笔謾C(jī)和其他電子設(shè)備常常也會(huì)刪除某些數(shù)據(jù)信息,因?yàn)楦俚臄?shù)據(jù)意味著更快的速度。所有這些因素都會(huì)造成不匹配。不是說(shuō)已知和未知聲音的完全不匹配,而是說(shuō)錄音質(zhì)量的不匹配。
所以,一定不存在“百分之百匹配”的兩段不同的錄音,即便它們都出于同一個(gè)說(shuō)話者之口。即不存在絕對(duì)的確定性。
鑒別出未知說(shuō)話者的聲音與已知說(shuō)話者有多大的相似性當(dāng)然是重要的。但同等重要的是,鑒定未知說(shuō)話者的聲音相較于擁有相似背景的人——比如相關(guān)人群——的聲音而言,具有多大的典型性。
然而還有一個(gè)地方有可能出錯(cuò)。想象一下,警方拿到了一段錄音,其中一名未知的說(shuō)話者生活在北京,但他的普通話中帶有福建口音。警方找到并拘留了某個(gè)住在北京且說(shuō)話操福建口音的人。他們將問(wèn)訊錄了下來(lái)?,F(xiàn)在,一名司法聲音分析師對(duì)兩段錄音進(jìn)行比對(duì)。即使兩段錄音中的說(shuō)話者是不同的人,他們?nèi)匀皇窍嗨频?,因?yàn)樗麄兌忌钤诒本┎в懈=谝簟?/p>
在不清楚就相關(guān)人群而言這些計(jì)量具有多大典型性的情況下,分析師并不能真正確定相似性具有多大意義。
那么,專家使用什么樣的聲音樣本數(shù)據(jù)庫(kù)來(lái)鑒定未知說(shuō)話者聲音的典型性呢?相關(guān)人群又是什么?數(shù)據(jù)庫(kù)應(yīng)該包含具有相同性別、相似年齡、居住在北京,并且說(shuō)普通話時(shí)帶有福建口音的人。如果專家使用的數(shù)據(jù)庫(kù)包含了全國(guó)各地的說(shuō)話者,那么這將使鑒別結(jié)果向著“說(shuō)話者為同一人”發(fā)生偏斜。
“專家可能會(huì)得到一個(gè)較大的可能性比率值,但這可能并不相干?!蹦锷f(shuō),“回答了什么問(wèn)題?如果你不知道問(wèn)題是什么,那你就不會(huì)真正理解答案。反之,如果相關(guān)樣本人群擁有相同的口音,你得到的數(shù)值會(huì)小一點(diǎn),但它回答了一個(gè)更加相關(guān)的問(wèn)題。”
國(guó)際刑警組織在2016年對(duì)世界范圍內(nèi)100家執(zhí)法部門(mén)所做的調(diào)查顯示,有六種不同的常用方法被用于說(shuō)話者鑒定:聽(tīng)覺(jué)、聲譜、聽(tīng)覺(jué)聲學(xué)語(yǔ)音學(xué)、聲學(xué)語(yǔ)音統(tǒng)計(jì)、人為監(jiān)督式自動(dòng),以及全自動(dòng)。大部分當(dāng)前使用的方法都依賴于某種程度的人工分析,這就容易讓錯(cuò)誤和偏見(jiàn)趁虛而入。所有回應(yīng)調(diào)查的執(zhí)法部門(mén)中,只有少于半數(shù)擁有用于分析錄音的實(shí)驗(yàn)室。在他們中,少于一半擁有錄音數(shù)據(jù)庫(kù)。在這些擁有數(shù)據(jù)庫(kù)的部門(mén)中,又有少于一半擁有人群樣本錄音數(shù)據(jù)庫(kù)。
莫里森認(rèn)為司法語(yǔ)音比對(duì)領(lǐng)域正在發(fā)展出更加可靠的分析方法,但變化是緩慢的。
“那么……我們?cè)诳吹筋I(lǐng)域內(nèi)的進(jìn)展嗎?”
“Yes?!?/p>
“我會(huì)很快看到最終結(jié)果嗎?”
“No?!?/p>
與此同時(shí),美國(guó)杜肯大學(xué)計(jì)算機(jī)科學(xué)教授帕特里克·尤奧拉正在采用與莫里森類似的統(tǒng)計(jì)方法來(lái)分析書(shū)面文檔的內(nèi)容,而非錄音的聲學(xué)特性。他在文本分析、安全、法醫(yī)學(xué)和文體測(cè)定學(xué)方面是一位國(guó)際知名專家。
“對(duì)于文體測(cè)定學(xué),大概有兩個(gè)常見(jiàn)的大誤會(huì)。第一個(gè)是,人們根本不知道這件事是可以做到的。”尤奧拉說(shuō),“但第二個(gè)是,一旦人們知道你可以做到,他們會(huì)對(duì)你所能達(dá)到的準(zhǔn)確程度產(chǎn)生不切實(shí)際的想法?!?/p>
第二個(gè)誤解與一種叫做“CSI效應(yīng)”(Crime Scene Investigation,犯罪現(xiàn)場(chǎng)調(diào)查。這里是我加的,原文沒(méi)有對(duì)縮寫(xiě)詞的解釋,不知道要不要加。)的現(xiàn)象有關(guān)。這得感謝以一部同名電視劇為代表的科學(xué)探案類電視劇集在美國(guó)的流行。所有這類電視劇都有一個(gè)共同點(diǎn):在45分鐘的節(jié)目結(jié)束之前,法醫(yī)專家總是能快速得到結(jié)果,并且得到百分之百的匹配以抓住壞人。
“總體來(lái)說(shuō),法醫(yī)學(xué)沒(méi)有那么強(qiáng)大?!庇葕W拉說(shuō)道。你無(wú)法達(dá)到這種難以置信的確定性,而且你可能沒(méi)法在廣告時(shí)間之后就那么快地得到結(jié)果。這對(duì)很多律師來(lái)說(shuō)是個(gè)真正的問(wèn)題。在沒(méi)有DNA證據(jù)或者因?yàn)檎鎸?shí)的法醫(yī)工作無(wú)法發(fā)現(xiàn)令人驚訝的高比率結(jié)果的時(shí)候,陪審團(tuán)成員會(huì)出于缺乏證據(jù)的考慮而拒絕宣告有罪。
一些研究顯示CSI效應(yīng)是真實(shí)存在的,而另一些研究則暗示它并不存在。莫里森更加關(guān)心的是相反的問(wèn)題?!昂芏嗳藢?duì)數(shù)學(xué)表現(xiàn)出恐懼。所以,簡(jiǎn)單的答案是:‘是的,就是他。相信我,我是專家。’然后陪審團(tuán)成員想說(shuō)‘好的,我們相信你?!瘜徖聿还褪沁@么出現(xiàn)的?!?/p>
并非所有的文體測(cè)定都是用于罪案的。2013年,尤奧拉發(fā)現(xiàn)自己和自己的工作處在了國(guó)際聚光燈下。當(dāng)時(shí),他開(kāi)發(fā)的文本分析軟件檢測(cè)到一個(gè)名叫羅伯特·加爾布雷斯(Robert Galbraith)的新晉且沒(méi)有名氣的作家的處女作,與著名的哈利·波特系列的作者J·K·羅琳的作品具有顯著相似性。那款名叫JGAAP(The Java Graphical Authorship Attribution Program。這里英文也是我加的,原文只有后邊的中文解釋,不知道是否恰當(dāng)。Java圖形作者資格歸屬)的軟件所分析的特點(diǎn)中包括了某些常見(jiàn)功能詞(指“的”或“這”這樣的詞)、單詞長(zhǎng)度分布,以及重復(fù)出現(xiàn)的單詞組合。
在尤奧拉的發(fā)現(xiàn)被公開(kāi)之后,羅琳確認(rèn)了那些流言是真實(shí)的。她真的使用了羅伯特·加爾布雷斯這個(gè)筆名。
文體測(cè)定分析也被用于一些中文名著。上學(xué)的時(shí)候你是不是學(xué)到《紅樓夢(mèng)》的后40章并非曹雪芹所著?但是有人跟你解釋過(guò)這個(gè)結(jié)論是怎么得到的嗎?
曹雪芹在小說(shuō)出版之前就去世了,所以對(duì)小說(shuō)結(jié)尾的爭(zhēng)論自它1791年面世以來(lái)就出現(xiàn)了。
小說(shuō)最早的出版人是高鶚和程偉元。在第一版的前言中,程偉元聲稱他根據(jù)曹雪芹創(chuàng)作的手稿“抄成全部”。但是,“抄成全部”的意思是程偉元和高鶚僅僅編輯了曹雪芹所寫(xiě)的后40章的粗稿嗎?或者,“抄成全部”意味著程偉元實(shí)際上親自寫(xiě)了這些章節(jié)?
過(guò)去三十年里司法語(yǔ)言學(xué)的發(fā)展幾乎總能從對(duì)這部小說(shuō)的分析中找到蹤跡??雌饋?lái),一有新的分析方法出現(xiàn),學(xué)者們就會(huì)嘗試用它來(lái)回答《紅樓夢(mèng)》結(jié)尾作者身份的問(wèn)題。在1980年代,學(xué)者們采用人工積分的方式研究了小說(shuō)的語(yǔ)言學(xué)風(fēng)格,對(duì)比了前80回和后40回中的功能詞、短語(yǔ)和篇名。也是在1980年代,還有學(xué)者對(duì)小說(shuō)的詞匯進(jìn)行了(非計(jì)算機(jī)的)統(tǒng)計(jì)分析。然而,這些早期的分析工作中所缺少的,是基于數(shù)學(xué)算法所進(jìn)行的計(jì)算機(jī)分析。
2014年,也就是帕特里克·尤奧拉和同事發(fā)現(xiàn)了羅伯特·加爾布雷斯的真實(shí)身份的后一年,數(shù)學(xué)家胡顯峰(音)、王洋(音)和吳強(qiáng)(音)發(fā)表了一份基于算法的對(duì)《紅樓夢(mèng)》的新分析結(jié)果,測(cè)試了他們稱之為“慢性分裂”的小說(shuō)風(fēng)格。他們的發(fā)現(xiàn)確認(rèn)了早先的分析結(jié)果:“前80回和后40回系兩個(gè)不同的作者所寫(xiě)”。他們的研究看起來(lái)只是再次確證了人們的常識(shí),但他們也發(fā)現(xiàn)了一點(diǎn)新的東西:他們的分析還顯示第67回也并非曹雪芹的寫(xiě)作風(fēng)格。
盡管對(duì)于當(dāng)代作家韓寒第一部小說(shuō)的作者身份的爭(zhēng)議已經(jīng)平息,也仍然有可能用類似于分析《紅樓夢(mèng)》的方法來(lái)對(duì)存疑的作者身份進(jìn)行分析。
與聲音比對(duì)的工作一樣,這種分析可能并不像一些人想象的那樣簡(jiǎn)單。僅僅把韓寒的第一部小說(shuō)《三重門(mén)》與其父親的小說(shuō)做對(duì)比是并不充分的。甚至于,分析中僅僅把韓寒和其父當(dāng)作兩名已知的作者來(lái)分析,也是不夠的。理想狀態(tài)下,分析需要包含多個(gè)已知作者的作品以及多個(gè)存疑的作品。就像尤奧拉在他的白皮書(shū)《測(cè)量風(fēng)格:文件分析與司法文體測(cè)定》中所言:“如果你只有來(lái)自一名無(wú)爭(zhēng)議作者的作品樣本,那么這名作者看起來(lái)跟任何人都很接近。因此,必須有一批足夠多的所謂干擾項(xiàng)作者,這些作者要么是其他一些說(shuō)得過(guò)去的嫌疑人,要么至少是跟實(shí)際的嫌疑人足夠相似——他們的作品能夠支撐有用的和有意義的檢測(cè)?!?/p>
文檔的質(zhì)量也必須足夠高,因?yàn)榫拖衤曇舯葘?duì)那樣,錯(cuò)誤匹配的情況是會(huì)發(fā)生的。所以,如果你要分析《三重門(mén)》的作者身份,那么作為對(duì)比你就需要韓寒的另一部小說(shuō)——不是博客文章、個(gè)人信件等。你還需要把其他已知作者的小說(shuō)拿來(lái)做對(duì)比。
但是,你如何證明韓寒寫(xiě)了你拿來(lái)當(dāng)作已知文檔的那部小說(shuō)?你能做到的最佳結(jié)果可能是:1號(hào)作品跟2號(hào)作品最為相似。但如果你不能夠確定第二部小說(shuō)的作者身份,那么你能說(shuō)的也只是“它們最為相似”。你仍然不能夠確定誰(shuí)寫(xiě)了它們。
噢,那名在書(shū)店里被綁架的八歲女孩?還記得她嗎?
她確實(shí)跟著那個(gè)男人走了。
我知道,是因?yàn)槲揖褪悄莻€(gè)女孩。
在被手捂住嘴之后,我一動(dòng)不動(dòng)地站在那里???,我認(rèn)識(shí)那個(gè)聲音。那個(gè)男人的手一從我的嘴上拿開(kāi),我就說(shuō):“爸爸,我知道是你?!?/p>
他把我轉(zhuǎn)過(guò)去面向他?!叭绻腥私壖苣?,你應(yīng)該叫喊?!彼庳?zé)我說(shuō),“你為什么不叫呢?你為什么不掙扎呢?”
“我說(shuō)了,我知道是你?!蔽矣种貜?fù)了一遍。
“你怎么會(huì)知道是我呢?”他問(wèn)道。
他以前就做過(guò)這種事。每一次,他都會(huì)質(zhì)疑我的反應(yīng),總是告訴我說(shuō),他是訓(xùn)練我應(yīng)對(duì)真實(shí)的綁架事件。他希望我喊叫和掙扎,而我的消極響應(yīng)總是令他失望。
“你每次都是以完全相同的方式說(shuō)完全相同的話。”我說(shuō)。這在法庭上當(dāng)然是不可采信的,但這就是事實(shí)。在那之后,我去書(shū)店的時(shí)候會(huì)背對(duì)墻角站立,這樣就不會(huì)有人溜到我的身后了。
制版編輯:陳婧嫻丨