別相信直覺(jué):概率論幫助偵破“財(cái)務(wù)造假” | 張?zhí)烊貙冢ㄈ?/h3>
2017/04/17
導(dǎo)讀
破解高達(dá)1億美元的投資詐騙案。

?概率論還能識(shí)別“財(cái)務(wù)造假”?
導(dǎo)語(yǔ)
:
上文介紹了幾個(gè)概率中的悖論,其中提到了一個(gè)與幾何概型有關(guān)的貝特朗悖論。概率論中的悖論很多,基于經(jīng)驗(yàn)的直覺(jué)判斷很多時(shí)候往往并不靠譜。今天這篇將介紹的本福特定律,也是一條初看起來(lái)有些奇怪、不合直覺(jué)的定律,不過(guò)這條定律用處卻很大,甚至還能幫助偵破“財(cái)務(wù)造假”。
撰文 | 張?zhí)烊?/strong>
責(zé)編 | 呂浩然
● ● ●
概率論專欄
2017-03-16 上帝教人擲骰子——“神童”帕斯卡與概率論
2017-03-31 似是而非的答案:概率論悖論
本福特定律
弗蘭克·本福特(Frank Benford, 1883–1948)本是一個(gè)美國(guó)電氣工程師,卻在中年時(shí)迷上了一個(gè)與概率有關(guān)的課題,課題得到的結(jié)論便是現(xiàn)在我們所說(shuō)的“本福特定律”。該定律大致意思是說(shuō),在眾多真實(shí)數(shù)據(jù)中,以“1”為首位數(shù)字的數(shù)出現(xiàn)的概率約占總數(shù)的三成,接近期望值1/9的3倍。
我們舉一個(gè)例子說(shuō)明它。
設(shè)想某銀行有1000多個(gè)儲(chǔ)蓄賬戶,存款金額不等。奇怪的是,本福特定律對(duì)這些存款金額本身并不感興趣,而對(duì)這些數(shù)值的開(kāi)頭第一位有效數(shù)字(非零)頗為中意。我們都知道,一個(gè)數(shù)的第一位(非零)有效數(shù)字可能是1到9之間的任何一個(gè)?,F(xiàn)在,如果我問(wèn),在剛才那個(gè)銀行的上千個(gè)存款數(shù)據(jù)中,第一位數(shù)字是1的概率是多大?
無(wú)需多思,大部分人都會(huì)很快地回答:應(yīng)該是1/9吧。因?yàn)閺?到9,9個(gè)數(shù)字排在第一位的概率是相等的,每一個(gè)數(shù)字出現(xiàn)的概率都是1/9,大約11%左右。

?圖1:本福特定律(首位數(shù)定律)
從這種聽(tīng)起來(lái)十分正常的思維方法得出的結(jié)論卻與許多真實(shí)數(shù)據(jù)所遵循的規(guī)律不同。人們發(fā)現(xiàn),很多情況下,第一個(gè)數(shù)字是1的概率要比靠直覺(jué)預(yù)料的11%大得多。數(shù)字越大,出現(xiàn)在第一位的概率就越小,數(shù)字9出現(xiàn)于第一位的概率只有4.5%左右。各個(gè)數(shù)字出現(xiàn)在第一位的概率遵循如圖1左圖所示的概率分布。從圖中可以看出,首位數(shù)字為1的概率可達(dá)30.1030%,而首位數(shù)字為9的概率僅為4.5757%。
事實(shí)上,本福特定律的發(fā)現(xiàn)者另有其人:美國(guó)天文學(xué)家西蒙·紐康(Simon Newcomb,1835 - 1909)。紐康在查閱對(duì)數(shù)表(常用對(duì)數(shù)編排而成的表格,用以計(jì)算)時(shí)發(fā)現(xiàn)了一個(gè)奇怪的現(xiàn)象:包含以1開(kāi)頭的數(shù)的那幾頁(yè)比其他頁(yè)破爛得多,似乎表明計(jì)算所用的數(shù)值中,首位數(shù)是1的概率更高,因此他在1881年發(fā)表了一篇文章提到并分析了這個(gè)現(xiàn)象【3】,但沒(méi)有引起人們的注意,直到57年之后的1938年,本福特又重新發(fā)現(xiàn)這個(gè)現(xiàn)象。
說(shuō)來(lái)令人奇怪,科學(xué)定律的發(fā)現(xiàn)有時(shí)候來(lái)自于一些毫不起眼、小得不能再小的現(xiàn)象,本福特的發(fā)現(xiàn)便是如此。“以1開(kāi)頭的數(shù)字比較多”,這也算是一個(gè)定律嗎?本福特發(fā)現(xiàn)這種現(xiàn)象不僅僅存在于對(duì)數(shù)表中,也存在于其它多種數(shù)據(jù)中,于是,本福特檢查了大量數(shù)據(jù)而證實(shí)了這點(diǎn)。【4】
本福特和紐康都從數(shù)據(jù)中總結(jié)出首位數(shù)字為n的概率公式是:

其中d取決于數(shù)據(jù)使用的進(jìn)位制,對(duì)十進(jìn)制數(shù)據(jù)而言,d=10。
隨后,本福特收集并研究了20229個(gè)統(tǒng)計(jì)數(shù)據(jù),包括河流面積、人口統(tǒng)計(jì)、分子及原子重量、物理常數(shù)等多種來(lái)源的資料,并分成20組。數(shù)據(jù)來(lái)源雖然千差萬(wàn)別,卻基本上符合本福特定律,見(jiàn)圖2所示的數(shù)據(jù)表。表中最后一行的數(shù)值,是根據(jù)本福特概率公式計(jì)算得到的每個(gè)數(shù)字出現(xiàn)于首位的概率,讀者可以將它與真實(shí)數(shù)據(jù)相比較。

?圖2:本福特從大量數(shù)據(jù)中得到的首位數(shù)字概率表
本福特定律適用范圍異常廣泛,自然界和日常生活中獲得的大多數(shù)數(shù)據(jù)都符合這個(gè)規(guī)律。盡管如此,此規(guī)律仍然受限于如下幾個(gè)因素:1. 這些數(shù)據(jù)必須跨度足夠大,樣本數(shù)量足夠多,數(shù)值大小相差幾個(gè)數(shù)量級(jí);2. 人為規(guī)則的數(shù)據(jù)不滿足本福特定律,例如按照某種人為規(guī)則設(shè)計(jì)選定的電話號(hào)碼、身份證號(hào)碼、發(fā)票編號(hào)等等。為造假而人工修改過(guò)的實(shí)驗(yàn)數(shù)據(jù)、彩票上的隨機(jī)數(shù)據(jù)也不符合本福特定律。
如何解釋本福特定律
盡管本福特和紐康都總結(jié)出了首位數(shù)字的對(duì)數(shù)規(guī)律,但并未給出證明,直到1995年美國(guó)學(xué)者Ted Hill才從理論上對(duì)該定律作出了解釋,并進(jìn)行了嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)證明【5】。雖然本福特定律在許多方面都得到了驗(yàn)證和應(yīng)用,但對(duì)于這種數(shù)字奇異現(xiàn)象人們依舊是迷惑不解。到底應(yīng)該如何直觀理解本福特定律?為什么大多數(shù)數(shù)據(jù)的首位數(shù)字不是均勻分布而是對(duì)數(shù)分布的?
有人探求數(shù)“數(shù)”的方法,來(lái)直觀解釋本福特定律。他們的意思是說(shuō),當(dāng)你計(jì)算數(shù)字時(shí),順序總是從1開(kāi)始的,如果到9就終結(jié)的話,所有數(shù)字起首的機(jī)會(huì)都相同,但9之后的兩位數(shù)10至19,以1起首的數(shù)則遠(yuǎn)多于其它數(shù)字。
我們可以用這種方法來(lái)理解街道號(hào)碼(地址)一類的數(shù)據(jù)。一般來(lái)說(shuō),每條街道的號(hào)碼都是從1算起,街道長(zhǎng)度有限,號(hào)碼排到某一個(gè)數(shù)就終止了。另一條街又有它自己的從1開(kāi)始的號(hào)碼排列,以此類推,1開(kāi)頭的號(hào)碼是要多一些的。但這種解釋也太不“數(shù)學(xué)”了!況且,這種理解無(wú)法說(shuō)明另外一類數(shù)據(jù)為什么也符合本福特原則,如“物理常數(shù)”的集合、出生率、死亡率等,這些數(shù)據(jù)并不是從1開(kāi)始計(jì)算到有限長(zhǎng)度就截止的那種數(shù)據(jù)。
另一種解釋是認(rèn)為本福特定律的根源是由于數(shù)據(jù)的指數(shù)增長(zhǎng)。指數(shù)增長(zhǎng)的序列,數(shù)值小的時(shí)候增長(zhǎng)較慢,由最初的數(shù)字1增長(zhǎng)到另一個(gè)數(shù)字2,需要更多時(shí)間,所以出現(xiàn)率就更高了。
舉個(gè)例子來(lái)說(shuō)明這個(gè)道理:如果你有100美元的存款,年利率是10%,25年中,你每年的存款金額將是(只保留了整數(shù)部分):
100、110、121、133、146、161、177、195、214、236、259、285、314、345、380、418、459、505、556、612、673、740、814、895、985
這是一個(gè)指數(shù)增長(zhǎng)的序列。在這組數(shù)據(jù)的25個(gè)數(shù)字中,首位數(shù)字為1的有8個(gè)(32%);2的4個(gè);3的3個(gè)……9的只有1個(gè)(4%)。這是因?yàn)閺氖孜粸?增加到首位為2,經(jīng)過(guò)了更長(zhǎng)的時(shí)間(8年);從首位為2,只經(jīng)過(guò)了4年就變成了首位為3;而首位為9的話,下一年又變成了1。所以,指數(shù)增長(zhǎng)規(guī)律的數(shù)列的確符合本福特定律。
讀者也許會(huì)有疑問(wèn):上面的數(shù)列選擇從100開(kāi)始,1打頭的比較多,如果從別的數(shù)字開(kāi)始,規(guī)律是否會(huì)改變呢?讀者可以試驗(yàn)一下,得到的結(jié)果仍符合本福特法則。此外,你還可以將美元換算成人民幣(乘以6.7),得到的數(shù)據(jù)仍然會(huì)遵循本福特定律,這也說(shuō)明本福特定律具有“尺度不變性”。
幫助偵破“數(shù)據(jù)造假”
由于大多數(shù)財(cái)務(wù)方面的數(shù)據(jù)都滿足本福特定律,因此,在現(xiàn)實(shí)生活中,它可以用作檢查財(cái)務(wù)數(shù)據(jù)是否造假!
美國(guó)華盛頓州曾偵破過(guò)一個(gè)當(dāng)時(shí)最大的投資詐騙案,金額高達(dá)1億美元。詐騙主謀凱文·勞倫斯及其同伙以創(chuàng)辦高技術(shù)含量的連鎖健身俱樂(lè)部為名,向5000多個(gè)投資者籌集了大量資金。隨后,他們挪用公款以作自身享樂(lè)。為了掩飾他們的不法行為,他們將資金在海外公司和銀行間進(jìn)行頻繁轉(zhuǎn)賬,并且人為做假賬,制造一種生意興隆的錯(cuò)覺(jué)。
所幸,當(dāng)時(shí)有一位名為Darrell Dorrell的會(huì)計(jì)師感覺(jué)不對(duì)頭,他將70000多個(gè)與支票和匯款有關(guān)的數(shù)據(jù)收集起來(lái),將這些數(shù)據(jù)首位數(shù)字發(fā)生的概率與本福特定律相比較,發(fā)現(xiàn)這些數(shù)據(jù)無(wú)法通過(guò)本福特定律的檢驗(yàn)。最后經(jīng)過(guò)了3年的司法調(diào)查,終于拆穿了這個(gè)投資騙局【7,8】,2002年,勞倫斯被判20年牢獄。
2001年,美國(guó)最大的能源交易商安然公司(Enron Corporation)宣布破產(chǎn),并傳出公司高層管理人員涉嫌做假賬的傳聞。據(jù)傳,安然高層改動(dòng)過(guò)財(cái)務(wù)數(shù)據(jù),因而他們所公布的2001-2002年每股盈利數(shù)據(jù)不符合本福特定律【6】。此外,本福特定律也被用于股票市場(chǎng)分析、檢驗(yàn)選舉投票欺詐行為等。

?圖3:安然公司數(shù)據(jù)vs本福特定律(圖片來(lái)源:The wall street journal【6】)
概率論由研究賭博問(wèn)題而誕生,又在不斷地提出及解決各種有趣的賭博問(wèn)題中發(fā)展起來(lái)。且聽(tīng)我們?cè)谙乱黄?,介紹大數(shù)定律以及更多與賭博有關(guān)的概率問(wèn)題。
趣味拾遺:
“三門問(wèn)題”
除了前文提到的貝特朗悖論,他在1889年還提出了另一個(gè)“悖論”——貝特朗盒子悖論,之所以加上引號(hào)是因?yàn)閷?shí)際上它并不算是一個(gè)真正的悖論,因?yàn)樵谶壿嬌纤⒉幻?。但它卻是一個(gè)與博弈論相關(guān)的、非常有趣的數(shù)學(xué)游戲。
“三門問(wèn)題”有好幾個(gè)等效版本,最早的一版可追溯到19世紀(jì)的貝特朗,該問(wèn)題在數(shù)學(xué)本質(zhì)上也等同于馬丁·加德納(Martin Gardner,1914 - 2010)1959年提出的“三囚犯問(wèn)題”【1】。不過(guò),這些老版本默默無(wú)聞,直到上世紀(jì)九十年代,美國(guó)著名的電視游戲節(jié)目Let's Make a Deal才讓其火了一把。由此也足可見(jiàn)現(xiàn)代媒體在公眾中普及科學(xué)知識(shí)的重要性。
當(dāng)年的節(jié)目主持人蒙特·霍爾(Monty Hall)善于與參賽者打心理戰(zhàn),經(jīng)常突如其來(lái)地變換游戲規(guī)則,既使得觀眾們困惑不已,又迫使參賽者“腦筋急轉(zhuǎn)彎”。三門問(wèn)題及各種變通版本便是他經(jīng)常使用的法寶。后來(lái)有人便將此游戲以主持人的名字命名,也稱之為蒙特·霍爾問(wèn)題【2】。
三門問(wèn)題大致是說(shuō)在三扇門的后面,分別藏著汽車和兩只山羊。如果參賽者選中了后面有汽車的那扇門,便能贏得該汽車作為獎(jiǎng)品。顯而易見(jiàn),在這種情況下參賽者贏得汽車的概率是1/3。

?三門問(wèn)題
不過(guò),蒙特·霍爾在一次節(jié)目中卻改變了一點(diǎn)規(guī)則:當(dāng)參賽者選擇了一扇門但尚未打開(kāi)之際,知道門后情形的他說(shuō):
“等等,我現(xiàn)在給你第二次機(jī)會(huì)。首先,我將打開(kāi)你沒(méi)有選擇的兩扇門中有山羊的一扇,你可以看到門內(nèi)的山羊。然后,你有兩種選擇:改變你原來(lái)的選擇(交換),或者保留原來(lái)的選擇(不交換)?!?/p>
要不要交換?我們不從“碰運(yùn)氣”而是從“概率”的角度來(lái)思考這個(gè)問(wèn)題。如果不交換,保持原狀的話,得汽車的概率是1/3;如果交換的話,是否能增加抽到汽車的概率呢?答案是肯定的:改變選擇(交換)可以將參賽者贏得汽車的概率從1/3增加到2/3。
讓我們來(lái)分析一下整個(gè)游戲過(guò)程:參賽者指定3道門中的一道,在選擇交換之后可能遇到圖2顯示的三種等概率(1/3)情況。
(a)參賽者挑選有汽車的第1道門,主持人挑兩頭羊的任何一頭交換都將失敗。
(b)參賽者挑選有羊的第2道門,主持人打開(kāi)第3道門,交換將贏得汽車。
(c)參賽者挑選有羊的第3道門,主持人打開(kāi)第2道門,交換將贏得汽車。

?改變選擇使得參賽者獲得汽車的概率變?yōu)?/3
我們也可以換一種思維方式來(lái)理解這個(gè)問(wèn)題。參賽者最初選到汽車的概率是1/3,選到羊的概率是2/3。如果參賽者先選中汽車,那么交換之后一定“輸”;如果先選中羊,換后則一定“贏”。因此,選擇“交換”而獲得汽車的概率,就是開(kāi)始是選到羊的概率,為2/3。
也許三門問(wèn)題的解釋仍然有些使人困惑之處,但如果將門的數(shù)目增加到10道門(主持人開(kāi)啟8道有“羊”的門,留下1道),參賽者選擇“交換”使概率增加的結(jié)論便顯而易見(jiàn)了。

?十門問(wèn)題
參考資料:
【1】Gardner, Martin (1959). "Mathematical Games" column, Scientific American, October 1959, pp. 180–182.
【2】Bohl, Alan H.; Liberatore, Matthew J.; and Nydick, Robert L. (1995). "A Tale of Two Goats ... and a Car, or The Importance of Assumptions in Problem Solutions". Journal of Recreational Mathematics 1995, pp. 1–9.
【3】Newcomb, S (1881). "Note on the frequency of use of the different digits in natural numbers". American Journal of Mathematics. 4 (1): 39–40.
【4】Benford, F. (1938), The law of anomalous numbers, Proc. Amer.
Philosophical Soc. 78, 551–572.
【5】Hill, T. P. "A Statistical Derivation of the Significant-Digit Law." Stat. Sci. 10, 354-363, 1996.。
【6】“The wall street journal”
https://www.wsj.com/articles/accountants-increasingly-use-data-analysis-to-catch-fraud-1417804886
【7】Judge Sentences Kevin L. Lawrence to 20 Years Prison in Znetix/HMC Stock Scam
http://www.dfi.wa.gov/news/press/judge-sentences-kevin-l-lawrence-20-years-prison-znetixhmc-stock-scam
【8】The Drunkard's Walk: How Randomness Rules Our Lives
By Leonard Mlodinow,pp. 84, Published by Pantheon Books
(Audio book from amazon.com:
https://www.amazon.com/Drunkards-Walk-Randomness-Rules-Lives/dp/B001BSJHRC)
制版編輯:鄧志英丨
?概率論還能識(shí)別“財(cái)務(wù)造假”?
導(dǎo)語(yǔ)
:
上文介紹了幾個(gè)概率中的悖論,其中提到了一個(gè)與幾何概型有關(guān)的貝特朗悖論。概率論中的悖論很多,基于經(jīng)驗(yàn)的直覺(jué)判斷很多時(shí)候往往并不靠譜。今天這篇將介紹的本福特定律,也是一條初看起來(lái)有些奇怪、不合直覺(jué)的定律,不過(guò)這條定律用處卻很大,甚至還能幫助偵破“財(cái)務(wù)造假”。
撰文 | 張?zhí)烊?/strong>
責(zé)編 | 呂浩然
● ● ●
概率論專欄
2017-03-16 上帝教人擲骰子——“神童”帕斯卡與概率論
2017-03-31 似是而非的答案:概率論悖論
本福特定律
弗蘭克·本福特(Frank Benford, 1883–1948)本是一個(gè)美國(guó)電氣工程師,卻在中年時(shí)迷上了一個(gè)與概率有關(guān)的課題,課題得到的結(jié)論便是現(xiàn)在我們所說(shuō)的“本福特定律”。該定律大致意思是說(shuō),在眾多真實(shí)數(shù)據(jù)中,以“1”為首位數(shù)字的數(shù)出現(xiàn)的概率約占總數(shù)的三成,接近期望值1/9的3倍。
我們舉一個(gè)例子說(shuō)明它。
設(shè)想某銀行有1000多個(gè)儲(chǔ)蓄賬戶,存款金額不等。奇怪的是,本福特定律對(duì)這些存款金額本身并不感興趣,而對(duì)這些數(shù)值的開(kāi)頭第一位有效數(shù)字(非零)頗為中意。我們都知道,一個(gè)數(shù)的第一位(非零)有效數(shù)字可能是1到9之間的任何一個(gè)?,F(xiàn)在,如果我問(wèn),在剛才那個(gè)銀行的上千個(gè)存款數(shù)據(jù)中,第一位數(shù)字是1的概率是多大?
無(wú)需多思,大部分人都會(huì)很快地回答:應(yīng)該是1/9吧。因?yàn)閺?到9,9個(gè)數(shù)字排在第一位的概率是相等的,每一個(gè)數(shù)字出現(xiàn)的概率都是1/9,大約11%左右。
?圖1:本福特定律(首位數(shù)定律)
從這種聽(tīng)起來(lái)十分正常的思維方法得出的結(jié)論卻與許多真實(shí)數(shù)據(jù)所遵循的規(guī)律不同。人們發(fā)現(xiàn),很多情況下,第一個(gè)數(shù)字是1的概率要比靠直覺(jué)預(yù)料的11%大得多。數(shù)字越大,出現(xiàn)在第一位的概率就越小,數(shù)字9出現(xiàn)于第一位的概率只有4.5%左右。各個(gè)數(shù)字出現(xiàn)在第一位的概率遵循如圖1左圖所示的概率分布。從圖中可以看出,首位數(shù)字為1的概率可達(dá)30.1030%,而首位數(shù)字為9的概率僅為4.5757%。
事實(shí)上,本福特定律的發(fā)現(xiàn)者另有其人:美國(guó)天文學(xué)家西蒙·紐康(Simon Newcomb,1835 - 1909)。紐康在查閱對(duì)數(shù)表(常用對(duì)數(shù)編排而成的表格,用以計(jì)算)時(shí)發(fā)現(xiàn)了一個(gè)奇怪的現(xiàn)象:包含以1開(kāi)頭的數(shù)的那幾頁(yè)比其他頁(yè)破爛得多,似乎表明計(jì)算所用的數(shù)值中,首位數(shù)是1的概率更高,因此他在1881年發(fā)表了一篇文章提到并分析了這個(gè)現(xiàn)象【3】,但沒(méi)有引起人們的注意,直到57年之后的1938年,本福特又重新發(fā)現(xiàn)這個(gè)現(xiàn)象。
說(shuō)來(lái)令人奇怪,科學(xué)定律的發(fā)現(xiàn)有時(shí)候來(lái)自于一些毫不起眼、小得不能再小的現(xiàn)象,本福特的發(fā)現(xiàn)便是如此。“以1開(kāi)頭的數(shù)字比較多”,這也算是一個(gè)定律嗎?本福特發(fā)現(xiàn)這種現(xiàn)象不僅僅存在于對(duì)數(shù)表中,也存在于其它多種數(shù)據(jù)中,于是,本福特檢查了大量數(shù)據(jù)而證實(shí)了這點(diǎn)。【4】
本福特和紐康都從數(shù)據(jù)中總結(jié)出首位數(shù)字為n的概率公式是:
其中d取決于數(shù)據(jù)使用的進(jìn)位制,對(duì)十進(jìn)制數(shù)據(jù)而言,d=10。
隨后,本福特收集并研究了20229個(gè)統(tǒng)計(jì)數(shù)據(jù),包括河流面積、人口統(tǒng)計(jì)、分子及原子重量、物理常數(shù)等多種來(lái)源的資料,并分成20組。數(shù)據(jù)來(lái)源雖然千差萬(wàn)別,卻基本上符合本福特定律,見(jiàn)圖2所示的數(shù)據(jù)表。表中最后一行的數(shù)值,是根據(jù)本福特概率公式計(jì)算得到的每個(gè)數(shù)字出現(xiàn)于首位的概率,讀者可以將它與真實(shí)數(shù)據(jù)相比較。
?圖2:本福特從大量數(shù)據(jù)中得到的首位數(shù)字概率表
本福特定律適用范圍異常廣泛,自然界和日常生活中獲得的大多數(shù)數(shù)據(jù)都符合這個(gè)規(guī)律。盡管如此,此規(guī)律仍然受限于如下幾個(gè)因素:1. 這些數(shù)據(jù)必須跨度足夠大,樣本數(shù)量足夠多,數(shù)值大小相差幾個(gè)數(shù)量級(jí);2. 人為規(guī)則的數(shù)據(jù)不滿足本福特定律,例如按照某種人為規(guī)則設(shè)計(jì)選定的電話號(hào)碼、身份證號(hào)碼、發(fā)票編號(hào)等等。為造假而人工修改過(guò)的實(shí)驗(yàn)數(shù)據(jù)、彩票上的隨機(jī)數(shù)據(jù)也不符合本福特定律。
如何解釋本福特定律
盡管本福特和紐康都總結(jié)出了首位數(shù)字的對(duì)數(shù)規(guī)律,但并未給出證明,直到1995年美國(guó)學(xué)者Ted Hill才從理論上對(duì)該定律作出了解釋,并進(jìn)行了嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)證明【5】。雖然本福特定律在許多方面都得到了驗(yàn)證和應(yīng)用,但對(duì)于這種數(shù)字奇異現(xiàn)象人們依舊是迷惑不解。到底應(yīng)該如何直觀理解本福特定律?為什么大多數(shù)數(shù)據(jù)的首位數(shù)字不是均勻分布而是對(duì)數(shù)分布的?
有人探求數(shù)“數(shù)”的方法,來(lái)直觀解釋本福特定律。他們的意思是說(shuō),當(dāng)你計(jì)算數(shù)字時(shí),順序總是從1開(kāi)始的,如果到9就終結(jié)的話,所有數(shù)字起首的機(jī)會(huì)都相同,但9之后的兩位數(shù)10至19,以1起首的數(shù)則遠(yuǎn)多于其它數(shù)字。
我們可以用這種方法來(lái)理解街道號(hào)碼(地址)一類的數(shù)據(jù)。一般來(lái)說(shuō),每條街道的號(hào)碼都是從1算起,街道長(zhǎng)度有限,號(hào)碼排到某一個(gè)數(shù)就終止了。另一條街又有它自己的從1開(kāi)始的號(hào)碼排列,以此類推,1開(kāi)頭的號(hào)碼是要多一些的。但這種解釋也太不“數(shù)學(xué)”了!況且,這種理解無(wú)法說(shuō)明另外一類數(shù)據(jù)為什么也符合本福特原則,如“物理常數(shù)”的集合、出生率、死亡率等,這些數(shù)據(jù)并不是從1開(kāi)始計(jì)算到有限長(zhǎng)度就截止的那種數(shù)據(jù)。
另一種解釋是認(rèn)為本福特定律的根源是由于數(shù)據(jù)的指數(shù)增長(zhǎng)。指數(shù)增長(zhǎng)的序列,數(shù)值小的時(shí)候增長(zhǎng)較慢,由最初的數(shù)字1增長(zhǎng)到另一個(gè)數(shù)字2,需要更多時(shí)間,所以出現(xiàn)率就更高了。
舉個(gè)例子來(lái)說(shuō)明這個(gè)道理:如果你有100美元的存款,年利率是10%,25年中,你每年的存款金額將是(只保留了整數(shù)部分):
100、110、121、133、146、161、177、195、214、236、259、285、314、345、380、418、459、505、556、612、673、740、814、895、985
這是一個(gè)指數(shù)增長(zhǎng)的序列。在這組數(shù)據(jù)的25個(gè)數(shù)字中,首位數(shù)字為1的有8個(gè)(32%);2的4個(gè);3的3個(gè)……9的只有1個(gè)(4%)。這是因?yàn)閺氖孜粸?增加到首位為2,經(jīng)過(guò)了更長(zhǎng)的時(shí)間(8年);從首位為2,只經(jīng)過(guò)了4年就變成了首位為3;而首位為9的話,下一年又變成了1。所以,指數(shù)增長(zhǎng)規(guī)律的數(shù)列的確符合本福特定律。
讀者也許會(huì)有疑問(wèn):上面的數(shù)列選擇從100開(kāi)始,1打頭的比較多,如果從別的數(shù)字開(kāi)始,規(guī)律是否會(huì)改變呢?讀者可以試驗(yàn)一下,得到的結(jié)果仍符合本福特法則。此外,你還可以將美元換算成人民幣(乘以6.7),得到的數(shù)據(jù)仍然會(huì)遵循本福特定律,這也說(shuō)明本福特定律具有“尺度不變性”。
幫助偵破“數(shù)據(jù)造假”
由于大多數(shù)財(cái)務(wù)方面的數(shù)據(jù)都滿足本福特定律,因此,在現(xiàn)實(shí)生活中,它可以用作檢查財(cái)務(wù)數(shù)據(jù)是否造假!
美國(guó)華盛頓州曾偵破過(guò)一個(gè)當(dāng)時(shí)最大的投資詐騙案,金額高達(dá)1億美元。詐騙主謀凱文·勞倫斯及其同伙以創(chuàng)辦高技術(shù)含量的連鎖健身俱樂(lè)部為名,向5000多個(gè)投資者籌集了大量資金。隨后,他們挪用公款以作自身享樂(lè)。為了掩飾他們的不法行為,他們將資金在海外公司和銀行間進(jìn)行頻繁轉(zhuǎn)賬,并且人為做假賬,制造一種生意興隆的錯(cuò)覺(jué)。
所幸,當(dāng)時(shí)有一位名為Darrell Dorrell的會(huì)計(jì)師感覺(jué)不對(duì)頭,他將70000多個(gè)與支票和匯款有關(guān)的數(shù)據(jù)收集起來(lái),將這些數(shù)據(jù)首位數(shù)字發(fā)生的概率與本福特定律相比較,發(fā)現(xiàn)這些數(shù)據(jù)無(wú)法通過(guò)本福特定律的檢驗(yàn)。最后經(jīng)過(guò)了3年的司法調(diào)查,終于拆穿了這個(gè)投資騙局【7,8】,2002年,勞倫斯被判20年牢獄。
2001年,美國(guó)最大的能源交易商安然公司(Enron Corporation)宣布破產(chǎn),并傳出公司高層管理人員涉嫌做假賬的傳聞。據(jù)傳,安然高層改動(dòng)過(guò)財(cái)務(wù)數(shù)據(jù),因而他們所公布的2001-2002年每股盈利數(shù)據(jù)不符合本福特定律【6】。此外,本福特定律也被用于股票市場(chǎng)分析、檢驗(yàn)選舉投票欺詐行為等。
?圖3:安然公司數(shù)據(jù)vs本福特定律(圖片來(lái)源:The wall street journal【6】)
概率論由研究賭博問(wèn)題而誕生,又在不斷地提出及解決各種有趣的賭博問(wèn)題中發(fā)展起來(lái)。且聽(tīng)我們?cè)谙乱黄?,介紹大數(shù)定律以及更多與賭博有關(guān)的概率問(wèn)題。
趣味拾遺:
“三門問(wèn)題”
除了前文提到的貝特朗悖論,他在1889年還提出了另一個(gè)“悖論”——貝特朗盒子悖論,之所以加上引號(hào)是因?yàn)閷?shí)際上它并不算是一個(gè)真正的悖論,因?yàn)樵谶壿嬌纤⒉幻?。但它卻是一個(gè)與博弈論相關(guān)的、非常有趣的數(shù)學(xué)游戲。
“三門問(wèn)題”有好幾個(gè)等效版本,最早的一版可追溯到19世紀(jì)的貝特朗,該問(wèn)題在數(shù)學(xué)本質(zhì)上也等同于馬丁·加德納(Martin Gardner,1914 - 2010)1959年提出的“三囚犯問(wèn)題”【1】。不過(guò),這些老版本默默無(wú)聞,直到上世紀(jì)九十年代,美國(guó)著名的電視游戲節(jié)目Let's Make a Deal才讓其火了一把。由此也足可見(jiàn)現(xiàn)代媒體在公眾中普及科學(xué)知識(shí)的重要性。
當(dāng)年的節(jié)目主持人蒙特·霍爾(Monty Hall)善于與參賽者打心理戰(zhàn),經(jīng)常突如其來(lái)地變換游戲規(guī)則,既使得觀眾們困惑不已,又迫使參賽者“腦筋急轉(zhuǎn)彎”。三門問(wèn)題及各種變通版本便是他經(jīng)常使用的法寶。后來(lái)有人便將此游戲以主持人的名字命名,也稱之為蒙特·霍爾問(wèn)題【2】。
三門問(wèn)題大致是說(shuō)在三扇門的后面,分別藏著汽車和兩只山羊。如果參賽者選中了后面有汽車的那扇門,便能贏得該汽車作為獎(jiǎng)品。顯而易見(jiàn),在這種情況下參賽者贏得汽車的概率是1/3。
?三門問(wèn)題
不過(guò),蒙特·霍爾在一次節(jié)目中卻改變了一點(diǎn)規(guī)則:當(dāng)參賽者選擇了一扇門但尚未打開(kāi)之際,知道門后情形的他說(shuō):
“等等,我現(xiàn)在給你第二次機(jī)會(huì)。首先,我將打開(kāi)你沒(méi)有選擇的兩扇門中有山羊的一扇,你可以看到門內(nèi)的山羊。然后,你有兩種選擇:改變你原來(lái)的選擇(交換),或者保留原來(lái)的選擇(不交換)?!?/p>
要不要交換?我們不從“碰運(yùn)氣”而是從“概率”的角度來(lái)思考這個(gè)問(wèn)題。如果不交換,保持原狀的話,得汽車的概率是1/3;如果交換的話,是否能增加抽到汽車的概率呢?答案是肯定的:改變選擇(交換)可以將參賽者贏得汽車的概率從1/3增加到2/3。
讓我們來(lái)分析一下整個(gè)游戲過(guò)程:參賽者指定3道門中的一道,在選擇交換之后可能遇到圖2顯示的三種等概率(1/3)情況。
(a)參賽者挑選有汽車的第1道門,主持人挑兩頭羊的任何一頭交換都將失敗。
(b)參賽者挑選有羊的第2道門,主持人打開(kāi)第3道門,交換將贏得汽車。
(c)參賽者挑選有羊的第3道門,主持人打開(kāi)第2道門,交換將贏得汽車。
?改變選擇使得參賽者獲得汽車的概率變?yōu)?/3
我們也可以換一種思維方式來(lái)理解這個(gè)問(wèn)題。參賽者最初選到汽車的概率是1/3,選到羊的概率是2/3。如果參賽者先選中汽車,那么交換之后一定“輸”;如果先選中羊,換后則一定“贏”。因此,選擇“交換”而獲得汽車的概率,就是開(kāi)始是選到羊的概率,為2/3。
也許三門問(wèn)題的解釋仍然有些使人困惑之處,但如果將門的數(shù)目增加到10道門(主持人開(kāi)啟8道有“羊”的門,留下1道),參賽者選擇“交換”使概率增加的結(jié)論便顯而易見(jiàn)了。
?十門問(wèn)題
參考資料:
【1】Gardner, Martin (1959). "Mathematical Games" column, Scientific American, October 1959, pp. 180–182.
【2】Bohl, Alan H.; Liberatore, Matthew J.; and Nydick, Robert L. (1995). "A Tale of Two Goats ... and a Car, or The Importance of Assumptions in Problem Solutions". Journal of Recreational Mathematics 1995, pp. 1–9.
【3】Newcomb, S (1881). "Note on the frequency of use of the different digits in natural numbers". American Journal of Mathematics. 4 (1): 39–40.
【4】Benford, F. (1938), The law of anomalous numbers, Proc. Amer.
Philosophical Soc. 78, 551–572.
【5】Hill, T. P. "A Statistical Derivation of the Significant-Digit Law." Stat. Sci. 10, 354-363, 1996.。
【6】“The wall street journal”
https://www.wsj.com/articles/accountants-increasingly-use-data-analysis-to-catch-fraud-1417804886
【7】Judge Sentences Kevin L. Lawrence to 20 Years Prison in Znetix/HMC Stock Scam
http://www.dfi.wa.gov/news/press/judge-sentences-kevin-l-lawrence-20-years-prison-znetixhmc-stock-scam
【8】The Drunkard's Walk: How Randomness Rules Our Lives
By Leonard Mlodinow,pp. 84, Published by Pantheon Books
(Audio book from amazon.com:
https://www.amazon.com/Drunkards-Walk-Randomness-Rules-Lives/dp/B001BSJHRC)
制版編輯:鄧志英丨