? 少妇人妻av,性色av一区二区三区

亚洲 a v无 码免 费 成 人 a v,性欧美videofree高清精品,新国产三级在线观看播放,少妇人妻偷人精品一区二区,天干天干天啪啪夜爽爽av

無所不在的概率分布鐘型曲線 | 張?zhí)烊貙?/h3>
2017/06/23
導讀
小球從釘板落下的游戲,都玩過吧?

?小球從釘板落下的游戲,都玩過吧?圖片來自flickr


撰文 | 張?zhí)烊?(美國德州大學奧斯汀分校理論物理博士)

責編 | 呂浩然


  • 概率論專欄

2017-03-16 上帝教人擲骰子——“神童”帕斯卡與概率論

2017-03-31  似是而非的答案:概率論悖論

2017-04-18  別相信直覺:概率論幫助偵破“財務造假”

2017-05-15  賭徒謬誤:賭博與大數(shù)定律


  


上一篇中,通過賭徒謬誤介紹了概率論中的大數(shù)定律。大數(shù)定律說的是當隨機事件重復多次時頻率的穩(wěn)定性,隨著試驗次數(shù)的增加,事件發(fā)生的頻率趨近于預期的“概率”。但大數(shù)定律并未涉及概率分布問題,所以本文就來說說概率分布。首先,用如下例子來說明“概率分布”是什么意思。 


高爾頓釘板試驗


弗朗西斯·高爾頓(Sir Francis Galton,1822-1911)是英國著名的統(tǒng)計學家、心理學家和遺傳學家。他是達爾文的表弟,雖然不像達爾文那樣聲名顯赫,但也并非無名之輩。不僅如此,高爾頓幼年是神童,長大是才子,九十年的人生可謂豐富多彩,是個名副其實的博學家。其涉獵范圍廣泛,研究水平頗深,縱觀科學史,在其同時代科學家中,能望其項背之人寥寥可數(shù)【1】。


在達爾文發(fā)表了《物種起源》之后,高爾頓也將研究方向轉向生物及遺傳學,他第一個對同卵雙胞胎進行研究,論證了指紋的永久性和獨特性;他從遺傳的角度研究人類智力并提出“優(yōu)生學”,也是第一個強調把統(tǒng)計學方法應用到生物學中去的人;他還設計了一個釘板實驗,希望從統(tǒng)計的觀點來解釋遺傳現(xiàn)象。


?圖1:高爾頓釘板實驗


如圖1中所示,木板上訂了數(shù)排(n排)等距排列的釘子,下一排的每個釘子恰好在上一排兩個相鄰釘子中間,從入口中處放入若干直徑略小于釘子間距的小球,小球在下落的過程中碰到任何釘子后,都將以1/2的概率滾向左邊,也以 1/2的概率滾向右邊。如此反復地繼續(xù)下去,直到小球下落到底板的格子里為止。試驗表明,只要小球足夠多,它們在底板堆成的形狀將近似于一個鐘形的高斯曲線(圖1左下黑色曲線)。


為什么這兒出現(xiàn)了一個鐘形曲線呢?這與古典概率論中最重要的“中心極限定理”有關。


中心極限定理


事實上,中心極限定理不是一個定理,而是一組定理,分別適用于不同的條件。但基本可以用一句話來概括它們:大量相互獨立的隨機變量,其求和后的平均值以正態(tài)分布(即鐘形曲線)為極限。


以上所述的高爾頓釘板實驗顯示的“鐘形曲線”便可以用中心極限定理來解釋。

考慮釘板中的某一個小球下落的過程:小球在下落過程中碰到n個釘子上,每次都等效于一次“拋硬幣”類型的隨機變量。也就是說,一個小球從頂部到底部的過程,等效于n次拋硬幣之和。n個釘子中的每一個釘子,將小球以同等的概率彈向左邊或右邊,小球最后到達的位置,是這n個“左/右”隨機變量相加后的平均位置。不難看出,這個平均值落在中心處的概率最大(即小球聚集最多),但也可能向左或向右偏離1格、2格……偏離越大,小球的數(shù)目越少,不同位置的小球數(shù)便形成了一個“分布”,中心極限定理則是從數(shù)學上證明了,這個分布的極限是正態(tài)分布。


中心極限定理最早由法國數(shù)學家棣莫弗(de Moivre, 1667-1754)在1718年左右發(fā)現(xiàn)。他為解決朋友提出的一個賭博問題而去認真研究二項分布(每次試驗只有“是/非”兩種可能的結果,且兩種結果發(fā)生與否互相對立)。他發(fā)現(xiàn):當實驗次數(shù)增大時,二項分布(成功概率p=0.5)趨近于一個看起來呈鐘形的曲線。后來,著名法國數(shù)學家拉普拉斯對此作了更詳細的研究,并證明了p不等于0.5時二項分布的極限也是高斯分布。之后,人們將此稱為棣莫弗-拉普拉斯中心極限定理【2】


再后來,中心極限定理的條件逐漸從二項分布推廣到獨立同分布隨機序列(指隨機過程中,任何時刻的取值都為隨機變量,如果這些隨機變量服從同一分布,且互相獨立,那么這些隨機變量就是獨立同分布),以及不同分布的隨機序列。因此,中心極限定理不是只有一個定理,而是成為研究某種條件下獨立隨機變量之和的極限分布為正態(tài)分布的一系列命題的統(tǒng)稱。 


不得不承認中心極限定理的奇妙。在一定條件下,各種隨意形狀概率分布生成的隨機變量,它們加在一起的總效應,是符合正態(tài)分布的。這點在統(tǒng)計學實驗中特別有用,因為實際上的隨機生物過程或物理過程,都不是只由一個單獨的原因產(chǎn)生的,它們受到各種各樣隨機因素的影響。然而,中心極限定理告訴我們:無論引起過程的各種效應的基本分布是什么樣的,當實驗次數(shù) n 充分大時,所有這些隨機分量之和近似是一個正態(tài)分布的隨機變量(圖2)。


在實際問題中,常常需要考慮許多隨機因素所產(chǎn)生的總影響。例如,許多因素決定了人的身高:營養(yǎng)、遺傳、環(huán)境、族裔、性別等等,這些因素的綜合效果,使得人的身高基本滿足正態(tài)分布。另外,在物理實驗中,免不了有誤差,而誤差形成的原因五花八門,各種各樣。如果能夠分別弄清楚產(chǎn)生誤差的每種單一原因,誤差的分布曲線可能不是高斯的。但是,當所有的誤差加在一起時,實驗者通常得到一個正態(tài)分布。


?圖2:中心極限定理


為了更為直觀地理解大數(shù)定律和中心極限定理,在圖3中,將拋硬幣所得的結果用數(shù)值表示(正面=1,反面=-1)。如此賦值以后,大數(shù)定律指的是:拋丟硬幣多次(n趨近無限大)后,結果的平均值將趨近于0,即正反面出現(xiàn)次數(shù)相等,其數(shù)值相加而互相抵消了;中心極限定理則除了考慮平均值(等于零)之外,還考慮結果的分布情形:如圖3b所示,如果只拋1次,出現(xiàn)正面(1)和反面(-1)的概率相等,對應于公平硬幣的等概率分布,平均值為0。當投擲次數(shù)n增加,平均值的極限值仍然保持為0,但點數(shù)和之分布情形變化了,n趨近無限時,分布趨于正態(tài)分布,這是中心極限定理的內(nèi)容。


?圖3:大數(shù)定律和中心極限定理


大量的統(tǒng)計實驗結果告訴我們:鐘形曲線隨處可見。我們的世界似乎被代表正態(tài)分布的“鐘形”包圍著,很多事物都是服從正態(tài)分布:人的高度、雪花的尺寸、測量誤差、燈泡的壽命、IQ分數(shù)、面包的重量、學生的考試分數(shù)等等。十九世紀的著名數(shù)學家龐加萊(Jules Henri Poincaré,1854-1912)曾經(jīng)說過【3】:“每個人都相信正態(tài)法則,實驗家認為這是一個數(shù)學定理,數(shù)學家認為這是一個實驗事實?!贝笞匀辉煳锏拿烂钌願W,鬼斧神工,往往使人難以理解。鐘形分布曲線無處不在,其奧秘便是來自于中心極限定理。


中心極限定理從理論上證明了,對于大量獨立隨機變量來說,不論其中各個隨機變量的分布函數(shù)是什么形狀,也不論它們是已知還是未知,當獨立隨機變量的個數(shù)充分大時,它們的和的分布函數(shù)都可以用正態(tài)分布來近似。這使得正態(tài)分布既成為統(tǒng)計理論的重要基礎,又是實際應用的強大工具。


就理論而言,正態(tài)分布有不少優(yōu)越性:1. 兩個正態(tài)分布的乘積仍然是正態(tài)分布;2. 兩個正態(tài)分布的和是正態(tài)分布;3. 正態(tài)分布的傅立葉變換仍然是正態(tài)分布。正態(tài)分布只需要兩個參數(shù)μσ就完全決定了分布的性質(見圖2)。這點給實際計算帶來許多方便之處,再一次體現(xiàn)了中心極限定理的威力。


中心極限定理的應用


正態(tài)分布在應用上非常有效,下面便舉兩個簡單例子予以說明。


例1:小王到某保險公司應聘,經(jīng)理給他出了一道考題:如果讓你設計一項人壽保險,假設客戶的數(shù)目有1萬左右,被保險人每年交200元保費,保險的賠償金額為5萬元,估計當?shù)匾荒甑乃劳雎?span style="color: rgb(136, 136, 136);">(自然+意外)為0.25%左右,那么,你會如何計算公司的獲利情況?


小王在經(jīng)理面前緊張地估算了一下:從1萬個客戶得到的保費是200萬,然后1萬人乘以死亡率,可能有25人死亡,賠償金額為25×5萬,等于125萬。所以,公司可能的收益應該是200萬減去125萬,等于75萬左右。這是小王的答案。


經(jīng)理面露滿意的笑容,但又繼續(xù)問:75萬只是一個大概可能的數(shù)目,如果要你大略地估計一下,公司一年內(nèi)從這個項目得到的總收益為50-100萬元的概率是多少,或者需要估計公司虧本的概率,你怎么算呢?


?圖4:正態(tài)分布用于估計人壽保險


這下難倒了小王:要真正計算概率需要用到分布,這是什么分布???小王腦袋里突然冒出了“中心極限定理”,1萬個客戶的數(shù)目足夠大了,可以用正態(tài)分布:首先需要計算平均值μ和方差σ。人壽保險近似于一個像拋硬幣的“二項分布”問題:受保人死亡,保險公司賠償,反之則不賠償。只不過,這兒死亡的概率比較小,p=0.25%。用正態(tài)分布來近似的話,只要知道了期望和方差,概率便不難計算。小王回想起正態(tài)分布的簡單圖像以及幾個關鍵數(shù)值(見圖4),算出均值μ=E(X)=np=10000*0.25%=25,方差σ2=Var(X)=np(1-p)=25 ,由此得到σ=5。


然后,要計算公司賺50-100萬元的概率,從圖4可知,也就是死亡人數(shù)在20到30之間的概率,剛好就是從μ-σ )μ+σ )之間的面積,大約68.2%左右。至于公司何種情況下會虧本呢?直觀而言,如果死亡的人數(shù)多于40,公司便虧本了,概率到底是多少呢?同樣可用圖4進行估計,40和25之間相差15,等于3σ,因而得到概率大約等于0.1%,所以,保險公司虧本的概率幾乎為零。


例2:圖5a是美國2010年1,547,990個SAT考試成績的原始數(shù)據(jù),其中有1,313,812個分數(shù)在1850之下,有74,165個成績是在2050以上。由此我們從原始數(shù)據(jù)可以算出:分數(shù)在1850之下的百分比是0.849,分數(shù)在2050之上的百分比是0.0479。


?圖5:SAT成績


另一方面,原始的結果可以用一個平均分數(shù)μ=1509,標準方差的平方根σ=312的正態(tài)曲線來近似。因此,我們也可以從正態(tài)分布曲線來計算分數(shù)低于1850及高于2050的百分比,它們分別對應于圖5b和圖5c中陰影部分的面積。根據(jù)高斯積分求出兩個圖中的面積分別為0.8621和0.0418。對照從原始數(shù)據(jù)的計算結果0.849和0.0479,相差非常小。


由此可以看出,中心極限定理在現(xiàn)實生活中的應用非常廣泛。大數(shù)定律和中心極限定理,都是基于多次實驗結果的古典概率觀點,屬于頻率學派。下一篇中將介紹概率論中極端的兩大派別:頻率學派和貝葉斯學派。


參考文獻:

【1】"Sir Francis Galton F.R.S: 1822-1911". galton.org. Retrieved 9 January 2017.

【2】維基百科:中心極限定理

https://zh.wikipedia.org/wiki/%E4%B8%AD%E5%BF%83%E6%9E%81%E9%99%90%E5%AE%9A%E7%90%86

【3】Gabriel Lippmann (French physicist ,16 Aug 1845 - 13 Jul 1921), Conversation with Henri Poincaré. In Henri Poincaré, Calcul ds Probabilités (1896), 171


制版編輯:呂浩然

參與討論
0 條評論
評論
暫無評論內(nèi)容