本文來自公眾號:超級數學建模
微信號 :supermodeling
除了與幾何概型有關的貝特朗悖論,貝特朗於1889年還提出了另一個貝特朗盒子悖論,這個悖論有一個著名的現代版本,實際上不算是“悖論”,因為它沒有邏輯矛盾。
但它是一個與博弈論相關的有趣的數學遊戲。
首先寫在這兒讓諸位娛樂一下。
三門問題
這個問題有好幾個等效版本,最早一版的日期可追溯到19世紀的貝特朗。
該問題在數學本質上也等同於馬丁·加德納1959年提出的“三囚犯問題”【1】。
不過這些老版本長時間都默默無聞,只是到了100多年之後的1990年左右,卻熱門了一陣子,在公眾中引起熱烈的討論。
其原因要歸功於美國一個著名的,從上世紀80年代一直延續至今的電視遊戲節目Let's Make a Deal。
由此例也足以可見現代媒體在公眾中普及科學知識之威力。
當年的節目主持人蒙特霍爾(MontyHall)善於與參賽者打心理戰,經常突如其來地變換遊戲規則,給參賽人和觀眾都來個猝不及防。
既使得觀眾們困惑不已,又迫使參賽者“腦筋急轉彎”,三門問題及各種變通版本便是他經常使用的法寶。
後來有人便將此遊戲以主持人的名字命名,也稱之為蒙特霍爾問題【2】。
在三扇關閉了的門後面,分別藏著汽車和兩隻山羊。
如果參賽者選中了後面有汽車的那扇門,便能贏得該汽車作為獎品。
顯而易見,這種情況下,參賽者贏得汽車的概率是1/3。
圖1:三門問題
不過,主持人有一次稍微將遊戲規則改變了一點點。
當參賽者選擇了一扇門但尚未打開之際,知道門後情形的主持人說:
“等等,我現在給你第二次機會。
首先,我將打開你沒有選擇的兩扇門中有山羊的一扇,你可以看到門內的山羊。
然後,你有兩種可能性:改變你原來的選擇(交換),或者保留原來的選擇(不交換)。”
主持人的意思是說:在參賽者選擇之後,他打開一扇有山羊的門,留下一扇未開之門,讓參賽者決定要不要將原來的選擇與剩下的未開之門“交換”?
要不要交換?我們不從“碰運氣”而是從“概率”的角度來思考這個問題。
如果不交換,保持原狀的話,得汽車的概率是1/3。
如果交換的話,是否能增加抽到汽車的概率呢?
答案是會。
轉換選擇(交換)可以增加參賽者的機會,如果參賽者同意“換門”,他贏得汽車的概率從1/3增加到2/3。
讓我們來分析一下整個遊戲過程中,由於參賽者的不同選擇而產生的各種具體情況,以及在這些情況下選擇“交換”後的結果。
參賽者指定3道門中的一道,有三種可能的情況,每種選擇的幾率相等(1/3),見圖2中的a、b、c:
(a)參賽者挑選有汽車的第1道門,主持人挑兩頭羊的任何一頭,開門。交換將失敗。
(b)參賽者挑選有羊的第2道門,主持人打開第3道門。交換將贏得汽車。
(c)參賽者挑選有羊的第3道門,主持人打開第2道門。交換將贏得汽車。
圖2:參賽者“同意轉換”得到汽車的概率變成2/3。
在後兩種情況,參賽者均可利用轉換選擇而贏得汽車,只有第一種情況將使得參賽者因轉換選擇而倒黴。
參賽者的轉換選擇,使得三種情況中的兩種贏,一種輸。
所以選擇“交換”,將贏的概率增加到2/3。
也可以換一種思維方式來理解這個問題。
因為3道門中2道是羊,1道是汽車。
所以參賽者最初選到汽車的概率是1/3,選到羊的概率是2/3。
如果參賽者先選中汽車,換後一定輸;如果先選中羊,換後一定贏。
因此選擇“交換”而贏的概率,就是開始選擇羊的概率為2/3。
也許三門問題的解釋仍然有些使人困惑之處。
但如果將門的數目增加到10道門(主持人開啟8道有“羊”的門,留下1扇),100道門(主持人開啟98道有“羊”的門,留下1扇),甚至1000道門(主持人開啟998道有“羊”的門,留下1扇)。
這些情況下,參賽者選擇“交換”使概率增加的結論便顯而易見了。
例如,圖3顯示的是10道門的情形。
圖3:十門問題
如果門的數目增加到10,其中9道門中是羊,1道是汽車。
參賽者開始也選中3號門,但3號門是汽車的概率只有1/10。
然後,主持人開啟了8道有羊的門,剩下2號門以及參賽者選中的3號,並問參賽者是否要“交換”?
這次參賽者的腦袋比較清醒:3號門是汽車的可能性是1/10,剩下的9/10的可能性都在2號門,交換使得概率增大9倍,當然要換,傻子才不換!
其實說“傻子才不換”,是有些不公平的。
我們來想想看所謂的“貝葉斯派”會怎麼說這個問題?
三門問題存在一個客觀的概率分佈(舉10門為例)。
“有”汽車的概率分佈情況:有車之門概率為1,其餘9門概率為0。
不過這個客觀概率只有上帝(主持人)知道,外面的人只能憑主觀猜想。
他們所謂的概率只是他們根據已知的信息進行猜測的主觀概率。
這兒有兩種基本的猜測方法(最開始的第一次,兩種方法都使用概率均分,每個門的概率均為1/10):
1. (主觀地)認為選中那道門的概率不再改變,永遠=1/10,其餘的9/10在其它門中均分。
因此,後來,每當主持人打開1道有羊的門,其餘的門的概率變化(增加)。
但第一次選定之門概率不變(1/10)。
因此參賽者認為“要交換”!
2. (主觀地)認為選中那道門的概率與其它門的概率同樣如下變化:1/10,1/9,……,1/2。
因此,後來兩道門的概率均為1/2,換不換無所謂!
筆者認為這兩種都是他們各自的主觀概率,那些概率值並不是客觀存在,而是兩個人的主觀判定。
兩種方法最後都不會得到客觀概率,除非再打開一道門。
本福特定律
法蘭克·本福特(FrankBenford, 1883–1948)本來是一個美國電氣工程師,也是一名物理學家,在美國通用電氣公司(GE)實驗室裡工作多年直到退休。
這位工程師在50多歲的時候,卻迷上了一個與概率有關的課題。
課題得到的結論便是現在我們所說的“本福特定律”。
事實上,本福特定律的最早發現者並不是本福特,而是美國天文學家西蒙·紐康。
紐康於1877年成為美國航海天文歷編制局局長,並組織同行們重新計算所有主要的天文常數。
繁雜的天文計算經常需要用到對數表,但那個時代沒有互聯網,沒有阿里雲,對數表被印成書本,存於圖書館。
細心的紐康發現一個奇怪的現象:對數表中包含以1開頭的數的那幾頁比其他頁破爛得多,似乎表明計算所用的數值中,首位數是1的概率更高。
因此他在1881年發表了一篇文章提到並分析了這個現象【3】。
但沒有引起人們的注意,直到57年之後的1938年,本福特又重新發現這個現象。
說來令人奇怪,科學定律的發現有時候來自於一些毫不起眼,小得不能再小的現象。
本福特的發現便是如此:
以1開頭的數字比較多,這也算是一個定律嗎?本福特發現這種現象不僅僅存在於對數表中,也存在於其它多種數據中。於是,本福特檢查了大量數據而證實了這點【4】。
本福特定律是一個乍聽起來有點奇怪並違反直覺的現象。
我們舉一個例子說明它。
設想某銀行有1000多個儲存賬戶,金額不等。
比如說,張本有存款23587元、老李1345元、小何35670元、劉紅9000元、王軍450元……等等。
奇怪的本福特定律不感興趣存款金額本身,而感興趣這些數值的開頭第一位有效數字是什麼,指的是這個數的第一個非零數字。
例如8.1、81、0.81的第一位有效數字都是8。
比如說,剛才幾個人存款數的第一位數字分別是2、1、3、9、4。
所以,本福特定律也叫“首位數字定律”。
一個數的第一位(非零)數字可能是1到9之間的任何一個。
現在,如果我問,在剛才那個銀行的上千個存款數據中,第一位數字是1的概率是多大?
不需要經過很多思考,大部分人都會很快地回答:應該是1/9吧。
因為從1-9,9個數字排在第一位的概率是相等的,每一個數字出現的概率都是1/9,大約11%左右。
圖4:本福德定律(首位數定律)及其應用實例
這聽起來十分正常的思維方法卻與許多自然得到的數據所遵循的規律不一樣。
人們發現,很多情況下,第一個數字是1的概率要比靠直覺預料的11%大得多。
數字越大,出現在第一位的概率就越小,數字9出現於第一位的概率只有4.5%左右。
各個數字出現在第一位的概率遵循如圖4左圖所示的概率分佈。
本福德和紐康都從數據中總結出首位數字為n的概率公式是:
P(n)=logd(1+1/n)
其中d取決於數據使用的進位制,對十進制數據而言,d=10。
因此,根據本福德定律,首位數是1的概率最大,log102=0.301,十成中佔了三成;首位數是2的概率log10(3/2)=0.1761;然後逐次減小,首位數是9的概率最小,只有4.6%。
圖4右圖所示的是符合本福德首位數法則的幾個例子:人口統計、基本物理常數、斐波那契數、階乘。
本福德收集並研究了20229個統計數據,分成20組,包括諸如河流面積、人口統計、分子及原子重量、物理常數等多種來源的資料。
數據來源雖然千差萬別,卻基本上符合本福德的對數法則,見圖5所示的數據表。
表中的最後一列數值,是根據本福特的對數規律公式計算得到的每個數字出現於首位的概率,讀者可以將它與真實數據相比較。
本福特定律適用範圍異常廣泛,自然界和日常生活中獲得的大多數數據都符合這個規律。
儘管如此,但畢竟還是有其應用範圍,主要是受限於如下幾個因素:
1.這些數據必須跨度足夠大,樣本數量足夠多,數值大小相差幾個數量級;
2. 人為規則的數據不滿足本福特定律。
比如說,按照某種人為規則設計選定的電話號碼、身份證號碼、發票編號,為造假而人工修改過的實驗數據等,都不符合本福特法則。
彩票上的隨機數據也不符合第一數字定律。
圖5:本福德從大量數據中得到的首位數字概率表
如何理解本福德定律
儘管本福德和紐康都總結出了首位數字的對數規律,但並未給出證明,直到1995年美國學者Ted Hill才從理論上對該定律作出瞭解釋,進行了嚴謹的數學證明【5】。
雖然本福德定律在許多方面都得到了驗證和應用,但對於這種數字奇異現象人們依舊是迷惑不解。
到底應該如何直觀理解本福德定律?為什麼大多數數據的首位數字不是均勻分佈而是對數分佈的?
有人探求數“數”的方法,來直觀理解本福德定律。
他們的意思是說,當你計算數字時,順序總是從1開始,1,2,3,...,9,如果到9就終結的話,所有數起首的機會都相同,但9之後的兩位數10至19,以1起首的數則大大多於其他數字。
之後,在9起首的數出現之前,必然會經過一堆以2,3,4,...,8起首的數。
如果這樣的數法有個終結點,然後又重新從1開始的話,以1起首的數的出現率一般都應該比較大。
可以用這種理解方法來解釋街道號碼(地址)一類的數據。
一般來說,每條街道的號碼都是從1算起,街道長度有限,號碼排到某一個數就終止了。
另一條街又有它自己的從1開始的號碼排列,這樣的話,看起來,1開頭的號碼是要多一些的。
但這種解釋也太不“數學”了!
況且,這種理解無法說明另外一類數據為什麼也符合本福德原則。
比如說,“物理常數”的集合、出生率、死亡率等,就不是從1開始計算到有限長度就截止的那種數據了。
另一種解釋是認為“首位數字定律”的根源是由於數據的指數增長。
指數增長的序列,數值小的時候增長較慢,由最初的數字1增長到另一個數字2,需要更多時間,所以出現率就更高了。
舉個例子來深入說明這個道理。
考慮你有100美元存到銀行裡,年利是10%,25年中,你每年的存款金額將是($,只保留了整數部分):
100、110、121、133、146、161、177、195、214、236、259、285、314、345、380、418、459、505、556、612、673、740、814、895、985
這是一個指數增長的序列。
在這組數據的25個數中,首位數字為1的有8個(32%);2的4個;3的3個……9的只有1個(4%)。
那是因為從首位為1增加到首位為2,經過了更長的時間(8年),從首位為2,只經過4年就變成了首位為3,而首位為9的話,下一年就不是9了。
所以,指數增長規律的數列的確符合本福德法則。
讀者也許會有疑問:你上面的數列選擇從100開始,1打頭的比較多,如果從別的數字開始,規律是否會改變呢?
讀者可以試驗一下,從別的數開始得到的數據列,也一樣符合本福德法則。
此外,你還可以將美元換算成人民幣,得到的數據仍然會遵循本福德法則,這也說明本福德定律具有“尺度不變性”。
幫助偵破“數據造假”
不管你如何詮釋本福德定律,它是一個客觀存在,並且十分有用!
由於大多數財務方面的數據,都滿足本福德定律。
因此,它可以用作檢查財務數據是否造假。
美國華盛頓州偵破過一個當時最大的投資詐騙案,金額高達1億美元。
詐騙主謀凱文·勞倫斯及其同夥,以創辦高技術含量的連鎖健身俱樂部為名,向5000多個投資者籌集了大量資金。
然後,他們挪用公款用作自身享樂,為他們自己買豪宅、豪華汽車、珠寶等。
為了掩飾他們的不法行為,他們將資金在海外公司和銀行間進行頻繁轉賬,並且人為做假賬,給投資者造成生意興隆的錯覺。
所幸當時有一位會計師(Darrell Dorrell )感覺不對頭,他將70000多個與支票和匯款有關的數據收集起來,將這些數據首位數字發生的概率與本福德定律相比較,發現這些數據通過不了第一數字法則的檢驗。
最後經過了3年的司法調查,終於拆穿了這個投資騙局。
2002年,勞倫斯被判20年牢獄。
2001年,美國最大的能源交易商安然公司宣佈破產,並傳出公司高層管理人員涉嫌做假賬的傳聞。
據說安然高層改動過財務數據,因而他們所公佈的2001-2002年每股盈利數據不符合本福特定律【6】。
此外,本福德定律也被用於股票市場分析、檢驗選舉投票欺詐行為等。
圖6:安然公司數據vs本福德定律
(圖片來源:The wall street journal【6】)
美國稅務局也利用本福德規則來檢驗報稅表,揪出逃稅漏稅行為。
據說有人曾經用此定律來檢驗美國前總統克林頓10年內的報稅數據,不過沒有發現破綻。
【1】Gardner, Martin (1959). "Mathematical Games"column, Scientific American, October 1959, pp. 180–182.
【2】Bohl, Alan H.; Liberatore, Matthew J.; and Nydick, Robert L.(1995). "A Tale of Two Goats ... and a Car, or The Importance ofAssumptions in Problem Solutions". Journal of RecreationalMathematics 1995, pp. 1–9.
【3】Newcomb, S (1881). "Note on the frequency of use of thedifferent digits in natural numbers". American Journal of Mathematics. 4(1): 39–40.
【4】Benford, F. (1938), The law of anomalous numbers, Proc.Amer.
PhilosophicalSoc. 78, 551–572.
【5】Hill, T. P. "A Statistical Derivation of theSignificant-Digit Law." Stat. Sci. 10, 354-363, 1996.。
【6】“The wall streetjournal”
https://www.wsj.com/articles/accountants-increasingly-use-data-analysis-to-catch-fraud-1417804886
徵 稿 啟 示
中國科學探索中心微信公眾號歡迎賜稿!
稿件內容以反偽破迷為核心思想,科技哲學、科學與公眾、世俗人文主義、科技倫理等領域均可涉及,旨在將科學探索結果無偏見地告知公眾,避免公眾上當受騙。
稿件一經採用,我們將奉上稿酬。
投稿郵箱:[email protected]
中國科學探索中心
崇尚科學 反偽破迷
您的關注和轉發,是對科學事業最大的支持!
閱讀更多 中國科學探索中心 的文章