把貝葉斯、奧卡姆和香農約一塊兒,探討下機器學習的定義!

點擊上方關注,All in AI中國

作者: Tirthajyoti Sarkar

機器學習是一個絕妙的想法,它將統計學、信息理論和哲學的概念聯繫在一起。

介紹

把貝葉斯、奧卡姆和香農約一塊兒,探討下機器學習的定義!

有些令人驚訝的是,在機器學習的所有高級流行術語中,我們並沒有聽到太多關於將統計學、信息理論、自然哲學的一些核心概念融合為三個單詞組成的短語。

並且,它不僅僅是一個機器學習(ML)博士和理論家採用的模糊和晦澀的術語。對於任何有興趣探索的人來說,它都具有精確且易於訪問的意義,併為機器學習和數據科學的從業者提供實際的回報。

我在探討最簡練的描述。而你可能在想這到底是什麼…

讓我們瞭解一下它將是多麼有用......

貝葉斯及其定理

我們先從托馬斯·貝葉斯(Thomas Bayes)開始(這不是按時間順序),順便說一下,他從未發表過關於如何進行統計推斷的想法,但後來因為同名定理而聞名於世。

把貝葉斯、奧卡姆和香農約一塊兒,探討下機器學習的定義!

在18世紀下半葉,並沒有數學科學的分支稱之為"概率論"。它只是簡單地被稱為一種奇怪的"機會主義",這以亞伯拉罕·德·莫伊弗雷的一本書命名。一篇名為"關於解決機會問題的文章"(Doctrine of Chances),貝葉斯首先提出,由他的朋友理查德·普萊斯編輯和修改,並發表在倫敦皇家學會的哲學交易中。在這篇文章中,貝葉斯以一種相當頻繁的方式描述了關於聯合概率的簡單定理,該定理導致逆概率的計算,即貝葉斯定理。

自那時以來,統計科學的兩個派別 - 貝葉斯和Frequntists兩派之間開展了許多爭論。但是為了本文的目的,讓我們暫時忽略這段歷史,並專注於貝葉斯推理機制的簡單解釋。有關該主題的直觀介紹,請參閱Brandon Rohrer的這篇精彩教程,雖然我只關心方程式。

把貝葉斯、奧卡姆和香農約一塊兒,探討下機器學習的定義!

這基本上告訴你在看到數據/證據(可能性)後更新你的信念(先驗概率),並將更新的信念度分配給術語後驗概率。你可以從一個信念開始,但每個數據點都會強化或削弱這種信念,並且將會一直更新你的假設。

聽起來是不是簡單直觀?

我在段落的最後一句中有一個用詞,你注意到了嗎?我提到"假設"一詞。這不是我進行的假設,而是正式的說法。

在統計推斷的世界中,假設是一種信念。它是關於過程的真實性質(人們永遠無法觀察到)的信念,即產生隨機變量的背後(我們可以觀察或測量,儘管並不是沒有噪聲)。在統計中,它通常被定義為概率分佈。但是在機器學習的背景下,可以考慮任何一組規則(或邏輯或過程),我們認為這些規則可以產生示例或訓練數據,我們可以學習這個神秘過程的隱藏性質。

因此,讓我們嘗試採用不同的符號重構貝葉斯定理,這些是與數據科學有關的符號。讓我們用d表示數據,用h表示假設。這意味著我們應用貝葉斯的公式來嘗試確定數據來自哪個假設,給定數據。我們把定理改寫為,

把貝葉斯、奧卡姆和香農約一塊兒,探討下機器學習的定義!

現在,一般來說,我們有一個很大的(通常是無限的)假設空間,即許多假設可供選擇。貝葉斯推斷的本質是我們想要檢查數據以最大化一個假設的概率,該假設最有可能產生觀察到的數據。我們想要確定P(h | D)的argmax,即我們想知道哪個h,觀察到的D是最可能的。為此,我們可以安全地將該術語放在分母P(D)中,因為它不依賴於假設。該方案通過很拗口的最大後驗概率(MAP)名稱而為人所知。

現在,我們應用以下數學技巧,

•最大化對於對數與原始函數同樣有效,即採用對數不會改變最大化問題。

•乘積的對數是各個對數的總和

•數量的最大化等同於負數的最小化

把貝葉斯、奧卡姆和香農約一塊兒,探討下機器學習的定義!

是不是很好奇 ......那些負對數為2的術語看起來很熟悉......這來自信息論!

那麼以下了解一下克勞德·香農。

香農

描述克勞德·香農(Claude Shannon)的天才和生活將需要很多文章篇幅。而克勞德·香農幾乎單槍匹馬地奠定了信息理論的基礎,並引領人們進入現代高速通信和信息交流的時代。

香農的麻省理工學院(MIT)電氣工程碩士論文被稱為20世紀最重要的碩士論文:當時22歲的香農展示瞭如何利用繼電器和開關的電子電路實現19世紀數學家喬治·布爾的邏輯代數。數字計算機設計的最基本特徵,也就是將"真"和"假"、"0"和"1"表示為開關或閉合開關,以及使用電子邏輯門進行決策和執行算術,這可以追溯到香農論文中的見解。

但這只是他最偉大的成就之一。

1941年,香農加入貝爾實驗室,在那裡他從事有關戰爭事務的研究,包括密碼學。他還在研究信息和通信背後的原始理論。1948年,這項工作出現在貝爾實驗室研究期刊上發表的一篇廣受好評的論文中。

香農通過類似於定義物理學中熱力學熵的方程式來定義信息源產生的信息量。例如,消息中的數量。在最基本的術語中,香農的信息熵是編碼消息所需的二進制數字的數量。並且對於具有概率p的消息或事件,該消息的最有效(即緊湊)編碼將需要-log2(p)比特。

而這正是出現在貝葉斯定理中的最大後驗表達式中出現的那些術語的本質!

因此,我們可以說,在貝葉斯推理的世界中,最可能的假設取決於兩個引起長度感覺的術語 - 而不是最小化Length (h)。

把貝葉斯、奧卡姆和香農約一塊兒,探討下機器學習的定義!

但那些長度的概念可能是什麼呢?

Length (h):奧卡姆的剃刀

奧卡姆(威廉William of Ockham)(1287-1347)是英國聖方濟各修士和神學家,也是一位有影響力的中世紀哲學家。他作為一個偉大的邏輯學家而聞名於世主要取決於他所說的格言,被稱之為奧卡姆剃刀。術語剃刀是指通過"剃掉"不必要的假設或分割兩個類似的結論來區分兩個假設。

歸於他的確切詞彙是:entia non sunt multiplicanda praeter necessitatem(如無必要,勿增實體)。用統計學的說法,這意味著人們必須努力用最簡單的假設來解釋所有數據。

其他著名學者也回應了類似的原則。

伊薩克·牛頓爵士(Sir Issac Newton):"我們應該承認,尋求自然事物的原因,不得超出真實和足以解釋其現象者。"

伯特蘭·阿瑟·威廉·羅素(Bertrand Russell):"只要可能,就用由已知實體組成的構造來代替推導出未知實體的推論"。

總是喜歡較短的假設。

需要一個關於假設的長度的例子嗎?

以下哪個決策樹的長度較短? A還是B?

把貝葉斯、奧卡姆和香農約一塊兒,探討下機器學習的定義!

即使沒有對假設的"長度"的精確定義,我相信你會認為左邊的樹(A)看起來更小或更短。當然,你是對的。因此,較短的假設是具有較少的自由參數,或複雜較小的決策邊界(對於分類問題),或這些屬性的某種組合,其可以表示其簡潔性。

那麼''Length(D|h)'是什麼?

給定假設是數據的長度。這意味著什麼?

在直覺上,它與假設的正確性或表徵能力有關。除其他事項外,它還包含一個假設,即"推斷"數據的好壞程度。如果假設真的很好地生成數據並且可以無錯誤地測量數據,那麼我們根本不需要數據。

想一想牛頓的運動定律。

當這些理論首次出現在《科學溯源》(Principia)時,並沒有任何嚴格的數學證明。它們不是定理。根據對自然體運動的觀察,它們很像假設。但是這些理論真的很好地描述了數據。因此,他們成為了物理定律。

這就是為什麼你不需要記憶所有的加速度數字,並作為施加在物體上的力的函數的原因。你只相信這個緊湊的假設,即F=ma定律,並且相信你需要的所有數字,只要在必要時就可以從中計算。它使Length(D|h)非常小。

但是,如果數據與緊湊假設相差很大,那麼你需要對這些偏差可能的解釋進行長時間的描述。

因此,Length(D|h)簡潔地捕捉了"數據與給定假設的擬合程度"的概念。

本質上,它是錯誤分類或錯誤率的概念。對於一個完美的假設,它是短的,在極限情況下為零。對於一個不完全符合數據的假設,它往往是很長的。

這就是權衡。

如果你用奧卡姆的剃鬚刀剃掉你的假設,你可能會留下一個簡單的模型,一個不能適應所有數據的模型。因此,你必須提供更多的數據來獲得更好的信心。另一方面,如果你創建了一個複雜(且很長)的假設,那麼你可能真的能夠很好地擬合您的訓練數據,但是這實際上可能不是正確的假設,因為它違背了具有小熵假設的MAP原則。

聽起來像一個偏差方差權衡?是的。

把貝葉斯、奧卡姆和香農約一塊兒,探討下機器學習的定義!

把它們放在一起

因此,貝葉斯推斷告訴我們,最佳假設是最小化假設長度和錯誤率這兩個項之和的假設。

在這個深刻的句子中,它幾乎捕獲了所有(受監督的)機器學習。

想想它的後果,

•線性模型的模型複雜度 - 選擇多項式的程度,如何減少平方和殘差。

•選擇神經網絡的體系結構 - 如何不過度擬合訓練數據並獲得良好的驗證準確性,但減少分類錯誤。

•支持向量機正則化和軟邊界與硬邊界之間的平衡的內核選擇,即利用決策邊界非線性來權衡精度。

總結與思考

一個奇妙的事實是,在概率論的基本恆等式進行這樣一套簡單的數學操作可以導致對監督機器學習的基本限制和目標進行如此深刻和簡潔的描述。對於這些問題的簡要處理,讀者可以參考卡內基梅隆大學的博士論文"為什麼採用機器學習"。

同樣值得思考的是,所有這些都與"沒有免費午餐定理"有關。https://en.wikipedia.org/wiki/No_free_lunch_theorem

如果你對這個領域有更深層次的興趣,可以參閱:

1."沒有免費午餐和最小描述長度"

citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.160.798&rep=rep1&type=pdf

2."在監督學習中沒有免費午餐與奧卡姆剃刀"

https://pdfs.semanticscholar.org/83cd/86c2c7e507e8ebba9563a9efaba7c966a1b3.pdf

3."沒有免費午餐和問題描述長度"www.no-free-lunch.org/ScVW01.pdf

把貝葉斯、奧卡姆和香農約一塊兒,探討下機器學習的定義!


分享到:


相關文章: