機器學習中的數學基礎(微積分和概率統計)

機器學習中的數學基礎(微積分和概率統計)


一、微積分與概率論

1、 微分學:

中國教科書中通常首先學習導數,例如中學時期的切線方程,函數單調性,零值點和極值點個數等等,而直到大學時期才引入微分的概念,導致大多數人通常並不瞭解微分和導數之間的關係。

函數在點a處可微,指它的值在所研究點的鄰域內其變化近似是線性的,並且這種近似的誤差是(x-a)的高階無窮小。而導數描述的是,微分定義中線性變化的速度,即係數。即,f(x)-f(a)=L*(x-a)+o(x-a),等式右邊是函數f(x)在a點處的微分,而係數L就是其導數f'(x)。

當函數一階導數的線性逼近不能滿足運算要求時,通常會對無窮小量o(x-a)繼續逼近,因為沒有更好的辦法,所以數學家選擇繼續使用高階導數線性逼近。於是這也就誕生了一元微分學中的巔峰成就:泰勒公式。而數學史上最美的歐拉公式,也可以由exp(x),sinx和cosx的泰勒展開推導出來。微分方程同樣也可以從泰勒展開的角度求解其解析函數。

同理,對於多元函數的全微分而言,函數在多個方向的全微分則使用各個方向偏導數為係數,對其進行線性逼近。

衍生到機器學習的應用上,微分學主要用於求解損失函數的極小值問題。即,對於一個無窮可微的函數J(x),使用梯度下降法和牛頓法尋找它的極小值。兩種方法最大的區別在於,梯度下降法直接沿著函數梯度下降最快,即方向導數最大,函數增長最快的方向迭代優化尋找極值點,而牛頓法則是,間接的通過不斷求解某一特定點鄰域附近的極值點,來迭代優化尋找極值。梯度下降可以直接求解到極小值點,而牛頓法則只能找到極值點,還需要額外判斷函數鄰域是否為凸函數來判別。

從理論上說,梯度下降法中的“梯度方向”首先定義的便是函數增長的方向,然後通過對多變量函數的一階線性逼近來選擇其方向導數最大的方向作為迭代優化的梯度方向,雖然我們並不能精確的知道極值點在什麼地方,但能得到極值點所處的方向。

舉例說明,在一元函數中使用梯度下降法尋找極小值,要使 f(x+

機器學習中的數學基礎(微積分和概率統計)

x) - f(x) ≈ f'(x)·

機器學習中的數學基礎(微積分和概率統計)

x <= 0 恆成立, 手到擒來

機器學習中的數學基礎(微積分和概率統計)

x = -f'(x)。因此,只需使x始終向著-f'(x)的方向移動,便可迭代找到極小值,多元函數同理。

而牛頓法通常用來求解函數的零值點,從計算機的角度來看,要使f(x)≈f(a) +f'(a)·(x-a)≈0,

推出 x=a-

機器學習中的數學基礎(微積分和概率統計)

,通過不斷的迭代,當x收斂時就能求解出函數值為0的近似解。

顯而易見,梯度下降法和牛頓法求零值點的本質相同。那麼,一個求解函數零值的牛頓法,如何應用到求解極值問題呢?我們知道,函數的極值點一定是存在於其駐點,而駐點又是導數為0的點,於是函數的極值點必然位於其導數為0的點,所以牛頓法需要二階逼近。

因此,從求解極值的角度看,牛頓法和梯度下降法本質上都是對目標函數的局部逼近,由於梯度下降是一階逼近,它的計算簡單但收斂速度慢,而牛頓法則剛好相反,具體使用哪個方法則還需要具體問題具體分析。

那求解到局部極值點並不能說明損失函數J(x)最優啊?那最優化問題如何保證呢?這時就需要研究損失函數J(x)的凹凸性了,由Jesen不等式得,如果一個函數為凸函數,則函數的局部極值點就是其全局最值點。Jesen不等式:若f(a·x1+b*x2) <= a·f(x1)+b·f(x2),a+b=1,f(x)是凸函數。

2、 積分學與概率統計:

因為樣本空間中所有事件的概率和為1,將每個自變量看作一個特定事件,Jesen不等式又可以表示為所有事件發生的期望所對應的函數值小於等於各個事件所對應函數值的期望,這時就將概率論和積分學聯繫到了一起。

通常所說的積分,都是黎曼積分。黎曼積分就是採用無限逼近的方法,求解曲線所圍的面積。即,高等數學的核心都是逼近。

積分學中最有名的牛頓-萊布尼茨公式=

機器學習中的數學基礎(微積分和概率統計)

因為導數描繪的是函數的變化,從幾何意義上來說,可微函數f(x)在[a,b]區間內全部變化的總和就是它在兩個端點處的差值。可見,在一定程度上,微分與積分是互逆運算。

同理,多重積分,也可看作積分函數在各個座標軸上分別積分彙總後的結果。

從概率論的角度看,某一事件的概率是構成該事件的隨機變量所有可能概率的求和,即隨機變量概率函數的求和。因此,對於連續型隨機變量來說,由於單個點的概率為0無意義,因此某一事件發生的概率即為該事件概率密度函數在其變化區間內的積分。需要注意的是,概率函數或概率密度函數的定義域即為其對應隨機變量的值域。

具體到機器學習中,最重要的概率應用是貝葉斯公式。

而提到貝葉斯公式,就必須介紹一下,頻率學派和貝葉斯學派,之間的理念衝突。簡單點說,頻率學派相信,事件本身是不確定的,所研究的隨機變量即事件本身,整個樣本空間即為全部事件,因此他們的研究只能通過在客觀世界中不斷做重複隨機試驗來進行。而貝葉斯學派,相信人具有先驗知識,事件本身應該是確定的,只是因為人們的認識不足,而無法判斷事件結果最後會走向何方,它研究的隨機變量通常是估計參數,整個樣本空間就是所有可能的參數值。就擲骰子來舉例,如果事先根據常識假設骰子中每個數字出現的概率都是1/6,每投擲完一次骰子後便重新計算一次概率,通過不斷迭代獲取最新的概率得到最終估計就是貝葉斯的方法。但如果事先不對骰子做任何假設,以圖直接通過大量的隨機獨立重複實驗獲取樣本,通過最大似然法直接求解骰子在何種概率下能發生全體樣本的可能性最高,從而得到骰子的估計概率,這便是頻率學派的方法。

就貝葉斯公式本身來分析,

機器學習中的數學基礎(微積分和概率統計)

。其中,P(

機器學習中的數學基礎(微積分和概率統計)

|X)是參數

機器學習中的數學基礎(微積分和概率統計)

在新樣本X發生後的後驗概率,P(X|

機器學習中的數學基礎(微積分和概率統計)

)是已知

機器學習中的數學基礎(微積分和概率統計)

的前提下發生X的概率=似然函數, P(

機器學習中的數學基礎(微積分和概率統計)

)是通過早期樣本和數據得到的先驗概率,

機器學習中的數學基礎(微積分和概率統計)

是在

機器學習中的數學基礎(微積分和概率統計)

的全樣本空間內發生樣本X的概率和。有趣的是,P(A|B)是基於P(B|A)計算的概率結果,多少有些顛倒因果的意味在裡面。

那麼,機器學習中為什麼普遍使用貝葉斯學派的觀點呢?個人理解,學習一定是知識不斷獲取並更新迭代的過程。因此,計算機首先通過歷史的樣本獲取到先驗知識,然後依照新樣本的輸入來計算後驗概率,更新對該事件的認識,這就是一個貝葉斯公式的過程。

隨機變量的矩所描述的是隨機變量一系列的基本統計特徵,比如期望、方差、偏度和峰度等,均來自矩。而對特徵函數E(exp(itX))求所有k階導又能唯一表示隨機變量的所有原點矩,即特徵函數可唯一的確定隨機變量的矩,所以如果一個函數的特徵函數確定,則該函數的分佈也就隨之確定。

切比雪夫不等式描述了,對於任意存在期望u和標準差s的隨機變量X來說,|X-u|落在k·s以外概率的最大上界

機器學習中的數學基礎(微積分和概率統計)

,而對於其他常見的分佈而言,該上界可以比較小。該不等式的意義在於,它給出了方差對於X分散程度的一種定量描述。

統計學中,可以分別用協方差和相關係數,描述隨機變量X和Y之間的關係。協方差有量綱,是它描述隨機變量間相關程度的缺點,它的大小與隨機變量的度量單位有關,對kX與kY間的統計關係,理論上和X與Y間的統計關係相同,但它們的協方差卻差了

機器學習中的數學基礎(微積分和概率統計)

倍!為了避免這個問題,可將每個隨機變量標準化去量綱,即除以其各自的標準差,相關係數由此誕生。需要注意的是,兩個隨機變量的相關係數等於0,僅代表兩者線性無關,並不能說互相獨立。因為獨立表示不存在所有關係。因此協方差本身也表示隨機變量間的線性關係,這又與微積分中的線性逼近產生了聯繫!

最後就是大數定理與中心極限定理,大數定理描述做無數次獨立重複的實驗,樣本X的統計均值一定依概率收斂至期望,依概率的意思就是從概率的角度上看與期望相差無二。而中心極限定理描述,獨立同分布的任意隨機變量加總一定依概率收斂至正態分佈。簡單說,大數定理描述

機器學習中的數學基礎(微積分和概率統計)

趨近於一個數u,而中心極限定理則說明,它是以正態分佈的方式趨近於u。

兩者在現實中的應用是,保險和對未知隨機變量分佈的假設。保險,對於每個個體來說,其發生事故的概率不同,但作為人類這個整體來說發生的綜合概率一定趨近於其均值,因此保險報銷費用的期望是一定的,投保的人數越多,保險公司賺錢的概率就越大。而未知隨機變量分佈的假設,對一個複雜事件的綜合效應,即股票的波動,人們普遍認為它是由任意未知個效應的綜合結果,而對其分佈最簡單合理的假設便是股票波動從中心極限定理的角度服從正態分佈,剩下的只需要估計其期望和方差即可。

3、 參數估計:

所謂參數估計,就是通過樣本對總體中未知參數進行估計,它是統計推斷的基礎,是建立統計模型的一個基本步驟。它主要包含2個大類:點估計和區間估計。點估計是得到分佈函數中某個參數的特定值,而區間估計則是描述該參數會以多大的置信度落入某個區間。

點估計中最常見的是矩估計和最大似然估計。矩估計,即利用隨機變量的樣本矩去估計總體矩。它的基本思想是大數定律:無限多次獨立重複實驗所產生的樣本均值依概率收斂至期望,期望是總體分佈的一階矩,由此便建立了樣本矩(均值)和總體矩(期望)間的關係,這也被叫作替換原則。矩估計能同時解決在實際中經常遇到的2大問題:第1,在未知總體分佈時,可直接求出該總體所有的矩估計值,從而瞭解其重要的特徵量。我們在實驗中拿到一批樣本數據,經常不管三七二十一先估計它的期望和方差就是這個應用。第2,在已知總體分佈時,求解關於未知參數的總體期望和方差的解析式,將解析式與樣本矩建立聯繫求解未知參數估計值。但由於矩估計沒有充分利用分佈所提供的信息,通常使得參數估計的解析式多於需要估計的參數個數,所以一般情況下,矩估計量不具有唯一性。經驗上會選擇使用低階矩去計算未知參數的估計值,因為總體分佈的高階矩有可能不存在。正是由於以上2點,矩估計通常只用於在總體分佈未知的情況下去計算樣本特徵值,而當總體已知時,通常使用極大似然估計法。

極大似然估計:即,最大化似然函數。簡單說,它將已發生的隨機變量樣本值當作已知,而將未知參數看作變量,通過計算最有可能產生該樣本的似然函數來估計參數值。方法和公式都很簡單,同時符合人們的直觀認知。

那麼對同一組樣本估計出的多個參數值,如何評判它們誰優誰劣呢?這就引出了點估計的4大評判標準:相合性,無偏性,有效性和漸進正態性。

相合性是指,當獨立重複試驗的樣本趨於無窮時,參數的估計量會收斂到參數真實值。相合性是對參數估計量最基本的要求,就矩估計和極大似然估計來說,相合性都由大數定律來保證。因此,對於矩估計和極大似然估計所計算出來的參數估計值均滿足相合性。

無偏性是指,對於有限的樣本,參數估計量所符合的分佈期望等於參數的真實值。當樣本無限時,由相合性可知,參數的估計量可以近似認為就是參數本身。但現實生活中無限樣本不存在,退而求其次,在樣本有限的情況下,我希望由不同樣本所估計出的參數本身期望值要等於其真實值。

就正態分佈方差的矩估計和極大似然估計來說,都傾向於低估方差,低估量Var(

機器學習中的數學基礎(微積分和概率統計)

)是係數為

機器學習中的數學基礎(微積分和概率統計)

機器學習中的數學基礎(微積分和概率統計)

之間的差異。因此,教科書上所說的樣本方差與參數估計所估計出的方差略有不同。

有效性是指,對參數估計值所符合的分佈來說,方差越小越好。一般情況下,估計參數越收斂,我們就認為它越接近真實值,基於這一點,當存在符合相合性和無偏性的兩個參數估計量時,通常取方差較小的那個更優。

漸進正態性是指,當樣本趨於無窮時,去中心化去量綱的參數估計量符合標準正態分佈。漸進正態性的概念和中心極限定理有點兒像,若將參數本身作為一個隨機變量,不同的參數估計量作為樣本,漸進正態性就是一箇中心極限定理的特徵。(這個比方是否恰當還有待考證。)

最後就是區間估計,即參數在多大的置信度上會落入一個區間,參數估計得越準確,區間越收斂。個人認為區間估計在工程上作用不大,完全就是對自己的估計結果沒有自信。若點估計準了,區間估計自然也準,兩者只會發生同時準確或同時不準的情況,因此仔細將點估計研究透徹便好。

來源:AI研習社作者:鄒佳敏

原文鏈接:https://ai.yanxishe.com/page/blogDetail/9331

關注V信公眾號:七月在線實驗室,查看更多幹貨資料,BAT面試題等


分享到:


相關文章: