人工智慧機器學習之邏輯回歸

邏輯迴歸是應用非常廣泛的一個分類機器學習算法,它將數據擬合到一個logit函數(或者叫做logistic函數)中,從而能夠完成對事件發生的概率進行預測。

該算法可根據已知的一系列因變量估計離散數值(比方說二進制數值 0 或 1 ,是或否,真或假)。簡單來說,它通過將數據擬合進一個邏輯函數來預估一個事件出現的概率。因此,它也被叫做邏輯迴歸。因為它預估的是概率,所以它的輸出值大小在 0 和 1 之間(正如所預計的一樣)。

人工智能機器學習之邏輯迴歸

邏輯迴歸的優點:最終概率分佈如圖,概率符合人類的大腦思維,例如某機器學習民工是幾百萬富豪,馬雲是幾百億富豪,比爾蓋茨是幾百兆富豪。三者從數學角度,是三個等距離點的分佈,但是通過sigmoid變換,馬雲和比爾蓋茨就分佈在如下圖的上方平行位置,而機器學習民工則在斜率高的中間位置。

優勢:邏輯迴歸中,概率高的樣本準確率會更高,因此在精準營銷領域,需要找到前N%的人員進行營銷時候,命中率會更高。

判定邊界

我們現在再來看看,為什麼邏輯迴歸能夠解決分類問題。這裡引入一個概念,叫做判定邊界,可以理解為是用以對不同類別的數據分割的邊界,邊界的兩旁應該是不同類別的數據。

人工智能機器學習之邏輯迴歸

代價函數與梯度下降

我們通過對判定邊界的說明,知道會有合適的參數θ使得θTx=0成為很好的分類判定邊界,那麼問題就來了,我們如何判定我們的參數θ是否合適,有多合適呢?更進一步,我們有沒有辦法去求得這樣的合適參數θ呢?

這就是我們要提到的代價函數與梯度下降了。

隨機梯度下降SGD (stochastic gradient descent)

梯度下降算法在每次更新迴歸係數的時候都需要遍歷整個數據集(計算整個數據集的迴歸誤差),該方法對小數據集尚可。但當遇到有數十億樣本和成千上萬的特徵時,就有點力不從心了,它的計算複雜度太高。改進的方法是一次僅用一個樣本點(的迴歸誤差)來更新迴歸係數。這個方法叫隨機梯度下降算法。由於可以在新的樣本到來的時候對分類器進行增量的更新(假設我們已經在數據庫A上訓練好一個分類器h了,那新來一個樣本x。對非增量學習算法來說,我們需要把x和數據庫A混在一起,組成新的數據庫B,再重新訓練新的分類器。但對增量學習算法,我們只需要用新樣本x來更新已有分類器h的參數即可),所以它屬於在線學習算法。與在線學習相對應,一次處理整個數據集的叫“批處理”。

人工智能機器學習之邏輯迴歸

邏輯迴歸尤其是二元邏輯迴歸是非常常見的模型,訓練速度很快,雖然使用起來沒有支持向量機(SVM)那麼佔主流,但是解決普通的分類問題是足夠了,訓練速度也比起SVM要快不少。如果你要理解機器學習分類算法,那麼第一個應該學習的分類算法個人覺得應該是邏輯迴歸。理解了邏輯迴歸,其他的分類算法再學習起來應該沒有那麼難了。

尚學堂立志解決中國教育不公平和低效率問題,幫助千千萬萬被傳統教育方式耽誤的人,傳授實用、前沿的知識,成就學員個人理想,為愛你的人和你愛的人創造美好的生活。尚學堂12大精英團隊+各類實戰項目,真正實現1+1>10的目標效果。幫助學員迅速成長,持久騰飛,成就學員“高富帥”人生。


分享到:


相關文章: