人工智慧機器學習之邏輯回歸科技頭條網

2018-06-22 09:26:54 AI和ai

邏輯迴歸是應用非常廣泛的一個分類機器學習算法，它將數據擬合到一個logit函數(或者叫做logistic函數)中，從而能夠完成對事件發生的概率進行預測。

該算法可根據已知的一系列因變量估計離散數值（比方說二進制數值 0 或 1 ，是或否，真或假）。簡單來說，它通過將數據擬合進一個邏輯函數來預估一個事件出現的概率。因此，它也被叫做邏輯迴歸。因為它預估的是概率，所以它的輸出值大小在 0 和 1 之間（正如所預計的一樣）。

邏輯迴歸的優點：最終概率分佈如圖，概率符合人類的大腦思維，例如某機器學習民工是幾百萬富豪，馬雲是幾百億富豪，比爾蓋茨是幾百兆富豪。三者從數學角度，是三個等距離點的分佈，但是通過sigmoid變換，馬雲和比爾蓋茨就分佈在如下圖的上方平行位置，而機器學習民工則在斜率高的中間位置。

優勢:邏輯迴歸中，概率高的樣本準確率會更高，因此在精準營銷領域，需要找到前N%的人員進行營銷時候，命中率會更高。

判定邊界

我們現在再來看看，為什麼邏輯迴歸能夠解決分類問題。這裡引入一個概念，叫做判定邊界，可以理解為是用以對不同類別的數據分割的邊界，邊界的兩旁應該是不同類別的數據。

代價函數與梯度下降

我們通過對判定邊界的說明，知道會有合適的參數θ使得θTx=0成為很好的分類判定邊界，那麼問題就來了，我們如何判定我們的參數θ是否合適，有多合適呢？更進一步，我們有沒有辦法去求得這樣的合適參數θ呢？

這就是我們要提到的代價函數與梯度下降了。

隨機梯度下降SGD (stochastic gradient descent)

梯度下降算法在每次更新迴歸係數的時候都需要遍歷整個數據集（計算整個數據集的迴歸誤差），該方法對小數據集尚可。但當遇到有數十億樣本和成千上萬的特徵時，就有點力不從心了，它的計算複雜度太高。改進的方法是一次僅用一個樣本點（的迴歸誤差）來更新迴歸係數。這個方法叫隨機梯度下降算法。由於可以在新的樣本到來的時候對分類器進行增量的更新（假設我們已經在數據庫A上訓練好一個分類器h了，那新來一個樣本x。對非增量學習算法來說，我們需要把x和數據庫A混在一起，組成新的數據庫B，再重新訓練新的分類器。但對增量學習算法，我們只需要用新樣本x來更新已有分類器h的參數即可），所以它屬於在線學習算法。與在線學習相對應，一次處理整個數據集的叫“批處理”。

邏輯迴歸尤其是二元邏輯迴歸是非常常見的模型，訓練速度很快，雖然使用起來沒有支持向量機（SVM）那麼佔主流，但是解決普通的分類問題是足夠了，訓練速度也比起SVM要快不少。如果你要理解機器學習分類算法，那麼第一個應該學習的分類算法個人覺得應該是邏輯迴歸。理解了邏輯迴歸，其他的分類算法再學習起來應該沒有那麼難了。

尚學堂立志解決中國教育不公平和低效率問題，幫助千千萬萬被傳統教育方式耽誤的人，傳授實用、前沿的知識，成就學員個人理想，為愛你的人和你愛的人創造美好的生活。尚學堂12大精英團隊+各類實戰項目，真正實現1+1>10的目標效果。幫助學員迅速成長，持久騰飛，成就學員“高富帥”人生。

分享到:

閱讀更多 AI和ai 的文章

關鍵字: 人工智能機器學習科技