邏輯回歸算法面經

2018-10-10 23:10:28 領釦網

邏輯迴歸是個看似簡單又在面試中常常被問到的機器學習算法，雖然表面上看起來很簡單，容易掌握，但真正問到細節時卡住，在某些點上還是容易卡住的。

所以，給大家的建議是在面試時，如果面試官讓你說一個自己最精通的機器學習算法，那麼建議大家不要直接說自己精通邏輯迴歸，因為十分容易被問到，從而減分。

推薦大家將 SVM 算法作為自己的第一個算法去講解，因為 SVM 沒有那麼多小細節，只要掌握了就不容易掉坑裡。下面總結一下面試中邏輯迴歸的常見考點。

1、簡單介紹一下算法

邏輯迴歸是在數據服從伯努利分佈的假設下，通過極大似然的方法，運用梯度下降法來求解參數，從而達到將數據二分類的目的。

2、邏輯迴歸目的

將數據進行二分類

3、邏輯迴歸是如何做分類的

邏輯迴歸作為一個迴歸函數，如何用於分類問題。邏輯迴歸中，對於每個 x，其條件概率 y 的確是一個連續的變量。而邏輯迴歸中可以設定一個閾值，y 值大於這個閾值的是一類，y 值小於這個閾值的是另外一類。至於閾值的選擇，通常是根據實際情況來確定，一般情況下選取 0.5 作為閾值來劃分。

4、假設條件

（1）數據服從伯努利分佈。一個簡單的伯努利分佈的例子就是拋硬幣，假設硬幣被拋出正面的概論為 p，被拋出負面的概論為 1-p，則這些硬幣拋出的正負兩面所代表的隨機變量即服從伯努利分佈。

（2）假設樣本為正的概論 p 為一個 Sigmoid 函數。為什麼要使用 Sigmoid 函數，事實上，設計一個分類模型，首先需要給它設定一個學習目標，即通過優化一個損失函數來求解參數。那麼，在邏輯迴歸中，這個目標就是最大化似然度。

考慮一個二值分類問題，訓練數據是一堆（特徵，標記）組合，(x1, y1)，(x2, y2)，... 其中 x 是特徵向量，y 是類標記（y = 1 表示正類，y = 0 表示反類）。

LR 首先定義一個條件概率 p(y | x; w)。p(y | x; w) 表示給定特徵 x ，類標記 y 的概率分佈，其中 w 是 LR 的模型參數（一個超平面）。有了這個條件概率，就可以在訓練數據上定義一個似然函數，然後通過最大似然來學習 w，這是 LR 模型的基本原理。

那麼如何定義這個條件概率呢，我們知道，對於大多數線性分類器，response value（響應值）

（w 和 x 的內積）代表了數據 x 屬於正類（y = 1）的 confidence（置信度）。

越大，這個數據屬於正類的可能性越大；越小，屬於反類的可能性越大。

在整個實數範圍內取值。現在我們需要用一個函數把從實數空間映射到條件概率 p(y = 1 | x, w) 上，並且希望越大，p(y = 1 | x, w) 越大；越小，p(y = 1 | x, w) 越小，而 Sigmoid 函數恰好能實現這一功能：首先，它的值域是 (0，1)，滿足概率的要求；其次，它是一個單調上升函數。最終，p(y = 1 | x, w) = Sigmoid()。

5、邏輯迴歸損失函數

邏輯迴歸的損失函數是其極大似然函數。

6、邏輯迴歸中參數求解方法

極大似然函數無法直接求解，一般是通過對該函數進行梯度下降來不斷逼近其最優解。這裡需要注意的點是要對梯度下降有一定的瞭解，就梯度下降本身來看的話就有隨機梯度下降，批梯度下降，small batch 梯度下降三種方式，面試官可能會問這三種方式的優劣以及如何選擇最合適的梯度下降方式。

批梯度下降會獲得全局最優解，缺點是在更新每個參數的時候需要遍歷所有的數據，計算量會很大，並且會有很多的冗餘計算，導致的結果是當數據量大的時候，每個參數的更新都會很慢。
隨機梯度下降是以高方差頻繁更新，優點是使得 sgd 會跳到新的和潛在更好的局部最優解，缺點是使得收斂到局部最優解的過程更加的複雜。
小批量梯度下降結合了批梯度下降和隨機梯度下降的優點，每次更新的時候使用 n 個樣本。減少了參數更新的次數，可以達到更加穩定收斂結果，一般在深度學習當中我們採用這種方法。

7、邏輯迴歸中為什麼使用對數損失而不用平方損失

對於邏輯迴歸，這裡所說的對數損失和極大似然是相同的。不使用平方損失的原因是，在使用 Sigmoid 函數作為正樣本的概率時，同時將平方損失作為損失函數，這時所構造出來的損失函數是非凸的，不容易求解，容易得到其局部最優解。而如果使用極大似然，其目標函數就是對數似然函數，該損失函數是關於未知參數的高階連續可導的凸函數，便於求其全局最優解。

8、邏輯迴歸的優缺點

優點：

形式簡單，模型的可解釋性非常好。從特徵的權重可以看到不同的特徵對最後結果的影響，某個特徵的權重值比較高，那麼這個特徵最後對結果的影響會比較大。
模型效果不錯。在工程上是可以接受的（作為 baseline），如果特徵工程做的好，效果不會太差，並且特徵工程可以並行開發，大大加快開發的速度。
訓練速度較快。分類的時候，計算量僅僅只和特徵的數目相關。並且邏輯迴歸的分佈式優化 SGD 發展比較成熟。
方便調整輸出結果，通過調整閾值的方式。

缺點：

準確率欠佳。因為形式非常的簡單，而現實中的數據非常複雜，因此，很難達到很高的準確性。
很難處理數據不平衡的問題。舉個例子：如果我們對於一個正負樣本非常不平衡的問題比如正負樣本比 10000:1。我們把所有樣本都預測為正也能使損失函數的值比較小。但是作為一個分類器，它對正負樣本的區分能力不會很好。
無法自動的進行特徵篩選。
只能處理二分類問題。

9、LR 和線性迴歸的區別

損失函數：線性模型是平方損失函數，而邏輯迴歸則是似然函數。

10、邏輯迴歸在訓練的過程當中，如果有很多的特徵高度相關或者說有一個特徵重複了很多遍，會造成怎樣的影響

如果在損失函數最終收斂的情況下，其實就算有很多特徵高度相關也不會影響分類器的效果。但是對特徵本身來說的話，假設只有一個特徵，在不考慮採樣的情況下，你現在將它重複 N 遍。訓練以後完以後，數據還是這麼多，但是這個特徵本身重複了 N 遍，實質上將原來的特徵分成了 N 份，每一個特徵都是原來特徵權重值的百分之一。

11、為什麼還是會在訓練的過程當中將高度相關的特徵去掉

去掉高度相關的特徵會讓模型的可解釋性更好；
可以大大提高訓練的速度。

分享到:

閱讀更多 領釦網 的文章

關鍵字: 算法職場邏輯

陝西西安曲江新區管委會招聘公告

西安曲江新區，是陝西省、西安市確立的以文化產業和旅遊產業為主導的城市發展新區，在“文化立區、旅遊興區”的發展理念下，不斷在“標誌性、國際範、科技風、地方味”上下功夫，形成了“文化+旅遊+產業”的發展模式和文旅高品質融合的發展道路。

內蒙古自治區體育局面向退役運動員招聘教練員16人簡章

內蒙古自治區體育局面向退役運動員招聘教練員簡章。經自治區人社廳批准，內蒙古自治區體育局直屬事業單位與應聘人員簽訂聘用合同。

2020年甘肅白銀市白銀區鄉鎮衛生院招聘10人公告

白銀市白銀區2020年鄉鎮衛生院公開招聘緊缺專業人才公告　　白銀區各鄉鎮衛生院因工作需要面向社會公開招聘工作人員。現將有關事項公告如下：　　一、招聘計劃　　本次招聘醫療衛生類專業技術人員10名，具體招聘崗位及條件見附表1。

甘肅慶陽招聘政府專職消防員18名公告

根據慶陽市人民政府《關於印發慶陽市招聘合同制政府專職消防員實施意見》文件要求，決定在全縣範圍內公開招聘合同制政府專職消防員18名。

甘肅省武威市教師招聘97人公告

根據武威市教育事業發展需要，按照事業單位公開招聘有關規定，決定採取面試考核方式面向全國引進教育類人才，現將有關事項公告如下:

數據深扒：這輩子在哪些行業打工有可能年薪百萬？

近兩年很流行的FIRE運動，就倡導

這款全能圖片處理工具箱，內置將近100個圖片處理工具，非常實用

在介紹軟件之前，我想問各位一個小問題：各位平時用什麼圖片處理軟件來修圖呢？PS、美圖秀秀？還是ACDSee之類的圖片處理軟件？今天要為大家介紹的這款軟件名為電腦圖像工具箱，它是一款功能非常豐富且強大的處理處理軟件。

人社部最新發布！2020年就業新方向，這16個新職業要火

近日，中國就業培訓技術指導中心發佈《關於擬發佈新職業信息公示的通告》，經人社部同意，現場擬發佈包括人工智能訓練師、網約配送員、健康照護師等16個新職業，並明確賦予了這些職業具體的定義和主要工作任務。

文字辦公—如何在Word中內置一頁PPT

PPT與Word在操作上還是有挺大區別，在PPT中能夠繪製框圖並且多批量處理要素，一鍵框選內容，很多小夥伴習慣於使用PPT轉而使用Word就不太習慣，其實只要一個小操作就能讓Word也實現上述功能。

文字辦公—如何修改Word 的文本樣式

接下來小編跟大家講解如何修改Word

文字辦公—如何讓Word只粘貼網頁中的文字而自動去除圖形和版式

我們在網頁中看到不錯的內容或者查找資料時瀏覽到對報告有意義的內容時，會複製網頁內容至word文檔內，但如果不想整篇網頁內容都複製到文檔內，只需要文字內容時應當怎麼操作呢，今天小編就為大家演示一遍具體的步驟。

PPT演示技巧—PPT怎麼錄屏

在需要錄屏時我們第一時間想到的可能是下載軟件去錄製，但很多人不知道的是其實在PPT中就有錄屏這個功能，也省去了我們使用錄屏軟件的麻煩，接下來小編就帶大家操作一遍吧。

招聘通知（全國）丨貴州省農村信用社招聘347人公告

公示項目:2020年貴州省農村信用社招聘347人公告。輻射範圍:貴州省。

5月7日·張家口要聞快報：有編制！張家口一地招聘公告！這些地方有了移動5G網絡

為進一步提高涿鹿縣高中階段學校教師隊伍層次規格，以適應新高考改革，培養更多的優秀畢業生，確保涿鹿教育事業可持續發展。張家口:這些地方已經覆蓋移動5G網絡。

工作中出現錯誤後，不應該著眼於這2點

工作中一旦出現錯誤，考慮如何補救才是真正重要的，不應該著眼在以下2點：一

妙招！Word和Execl“聯姻”實現數據高效處理！

你是不是想到的是在Excel中將數據處理好後再粘貼到word中，這種方法在某些時候是不可取的，比如表格中時間可能隨時需要更新，我們不可能，更新一次就去複製粘貼一次，這樣會影響我們的工作效率。

重要提醒：本週六要上班！2020年還有這些假

剛過完假期的你是不是意猶未盡？今天上班第一天小編有以下幾點友情提醒小夥伴們要仔細看01

沿海大型高新科技企業南充設廠，大量招人，月薪最高15000元，免費宿舍…

點擊觀看視頻，一起走進

5月7日廣東最新事業單位招聘公告

05-06[中山]2020年中山市農業農村局招聘事業單位高層次人才公告05-06[中山]2020年中山市黃圃鎮招聘編外人員公告05-06[湛江市]2020年湛江市坡頭區財政局招聘編外人員公告05-06[深圳]2020年5月深圳市寶安區發展研究中心選聘常設崗位人員公告05-06[江

5月7日湖北最新事業單位招聘公告

05-07[湖北]2020年黃石市住房和城鄉建設局招聘專業人才公告05-07[湖北]2020年十堰市竹溪縣招聘高中階段學校教師公告05-07[湖北]2020年咸寧市政府投資項目建設管理局招聘工程專業技術人員公告05-07[湖北]2020年黃石大冶市政府總值班室選聘事業單位人員公告

5月7日河北最新事業單位招聘公告

05-07[河北]2020年石家莊辛集市事業單位選聘公告04-30[河北]2020年邯鄲市國資委選聘碩士研究生公告04-30[河北]2020年河北峰峰礦區高層次人才引進公告04-29[河北]2020年邯鄲市住房公積金管理中心引進博碩人才公告04-29[河北]2020年邯鄲市水利局

5月7日山東最新事業單位招聘公告

05-072020年棗莊臺兒莊區招聘鎮街事業編制人員到村擔任黨組織書記公告05-062020年東營廣饒縣“英才進廣饒”招聘簡章05-062020年淄博周村區行政審批服務局招聘工作人員公告05-062020年煙臺萊州市考核評價中心招聘萊州市“鄉呼縣應”話務員公告05-062020年

未籤書面勞動合同用人單位必須支付二倍工資？

可是，現實中有一些用人單位明明沒有與勞動者簽訂書面勞動合同，也未向勞動者支付二倍工資，卻贏了官司，這是為什麼?

【西青宣傳】校招衝刺季！高校畢業生雲招聘首場直播 1000+個崗位在線等你

天津衛視《天津新聞》:西青區認真貫徹落實文明條例

風水學！洞悉常人無法察覺的不確定性

生活在如今這個時代，肯定會有不少人感慨，不管你是江湖老鳥，還是職場小白，猜不透的“海底針老闆心”幾乎每家公司都是同款的。

工作幹好恰恰是你不能升職的原因

S是私企公司的技術骨幹，在公司7年裡，他每天兢兢業業，加班加點也都是司空見慣，總算熬成了部門裡資格最老的一個員工。

會計做賬中最常見的5項支出不需要發票就可以稅前扣除

估計還有很多會計不知道，會計做賬中最常見的5項支出不需要發票就可以稅前扣除！關於這方面的內容今天一次給大家總結清楚了，以後不要弄錯了。支出一工資薪金支出提醒：企業平時支付職工的工資不需要發票。

「轉發擴散」長春市招聘296名公益性崗位人員

為貫徹落實長春市“保基本就業、保基本民生”工作要求，現面向社會公開招聘296名公益性崗位人員，以加強街道、社區基層公共服務平臺力量，提升就業服務和民生服務能力。

招聘巨頭裁員，但更可怕的是招聘行業的亂象

近期有消息稱，這家招聘巨頭已經陷入了裁員風波，先後關閉了石家莊、烏魯木齊、蘭州、廈門等11座城市辦事處，裁員上百人。

代理記賬流程揭祕，學會了你也可以去記賬

代理記賬可以節約成本，提高效率。是很多小微企業財務工作的選擇。因為巨大的市場需求，所以很多財務人員選擇了代理記賬工作。代理記賬工作流程簡單，易於上手，而且如果客戶資源豐富的話，收益也是頗豐。小編曾經有過一段代理記賬公司工作的經歷，下面就來為大家揭秘下代理記賬的流程。

電腦快捷鍵彙總

Excel表格中Ctrl+字母快捷鍵彙總1、Ctrl

如何去掉word文檔行尾的換行符

在我們日常的文檔編輯當中，有時候會遇到只要一換行下面就會出現一個小箭頭，看著特別不美觀，下面我來分享一下如去掉這個換行標識，和大家共同學習一下。　　1、首先單左上角“開始”　　2、在打開的對話框裡。

甘肅省民政廳直屬事業單位公開招聘工作人員11人

怎麼在Word文檔中插入頁碼

在我們日常的文檔編輯中，由其是在需要打印當中，都希望在文檔中看是頁碼。下面來分享二個在文檔當中加入頁碼的小未能，來和大家共同學習一下。

今天，蔡甸區人社局組織 400＋崗位送到百姓家門口

5月6日上午，蔡甸區“戰疫情

單位裡高手的說話方式（看懂閱歷漲10年）

高手說話，可能簡單幾句，就能讓對話者茅塞頓開。在單位裡，高手說話，沒有華麗的詞語，卻能讓與之溝通的人如沐春風。那麼，高手說話的功夫是如何煉成的呢？說話溝通，首先要擺正心態，有正確的心態為基礎，說話的方向就不會跑偏。

什麼時候是跳槽的最佳時機？怎樣跳更有利於你身家升值？

“領導太難伺候了，我怎麼努力他就是不滿意”，“這裡的人際關係太複雜了，老子不幹了”，“這裡的工資太低了，事情又多，我還是換一家高工資的公司吧”，如果你是因為這些原因跳槽，那你就大錯特錯了。一.

用控件查詢生日信息

問題情境掌握職工的生日信息，及時送出生日祝福，是每位HR必備的技能。

【法律知識】員工離職的22個法律要點

1、經濟補償是國家要求用人單位承擔的一種社會責任，即用人單位解除或者終止勞動合同時，應當支付給勞動者一定的經濟補助，以幫助勞動者在失業階段維持基本生活，不至於生活水平急劇下降。正是由於這種社會責任是國家強加給用人單位的義務，因而，何種情況下用人單位應當擔責，需要由法律的明確規定。

終於，我還是去領了失業金

“我爸已經去領失業金了，我覺得我也快了。微博上，90後女孩默默已經辦妥了失業金領取手續，但對結果並不滿意，因為她累計繳了15個月社保，卻只能領到1個月失業金，1960元。

試用期沒提成！成交130萬訂單一分不給，半個月後老闆蒙了

現如今的大多數公司都有試用期的規定，公司通過這種方式來考察員工是否是公司想要的人才，但是我們都知道，試用期內的工資都比較低，有的公司甚至規定在試用期內只有底薪，沒有提成。這讓很多員工感到不公平，同樣是為企業帶來業績為什麼自己得不到提成？

同樣工作30年，為什麼有人養老金能領6000元，有的人只能領1500？

經常會有朋友這樣問鏡仔，為什麼同樣工作了30年，有的人退休後每個月養老金能領到6000元，自己卻只能領取1500元？影響退休後養老金數額多少的原因有很多種，那麼今天鏡仔就來詳細說一下，到底為什麼造成了養老金這樣的差異性。

招聘啦！長春市公益性崗位人員招人啦

為貫徹落實我市“保基本就業、保基本民生”工作要求，現面向社會公開招聘296名公益性崗位人員，以加強街道（鄉、鎮）、社區基層公共服務平臺力量，提升就業服務和民生服務能力。

回老家被問工資，我說2000，非要給我找月薪3000的，我說日入兩千

我弟弟辭去公職去外地發展，開了一家公司，一年百把萬收入總是有的，但是每次回家都是開個榮威350，而且是乞丐版，同村里人對他都是一臉同情，說辭職辭虧了，只有我知道，他這樣做一方面怕別人生嫉妒，另一方面也是怕招惹是非。

為“偷懶”做的Excel進項增值稅管理系統，升級版更好用！財務收

進項增值稅管理升級版——系統自帶公式，基礎數據錄入之後，會自動生成數據報表，數據也能備份，避免我們誤刪之後找不到。

勞動者履職過程中給用人單位造成損失承擔賠償責任的裁判規則

勞動者在履行職務過程中可能因為各種原因直接或者間接造成用人單位損失，在何種情形下，勞動者需要賠償用人單位的損失，又如何賠償?

懂得規劃自己的人，少吃10年苦！

在生活中，很多職場人混跡職場，處理職業問題貌似都是盲人摸象，毫無章法的，從而處於很被動的位置。這是因為我們大多數人出了大學校門，就一路裸奔邁進了職場，沒有人教我們怎麼規劃自己的發展，沒有人教我們怎麼去應對職場人際，更沒有人傳授我們工作技巧，所以我們對未來基本沒有什麼規劃，導致我們

作者可自主選擇免費或付費閱文：一個月內推新版合同

東方網記者包永婷5月6日報道:今天下午，在閱文集團新管理團隊與多位作家參加的首場作家懇談會上，閱文新任CEO程武表示，著作人身權屬於作家獨有，閱文絕不會通過任何方式分享或獲取著作權，將在1個月內推出新版合同。

學會這個方法，表格想怎麼合併都不愁！

把表裝入Power

哪些行業薪資最高？脫貧就要入對行！

上市公司對很多人都感覺高大上，在上市公司工作是不是年薪很高呢?如果想要更快更好的脫貧，那就應該選擇金融、地產、科技行業，儘可能擺脫傳統行業，當然要進入這些高科技行業，打鐵要自身硬，力爭在大學就要進入這些專業的985院校就妥妥了。