數據科學技能測試：快來看看你能通關嗎？科技頭條網

數據科學技能測試：快來看看你能通關嗎？

2020-04-15 16:59:00 讀芯術

全文共4067字，預計學習時長15分鐘

圖源：race.agency

是時候展現真正的技術了！

以下是26個數據科學的問題和供參考的答案。這些問題的難度和主題各不相同，但都與機器學習和數據科學相關。不管是大學生還是專業人士，都可以來測試（或更新）一下自己的技能！

你，都能答上來嗎？

圖源‍：Giphy

1.如何區分機器學習、人工智能和數據科學？（主題：通識）

人工智能這一術語涵蓋範圍廣泛，主要涉及機器人學和文本分析等應用，並服務於商業和技術領域。機器學習隸屬於人工智能，但其涉及領域較狹窄，且只用於技術領域。數據科學並不完全隸屬於機器學習，而是利用機器學習來分析並做出預測，可用於商業領域。

2.什麼是正態分佈？（主題：統計學、詞彙）

正態分佈，也稱為鐘形曲線，指大多數實例聚集在中心，且實例數量隨著距中心距離的增加而減少這種分佈情況。嚴格來講，統計學上，正態分佈的定義是：66%的數據在平均值的一個標準差內，95%的數據在平均值的兩個標準差內，99%的數據在平均值的三個標準差內。

圖源：Wikipedia

3.什麼是推薦系統？（主題：詞彙）

推薦系統是信息過濾系統的一個子類，旨在預測用戶對產品的偏好或評級。推薦系統廣泛應用於電影、新聞、科研文章、產品、音樂等領域。

4.不看聚類，如何選擇k均值聚類算法中的k值？（聚類算法）

k均值聚類算法中，k值的選取有兩種方法。一種方法是手肘法，y軸指某個誤差函數，x軸指聚類的數量，如果整個圖的形狀像一個手臂的話，那肘部對應的值就是最佳的聚類數量。

顯然，在上圖中，肘部對應的k值就是3。然而，如果曲線形狀不夠清晰，那就只能使用第二種方法，即輪廓係數法。輪廓係數法指用範圍在-1到1之間的輪廓係數來描述每個簇的數量，係數越大的聚類通常則為最佳聚類數。

5.線性迴歸和邏輯迴歸有什麼區別？（主題：迴歸與分類算法）

線性迴歸是一種統計技術，指將數據擬合到一條線上（或多元線性迴歸中的一個多維平面）。當目標值在連續尺度內時，就會發生迴歸。邏輯迴歸可由線性迴歸通過sigmoid函數轉換而成，並會給出一組輸入值為分類0和1的概率。

6. 一種測試的真陽性率為100%，假陽性率為5%。一個群體有千分之一的概率會在測試中出現這種情況。如果你有一個陽性測試，出現這種情況的概率有多大呢？（主題：分類率）

假設你正在接受一項疾病測試，如果你患有此病，測試結果會顯示你已患病。但如果你未患病，5%的情況下，測試結果會顯示你患有此病，95%的情況下，會顯示你沒有患病。

因此，在未患病的情況下，會有5%的誤差。在1000人中，有1人會得到真正的陽性結果，而在剩下的999人中，5%的人會得到（假）陽性結果。大約50人會得到該病的陽性結果。

圖源：unsplash

也就是說，在1000人中，即使只有1人患病，也會有51人的檢測結果呈陽性。但即便如此，你的患病幾率也只有2%。

7.梯度下降法總是收斂於同一點嗎？（主題：神經網絡）

不，梯度下降法並不總是收斂於同一點。由於誤差空間中可能存在多個局部極小值，根據其特性（例如動量或權重），梯度下降法可能會在不同的地方結束。

8.如何通過box-cox變換改善模型性能？（主題：統計學、算法）

Box-cox變換指將數據按照一定次冪進行轉換，例如將其平方、立方或開方（即1/2次方）。由於任何數的0次方永遠是1，因此，box-cox變換中的“0次方”被認為是對數變換。

對數函數將指數函數放在線性尺度上，因而可以改善模型性能。也就是說，線性迴歸之類的線性模型在數據方面性能更優越。

此外，對函數進行平方和立方運算也有助於整理數據，或突出重點信息。

9.分析項目中的關鍵步驟有哪些？（主題：組織）

· 瞭解業務問題以及分析目標。

· 探索並熟悉數據。

· 清理數據（檢測離群值、缺失值、轉換變量等），準備好建模數據。

· 運行模型並對參數進行相應調整。

· 用新數據驗證模型。

· 執行模型並得出相應結果。

10.什麼是查全率和查準率？（主題：分類率）

查全率指“在所有的正樣本中，有多少樣本被分類為正樣本”。查準率指“在所有被分類為正的樣本中，有多少樣本是真正的正樣本”。

11.解釋一下“維度詛咒”。（主題：數據）

圖源：unsplash

“維度詛咒”指的是在分析具有許多特徵的數據（高維數據）時出現的某些現象，而這些現象在普通的二維或三維空間中不會出現。隨著維數增加，數據會變得極其稀疏，因而無法通過機器學習等模型對所有值進行有意義的計算。

值得注意的是，在極高維的空間中，兩個樣本間的歐氏距離非常小，因此，任何需要計算兩點之間距離的統計方法或機器學習方法都不可行。（這也是為什麼在高維圖像識別中首選卷積神經網絡的原因。）

12.在時間序列建模中，如何處理不同形式的季節性現象？（主題：時間序列）

通常在真實世界的時間序列數據中（比如，在玩具廠購買的泰迪熊），不同形式的季節性現象可能會相互干擾。

年度的季節性（如聖誕節前後的旺季和夏天的低谷期）可能會與每月、每週、甚至每天的季節性現象重疊。由於變量在不同時間段的平均值不同，導致時間序列具有非平穩性。

去除季節性的最好方法就是對時間序列進行差分，即取時間x中的一個日期與x減去季節性週期後（一年或一月等）兩者間的差值。由於在前幾個樣本中，x減去季節性週期無法訪問，因此丟失了一個季節性週期的原始數據。

年度和月度季節性現象的一個例子

13.人們普遍認為假陰性不如假陽性。那麼，假陽性不如假陰性的例子有什麼？（主題：分類率、組織）

假設一家電商公司決定給可能會購買5000美元商品的顧客贈送一張1000美元的禮券。如果該公司通過模型計算出假陰性結果，那公司就（錯誤地）不會發送代金券，因為公司誤認為該客戶不會購買5000美元以上的商品。

雖然結果不妙，但公司並不虧損。如果公司將代金券發給結果呈假陽性的客戶（誤以為該客戶會購買價值5000美元以上的商品），那些購買不足5000美元的人就會讓公司虧損賠錢。

14.測試集和驗證集的區別是什麼？（主題：數據、組織）

測試集用於評估模型訓練後的性能，而驗證集用於在模型訓練期間選擇參數並防止訓練集上出現過擬合。

圖源：unsplash

15.你在什麼情況下會使用隨機森林算法，什麼情況下會使用支持向量機算法（SVM）？（主題：算法）

SVM和隨機森林是兩種強大的分類算法。對於無離群的純淨數據，可以選擇SVM；反之，則可以選擇隨機森林。

SVM（尤其是帶有廣泛參數搜索的SVM）需要進行更多的計算，因此如果內存有限的話，選擇隨機森林會更合適。此外，隨機森林算法適用於多類問題，而SVM算法適應於高維問題，如文本分類。

16.你會用哪些方法來填補缺失的數據，如果填錯會有什麼後果？（主題：數據清理）

現實世界的數據往往會有缺失。填補這些數據的方法多種多樣。徹底的處理方式就是刪除具有NA 值的行。如果NA 值不是很多，並且數據充足，則這種方法可行；否則，則不可行。在現實世界的數據中，刪除帶有NA 值的行可能會消除部分可觀察到的模式。

倘若上述方法不可行，也可以根據具體情況，選擇其他方法來填充缺失數據，比如眾數、中位數或平均值。

另一種方法是通過k最近鄰算法（KNN）計算丟失數據的鄰近數據，並選取這些鄰近數據的平均值、中位數或眾數來填補缺失數據。比起使用匯總值，這種方法靈活度更高，規範性更強。

如果填補數據的方法使用不當，可能會出現選擇性偏差——模型的好壞與數據一致，如果數據有誤，其模型也會受到影響。

圖源：unsplash

17.什麼是集成？集成有什麼用？（主題：算法）

集成是對最終決定進行投票的算法組。集成會選出瑕不掩瑜的模型，但成功的模型必須是多樣化的。也就是說，每個模型的缺點必須各不相同。研究表明，正確創建的集成，其性能往往遠優於單分類器。

18.在將數據傳遞到線性迴歸模型前，需要對數據作哪些基本假設？（主題：算法）

數據應具有正態殘差分佈、誤差的統計相關性以及線性。

19.貝葉斯估計和最大似然估計的區別是什麼？（主題：算法）

在貝葉斯估計中，模型具有先前的數據知識。我們可以尋找多個參數，如5個gammas和5個lambdas來解釋數據。在貝葉斯估計中，有多個模型可以做出多個預測（每對參數一個，其先驗知識相同）。因此，如果想預測新的樣本，只需計算預測的加權和就可以了。

圖源：bjdataart

然而，最大似然估計不考慮先驗概率，它與使用平坦先驗的貝葉斯模型比較相似。

20. P值對數據來說意味著什麼？（題目：統計學）

在統計學中，P值用於確定假設檢驗後結果的顯著性，它可以幫助分析器得出結論。顯著性水平往往在0到1之間。

· 如果p值小於0.05，說明拒絕零假設的理由充分，可以拒絕零假設。

· 如果P值大於0.05，說明拒絕零假設的理由不充分，不能拒絕零假設。

· 而0.05是臨界值，表示兩種情況都有可能發生。

21.何時使用均方誤差（MSE）和平均絕對誤差（MAE）？（主題：精確度測量）

MSE常用於“突出”較大的誤差。由於x²的導數為2x，x越大，x與x-1的差值就越大。然而，MAE常用於輸出可解釋的結果。

因此，當結果不需要進行解釋，而只是作為數字（可能用於模型之間的比較）時，可以選擇MSE；但是當結果需要進行解釋時（例如，模型平均下降4美元左右），選擇MAE更佳。

22.什麼是ROC曲線？什麼是AUC？（主題：精確度測量）

ROC曲線描述的是模型的假陽性率與真陽性率之間的關係。完全隨機預測的ROC曲線就是一條直對角線（圖中的黑色虛線）。最靠近座標軸的曲線就是最優模型。

AUC是衡量ROC曲線與座標軸之間距離的一項指標，即曲線下的面積。曲線下的面積越大，則性能越好。

23.解釋一下偏差方差平衡，並列舉高偏差和低偏差算法的示例。（主題：算法）

偏差指的是由於機器學習算法過度簡化而在模型中引入的誤差。偏差會導致欠擬合。如果在欠擬合時訓練模型，模型會做出簡化的假設，使目標函數更易於理解。

低偏差的機器學習算法有決策樹、KNN、SVM等。高偏置的機器學習算法有線性迴歸和邏輯迴歸。

方差指的是由於機器學習算法較為複雜而在模型中引入的誤差。有時模型會從訓練數據集中學習噪聲數據，導致在測試集中表現不佳。方差會導致高靈敏度和過擬合。

通常，當模型的複雜度增加時，模型中低偏差導致的誤差就會減少。然而，當複雜度增加到某個特定點時，模型就會發生過擬合。

24.什麼是PCA以及PCA有什麼用？（主題：算法）

主成分分析（PCA）是一種降維方法，通過尋找n個正交向量來表示數據中的最大方差，其中n是數據降至的維度。n個向量可用作新數據的維度。PCA可以幫助加快機器學習算法的速度，或者用於高維數據的可視化。

25.為什麼在複雜的神經網絡中，Softmax非線性函數往往最後進行運算？（主題：神經網絡）

這是因為Softmax非線性函數輸入實數向量後會返回概率分佈。設x是一個實數向量（正或負），那Softmax函數就會輸出一個概率分佈：每個元素都是非負的，且所有元素的和為1。

圖源：unsplash

26.什麼是TF/IDF向量化？（主題：NLP）

TF-IDF是術語“詞頻-逆文本頻率指數”的縮寫。它是一種數字統計方法，用以反映一個字詞對語料庫中一份文檔的重要性。在信息檢索和文本挖掘中，它常被用作權重因子。

TF-IDF值與字詞在文檔中出現的次數成正比增加，與字詞在語料庫中出現的頻率成反比下降，這有助於在某些字詞出現頻繁時進行調整。

你做對了幾個？這些問題覆蓋主題廣泛，從神經網絡到數據清洗，從SVM到NLP，從分類率到統計學。不熟悉的話得好好複習啦！

我們一起分享AI學習與發展的乾貨

分享到:

閱讀更多 讀芯術 的文章

關鍵字: 維基百科新聞人工智能

數據科學技能測試：快來看看你能通關嗎？

相關文章:

小米太無恥了。

蹭熱點！說說我理解的手機包裝盒事件。

蘋果公司正式發佈iPhone SE二代手機

華為河圖、麒麟芯片和鴻蒙OS三駕馬車並行？華為生態建設佈局深遠

小米高管表示，四千毫安時 5G 手機，和三千多毫安時 4G 手機一樣

5G畫風變了：麒麟985落地首跑，榮耀坐上開往高端的「地鐵」

旗艦手機標配Wifi 6 換Wifi 6路由器的時機到了嗎？

2020年5G手機賣不動？繼蘋果砍單25%之後，華為小米紛紛跟砍？

幹翻華為P40系列 榮耀30也玩中

程序員辭互聯網工作，跨行傳統上市公司，上班第1天就蒙了

蘋果發佈新款iPhoneSE，3299元起售

我很糾結：我究竟適不適合做亞馬遜電商？看了這三條你就知道了

請仔細閱讀，關於跨境電商你想知道的都在這兒

騙子手段太“精明”：商家賠了貨物又賠款，亞馬遜平臺騙術大揭祕

做跨境電商這麼多年，今天才知道給國外客戶發文件原來這麼簡單

值得收藏！三類賣家三種選品方案，總有適合你的一個……

萬萬沒想到！亞馬遜平臺上面賣床單竟營收一個億！你還在等什麼？

做店鋪這麼多年，今天才知道我的listing突然被封，竟是因為……

亞馬遜小白看過來！請採納這些：亞馬遜選品和運營的小建議

亞馬遜賣家如何爆單？跨境精細化運營攻略必看

不收保證金、入住費、年費，還免三個月佣金，我也想入駐這個平臺

馬雲終於要辭職了，留下的話句句觸動人心

等等，明年5G手機將迎來大降價

微信公開課PRO版2019正在進行時，往屆各自都有什麼黑科技

推出「信任分」升級「閃購」，美團本地生活這盤棋有多大？

5G我們超越了6G我們也將領先! 美國為什麼會害怕失去5G領導地位呢

界讀｜華為：幫助英國共渡疫情難關，無端批評令英國蒙受損失

為什麼華為今天可以傲視群雄，在世界上立於不敗之地？

血戰「在線辦公」，阿里、騰訊、字節、華為的底牌與大殺器

2020年最強拍照旗艦來了 華為P40系列多項業界首創 香！

今天聊一聊直播

通過直播賺錢不容易，既要豁得出去，又要端得起來

AI和自動化技術聯手，最終會讓60%的工人失去現有的飯碗。

這個網還能不能好好上了？今日全球IPv4地址正式耗盡

12306系統不行？內行人告訴你它有多牛，阿里騰訊高手去了也膜拜

有內幕？美國防部授與微軟百億雲合同，亞馬遜不滿發起訴訟

未來之芯--RISC-V總部從美國遷往瑞士，華為、阿里是其成員

神話還能繼續嗎？幾度過山車，比特幣半年來首次跌破7000美元

劉強東卸任後，突然宣佈一個“好消息”，讓馬雲措手不及！

蘋果的瘋狂其實從未停止，AirPower或將重新啟航

曾保護近4億中國人的電腦，卻因得罪阿里、騰訊，慘遭市場淘汰

互聯網流量需求增大 希臘民眾“宅生活”考驗網速

互聯網科技企業，傳統辦公模式該走向何處?

微信又悄悄上線一新功能～網友卻開始擔心

正式確認！孫正義退出市值5959億阿里，20年與馬雲成就彼此

科技添柴“非接觸經濟”升溫

好像在哪見過？華為nova7官宣 餘承東:何必只有一點點

行業紅利、資本湧入，疫情後的在線教育聚師網如何“涅槃”

數字貨幣真的來了？首吃螃蟹者傳出，碰一碰功能露臉

實例 | 200 SMART運動控制基本指令詳解

幹翻華為P40系列榮耀30也玩中

2020年最強拍照旗艦來了華為P40系列多項業界首創香！

互聯網流量需求增大希臘民眾“宅生活”考驗網速

好像在哪見過？華為nova7官宣餘承東:何必只有一點點