數據科學技能測試:快來看看你能通關嗎?

全文共4067字,預計學習時長15分鐘


數據科學技能測試:快來看看你能通關嗎?

圖源:race.agency


是時候展現真正的技術了!


以下是26個數據科學的問題和供參考的答案。這些問題的難度和主題各不相同,但都與機器學習和數據科學相關。不管是大學生還是專業人士,都可以來測試(或更新)一下自己的技能!


你,都能答上來嗎?


數據科學技能測試:快來看看你能通關嗎?

圖源‍:Giphy


1.如何區分機器學習、人工智能和數據科學?(主題:通識)


人工智能這一術語涵蓋範圍廣泛,主要涉及機器人學和文本分析等應用,並服務於商業和技術領域。機器學習隸屬於人工智能,但其涉及領域較狹窄,且只用於技術領域。數據科學並不完全隸屬於機器學習,而是利用機器學習來分析並做出預測,可用於商業領域。


2.什麼是正態分佈?(主題:統計學、詞彙)


正態分佈,也稱為鐘形曲線,指大多數實例聚集在中心,且實例數量隨著距中心距離的增加而減少這種分佈情況。嚴格來講,統計學上,正態分佈的定義是:66%的數據在平均值的一個標準差內,95%的數據在平均值的兩個標準差內,99%的數據在平均值的三個標準差內。


數據科學技能測試:快來看看你能通關嗎?

圖源:Wikipedia


3.什麼是推薦系統?(主題:詞彙)


推薦系統是信息過濾系統的一個子類,旨在預測用戶對產品的偏好或評級。推薦系統廣泛應用於電影、新聞、科研文章、產品、音樂等領域。


4.不看聚類,如何選擇k均值聚類算法中的k值?(聚類算法)


k均值聚類算法中,k值的選取有兩種方法。一種方法是手肘法,y軸指某個誤差函數,x軸指聚類的數量,如果整個圖的形狀像一個手臂的話,那肘部對應的值就是最佳的聚類數量。


數據科學技能測試:快來看看你能通關嗎?

顯然,在上圖中,肘部對應的k值就是3。然而,如果曲線形狀不夠清晰,那就只能使用第二種方法,即輪廓係數法。輪廓係數法指用範圍在-1到1之間的輪廓係數來描述每個簇的數量,係數越大的聚類通常則為最佳聚類數。


5.線性迴歸和邏輯迴歸有什麼區別?(主題:迴歸與分類算法)


線性迴歸是一種統計技術,指將數據擬合到一條線上(或多元線性迴歸中的一個多維平面)。當目標值在連續尺度內時,就會發生迴歸。邏輯迴歸可由線性迴歸通過sigmoid函數轉換而成,並會給出一組輸入值為分類0和1的概率。


6. 一種測試的真陽性率為100%,假陽性率為5%。一個群體有千分之一的概率會在測試中出現這種情況。如果你有一個陽性測試,出現這種情況的概率有多大呢?(主題:分類率)


假設你正在接受一項疾病測試,如果你患有此病,測試結果會顯示你已患病。但如果你未患病,5%的情況下,測試結果會顯示你患有此病,95%的情況下,會顯示你沒有患病。


因此,在未患病的情況下,會有5%的誤差。在1000人中,有1人會得到真正的陽性結果,而在剩下的999人中,5%的人會得到(假)陽性結果。大約50人會得到該病的陽性結果。


數據科學技能測試:快來看看你能通關嗎?

圖源:unsplash


也就是說,在1000人中,即使只有1人患病,也會有51人的檢測結果呈陽性。但即便如此,你的患病幾率也只有2%。


7.梯度下降法總是收斂於同一點嗎?(主題:神經網絡)


不,梯度下降法並不總是收斂於同一點。由於誤差空間中可能存在多個局部極小值,根據其特性(例如動量或權重),梯度下降法可能會在不同的地方結束。


8.如何通過box-cox變換改善模型性能?(主題:統計學、算法)


Box-cox變換指將數據按照一定次冪進行轉換,例如將其平方、立方或開方(即1/2次方)。由於任何數的0次方永遠是1,因此,box-cox變換中的“0次方”被認為是對數變換。


對數函數將指數函數放在線性尺度上,因而可以改善模型性能。也就是說,線性迴歸之類的線性模型在數據方面性能更優越。


此外,對函數進行平方和立方運算也有助於整理數據,或突出重點信息。


9.分析項目中的關鍵步驟有哪些?(主題:組織)


· 瞭解業務問題以及分析目標。

· 探索並熟悉數據。

· 清理數據(檢測離群值、缺失值、轉換變量等),準備好建模數據。

· 運行模型並對參數進行相應調整。

· 用新數據驗證模型。

· 執行模型並得出相應結果。


10.什麼是查全率和查準率?(主題:分類率)


查全率指“在所有的正樣本中,有多少樣本被分類為正樣本”。查準率指“在所有被分類為正的樣本中,有多少樣本是真正的正樣本”。


11.解釋一下“維度詛咒”。(主題:數據)


數據科學技能測試:快來看看你能通關嗎?

圖源:unsplash


“維度詛咒”指的是在分析具有許多特徵的數據(高維數據)時出現的某些現象,而這些現象在普通的二維或三維空間中不會出現。隨著維數增加,數據會變得極其稀疏,因而無法通過機器學習等模型對所有值進行有意義的計算。


值得注意的是,在極高維的空間中,兩個樣本間的歐氏距離非常小,因此,任何需要計算兩點之間距離的統計方法或機器學習方法都不可行。(這也是為什麼在高維圖像識別中首選卷積神經網絡的原因。)


12.在時間序列建模中,如何處理不同形式的季節性現象?(主題:時間序列)


通常在真實世界的時間序列數據中(比如,在玩具廠購買的泰迪熊),不同形式的季節性現象可能會相互干擾。


年度的季節性(如聖誕節前後的旺季和夏天的低谷期)可能會與每月、每週、甚至每天的季節性現象重疊。由於變量在不同時間段的平均值不同,導致時間序列具有非平穩性。


去除季節性的最好方法就是對時間序列進行差分,即取時間x中的一個日期與x減去季節性週期後(一年或一月等)兩者間的差值。由於在前幾個樣本中,x減去季節性週期無法訪問,因此丟失了一個季節性週期的原始數據。


數據科學技能測試:快來看看你能通關嗎?

年度和月度季節性現象的一個例子


13.人們普遍認為假陰性不如假陽性。那麼,假陽性不如假陰性的例子有什麼?(主題:分類率、組織)


假設一家電商公司決定給可能會購買5000美元商品的顧客贈送一張1000美元的禮券。如果該公司通過模型計算出假陰性結果,那公司就(錯誤地)不會發送代金券,因為公司誤認為該客戶不會購買5000美元以上的商品。


雖然結果不妙,但公司並不虧損。如果公司將代金券發給結果呈假陽性的客戶(誤以為該客戶會購買價值5000美元以上的商品),那些購買不足5000美元的人就會讓公司虧損賠錢。


14.測試集和驗證集的區別是什麼?(主題:數據、組織)


測試集用於評估模型訓練後的性能,而驗證集用於在模型訓練期間選擇參數並防止訓練集上出現過擬合。


數據科學技能測試:快來看看你能通關嗎?

圖源:unsplash


15.你在什麼情況下會使用隨機森林算法,什麼情況下會使用支持向量機算法(SVM)?(主題:算法)


SVM和隨機森林是兩種強大的分類算法。對於無離群的純淨數據,可以選擇SVM;反之,則可以選擇隨機森林。


SVM(尤其是帶有廣泛參數搜索的SVM)需要進行更多的計算,因此如果內存有限的話,選擇隨機森林會更合適。此外,隨機森林算法適用於多類問題,而SVM算法適應於高維問題,如文本分類。


16.你會用哪些方法來填補缺失的數據,如果填錯會有什麼後果?(主題:數據清理)


現實世界的數據往往會有缺失。填補這些數據的方法多種多樣。徹底的處理方式就是刪除具有NA 值的行。如果NA 值不是很多,並且數據充足,則這種方法可行;否則,則不可行。在現實世界的數據中,刪除帶有NA 值的行可能會消除部分可觀察到的模式。


倘若上述方法不可行,也可以根據具體情況,選擇其他方法來填充缺失數據,比如眾數、中位數或平均值。


另一種方法是通過k最近鄰算法(KNN)計算丟失數據的鄰近數據,並選取這些鄰近數據的平均值、中位數或眾數來填補缺失數據。比起使用匯總值,這種方法靈活度更高,規範性更強。


如果填補數據的方法使用不當,可能會出現選擇性偏差——模型的好壞與數據一致,如果數據有誤,其模型也會受到影響。


數據科學技能測試:快來看看你能通關嗎?

圖源:unsplash


17.什麼是集成?集成有什麼用?(主題:算法)


集成是對最終決定進行投票的算法組。集成會選出瑕不掩瑜的模型,但成功的模型必須是多樣化的。也就是說,每個模型的缺點必須各不相同。研究表明,正確創建的集成,其性能往往遠優於單分類器。


18.在將數據傳遞到線性迴歸模型前,需要對數據作哪些基本假設?(主題:算法)


數據應具有正態殘差分佈、誤差的統計相關性以及線性。


19.貝葉斯估計和最大似然估計的區別是什麼?(主題:算法)


在貝葉斯估計中,模型具有先前的數據知識。我們可以尋找多個參數,如5個gammas和5個lambdas來解釋數據。在貝葉斯估計中,有多個模型可以做出多個預測(每對參數一個,其先驗知識相同)。因此,如果想預測新的樣本,只需計算預測的加權和就可以了。


數據科學技能測試:快來看看你能通關嗎?

圖源:bjdataart


然而,最大似然估計不考慮先驗概率,它與使用平坦先驗的貝葉斯模型比較相似。


20. P值對數據來說意味著什麼?(題目:統計學)


在統計學中,P值用於確定假設檢驗後結果的顯著性,它可以幫助分析器得出結論。顯著性水平往往在0到1之間。


· 如果p值小於0.05,說明拒絕零假設的理由充分,可以拒絕零假設。

· 如果P值大於0.05,說明拒絕零假設的理由不充分,不能拒絕零假設。

· 而0.05是臨界值,表示兩種情況都有可能發生。


21.何時使用均方誤差(MSE)和平均絕對誤差(MAE)?(主題:精確度測量)


MSE常用於“突出”較大的誤差。由於x²的導數為2x,x越大,x與x-1的差值就越大。然而,MAE常用於輸出可解釋的結果。


因此,當結果不需要進行解釋,而只是作為數字(可能用於模型之間的比較)時,可以選擇MSE;但是當結果需要進行解釋時(例如,模型平均下降4美元左右),選擇MAE更佳。


22.什麼是ROC曲線?什麼是AUC?(主題:精確度測量)


ROC曲線描述的是模型的假陽性率與真陽性率之間的關係。完全隨機預測的ROC曲線就是一條直對角線(圖中的黑色虛線)。最靠近座標軸的曲線就是最優模型。


數據科學技能測試:快來看看你能通關嗎?

AUC是衡量ROC曲線與座標軸之間距離的一項指標,即曲線下的面積。曲線下的面積越大,則性能越好。


23.解釋一下偏差方差平衡,並列舉高偏差和低偏差算法的示例。(主題:算法)


偏差指的是由於機器學習算法過度簡化而在模型中引入的誤差。偏差會導致欠擬合。如果在欠擬合時訓練模型,模型會做出簡化的假設,使目標函數更易於理解。


低偏差的機器學習算法有決策樹、KNN、SVM等。高偏置的機器學習算法有線性迴歸和邏輯迴歸。


方差指的是由於機器學習算法較為複雜而在模型中引入的誤差。有時模型會從訓練數據集中學習噪聲數據,導致在測試集中表現不佳。方差會導致高靈敏度和過擬合。


通常,當模型的複雜度增加時,模型中低偏差導致的誤差就會減少。然而,當複雜度增加到某個特定點時,模型就會發生過擬合。


數據科學技能測試:快來看看你能通關嗎?

24.什麼是PCA以及PCA有什麼用?(主題:算法)


主成分分析(PCA)是一種降維方法,通過尋找n個正交向量來表示數據中的最大方差,其中n是數據降至的維度。n個向量可用作新數據的維度。PCA可以幫助加快機器學習算法的速度,或者用於高維數據的可視化。


25.為什麼在複雜的神經網絡中,Softmax非線性函數往往最後進行運算?(主題:神經網絡)


這是因為Softmax非線性函數輸入實數向量後會返回概率分佈。設x是一個實數向量(正或負),那Softmax函數就會輸出一個概率分佈:每個元素都是非負的,且所有元素的和為1。


數據科學技能測試:快來看看你能通關嗎?

圖源:unsplash


26.什麼是TF/IDF向量化?(主題:NLP)


TF-IDF是術語“詞頻-逆文本頻率指數”的縮寫。它是一種數字統計方法,用以反映一個字詞對語料庫中一份文檔的重要性。在信息檢索和文本挖掘中,它常被用作權重因子。


TF-IDF值與字詞在文檔中出現的次數成正比增加,與字詞在語料庫中出現的頻率成反比下降,這有助於在某些字詞出現頻繁時進行調整。


你做對了幾個?這些問題覆蓋主題廣泛,從神經網絡到數據清洗,從SVM到NLP,從分類率到統計學。不熟悉的話得好好複習啦!


數據科學技能測試:快來看看你能通關嗎?

我們一起分享AI學習與發展的乾貨


分享到:


相關文章: