總結,我們從面試亞馬遜數據科學家的40個問題中挑選了5個

總結,我們從面試亞馬遜數據科學家的40個問題中挑選了5個

by 克里斯汀·維迪格

這次分享一些Amazon的數據科學麵試問題!

問: 如果有8個重量相等的大理石和1個稍微重一點的大理石(總共9個大理石),需要多少重量才能確定哪個大理石最重?。

總結,我們從面試亞馬遜數據科學家的40個問題中挑選了5個

需要兩次稱重(見上文A和B部分):

  1. 你可以把九個彈珠分成三組,每組三個,稱兩undefined組。如果天平平衡(備選方案1),則您知道重大理石位於第三組大理石中。否則,你會選擇體重更重的那一組(備選方案2)。
  2. 然後你會練習同樣的步驟,但是你會有三組一個彈珠,而不是三組三個。

問: 凸成本函數與非凸成本函數的區別;當成本函數是非凸的時,它意味著什麼?。

總結,我們從面試亞馬遜數據科學家的40個問題中挑選了5個

凸函數是指在圖上任意兩點之間畫的線位於圖上或圖上方的函數。它有一個最小值。

非凸函數是指在圖上任意兩點之間畫的線可以與圖上其他點相交的函數。它的特點是“波浪形”。

當一個代價函數是非凸的時,這意味著該函數有可能找到局部極小值而不是全局極小值,從優化的角度來看,這在機器學習模型中通常是不需要的。

問: 什麼東西太合適了?。

總結,我們從面試亞馬遜數據科學家的40個問題中挑選了5個

摘自維基百科

過度擬合是一種誤差,模型“擬合”數據太好,導致模型具有高方差和低偏差。因此,一個過擬合模型即使對訓練數據有很高的精度,也不能準確地預測新的數據點。

問: 優質會員費的變化會對市場產生怎樣的影響?。

我對這個問題的答案不是百分之百確定!

讓我們舉一個主要會員費增加的例子——涉及到買賣雙方。

對於買家來說,提高優質會員費的影響最終取決於買家需求的價格彈性。如果價格彈性很高,那麼給定的價格上漲將導致需求大幅下降,反之亦然。繼續購買會員費的買家很可能是亞馬遜最忠誠、最活躍的客戶——他們也可能更重視prime的產品。

賣家將受到打擊,因為現在購買亞馬遜一籃子產品的成本更高。也就是說,一些產品將受到更大的打擊,而其他產品可能不會受到影響。亞馬遜最忠實客戶購買的高端產品可能不會像電子產品那樣受到太大影響。

問: 描述樹、支持向量機和隨機森林。談談他們的優缺點。

決策樹:一種樹狀模型,用於基於一個或多個條件對決策進行建模。

  • 優點:易於實現,直觀,處理缺少的值。
  • 缺點:方差大,不準確。

支持向量機:一種分類技術,它在兩類數據之間找到一個超平面或一個邊界,使兩類數據之間的邊界最大化。有許多平面可以分隔undefined這兩個類,但只有一個平面可以最大化類之間的邊距或距離。

  • 優點:高維度準確。
  • 缺點:容易過度擬合,不能直接提供概率估計。

隨機森林:建立在決策樹基礎上的集成學習技術。隨機林包括使用原始數據的自舉數據集創建多個決策樹,並在決策樹的每個步驟隨機選擇變量子集。然後,模型選擇每個決策樹的所有預測的模式。

  • 優點:可以達到更高的精度,處理缺失值,不需要特徵縮放,可以確定特徵的重要性。
  • 缺點:黑盒,計算密集型。

問: 為什麼降維很重要?。

降維是減少數據集中特徵數量的過程。這一點很重要,主要是在希望減少模型中的方差(過度擬合)的情況下。

維基百科闡述了降維的四個優點(見此處):。

  1. 它減少了所需的時間和存儲空間。
  2. 去除多重共線性提高了機器學習模型參數的解釋能力。
  3. 當數據降到很低的維度(如二維或三維)時,它變得更容易可視化。
  4. 它避免了維度的詛咒。

問: 物品在位置A的概率是0.6,在位置B的概率是0.8。在亞馬遜網站上找到物品的概率是多少?

在回答這個問題之前,我們需要對它作一些假設。假設在Amazon上有兩個地方可以購買特定的商品,在位置a找到的概率是0.6,而在位置B找到的概率是0.8。在亞馬遜上找到商品的可能性可以這樣解釋:

我們可以把上面改寫為P(A)=0.6和P(B)=0.8。此外,假設這些事件是獨立的事件,這意味著一個事件的概率不受另一個事件的影響。我們可以用公式…

P(A or B) = P(A) + P(B) — P(A and B)P(A or B) = 0.6 + 0.8 - (0.6*0.8)P(A or B) = 0.92

問: 什麼是 boosting?

Boosting是一種集成方法,通過減少模型的偏差和方差,最終將弱學習者轉化為強學習者來改進模型。其基本思想是訓練一個弱學習者,然後通過學習前一個學習者的知識來迭代和改進模型。你可以在這裡瞭解更多。


分享到:


相關文章: