总结,我们从面试亚马逊数据科学家的40个问题中挑选了5个

总结,我们从面试亚马逊数据科学家的40个问题中挑选了5个

by 克里斯汀·维迪格

这次分享一些Amazon的数据科学面试问题!

问: 如果有8个重量相等的大理石和1个稍微重一点的大理石(总共9个大理石),需要多少重量才能确定哪个大理石最重?。

总结,我们从面试亚马逊数据科学家的40个问题中挑选了5个

需要两次称重(见上文A和B部分):

  1. 你可以把九个弹珠分成三组,每组三个,称两undefined组。如果天平平衡(备选方案1),则您知道重大理石位于第三组大理石中。否则,你会选择体重更重的那一组(备选方案2)。
  2. 然后你会练习同样的步骤,但是你会有三组一个弹珠,而不是三组三个。

问: 凸成本函数与非凸成本函数的区别;当成本函数是非凸的时,它意味着什么?。

总结,我们从面试亚马逊数据科学家的40个问题中挑选了5个

凸函数是指在图上任意两点之间画的线位于图上或图上方的函数。它有一个最小值。

非凸函数是指在图上任意两点之间画的线可以与图上其他点相交的函数。它的特点是“波浪形”。

当一个代价函数是非凸的时,这意味着该函数有可能找到局部极小值而不是全局极小值,从优化的角度来看,这在机器学习模型中通常是不需要的。

问: 什么东西太合适了?。

总结,我们从面试亚马逊数据科学家的40个问题中挑选了5个

摘自维基百科

过度拟合是一种误差,模型“拟合”数据太好,导致模型具有高方差和低偏差。因此,一个过拟合模型即使对训练数据有很高的精度,也不能准确地预测新的数据点。

问: 优质会员费的变化会对市场产生怎样的影响?。

我对这个问题的答案不是百分之百确定!

让我们举一个主要会员费增加的例子——涉及到买卖双方。

对于买家来说,提高优质会员费的影响最终取决于买家需求的价格弹性。如果价格弹性很高,那么给定的价格上涨将导致需求大幅下降,反之亦然。继续购买会员费的买家很可能是亚马逊最忠诚、最活跃的客户——他们也可能更重视prime的产品。

卖家将受到打击,因为现在购买亚马逊一篮子产品的成本更高。也就是说,一些产品将受到更大的打击,而其他产品可能不会受到影响。亚马逊最忠实客户购买的高端产品可能不会像电子产品那样受到太大影响。

问: 描述树、支持向量机和随机森林。谈谈他们的优缺点。

决策树:一种树状模型,用于基于一个或多个条件对决策进行建模。

  • 优点:易于实现,直观,处理缺少的值。
  • 缺点:方差大,不准确。

支持向量机:一种分类技术,它在两类数据之间找到一个超平面或一个边界,使两类数据之间的边界最大化。有许多平面可以分隔undefined这两个类,但只有一个平面可以最大化类之间的边距或距离。

  • 优点:高维度准确。
  • 缺点:容易过度拟合,不能直接提供概率估计。

随机森林:建立在决策树基础上的集成学习技术。随机林包括使用原始数据的自举数据集创建多个决策树,并在决策树的每个步骤随机选择变量子集。然后,模型选择每个决策树的所有预测的模式。

  • 优点:可以达到更高的精度,处理缺失值,不需要特征缩放,可以确定特征的重要性。
  • 缺点:黑盒,计算密集型。

问: 为什么降维很重要?。

降维是减少数据集中特征数量的过程。这一点很重要,主要是在希望减少模型中的方差(过度拟合)的情况下。

维基百科阐述了降维的四个优点(见此处):。

  1. 它减少了所需的时间和存储空间。
  2. 去除多重共线性提高了机器学习模型参数的解释能力。
  3. 当数据降到很低的维度(如二维或三维)时,它变得更容易可视化。
  4. 它避免了维度的诅咒。

问: 物品在位置A的概率是0.6,在位置B的概率是0.8。在亚马逊网站上找到物品的概率是多少?

在回答这个问题之前,我们需要对它作一些假设。假设在Amazon上有两个地方可以购买特定的商品,在位置a找到的概率是0.6,而在位置B找到的概率是0.8。在亚马逊上找到商品的可能性可以这样解释:

我们可以把上面改写为P(A)=0.6和P(B)=0.8。此外,假设这些事件是独立的事件,这意味着一个事件的概率不受另一个事件的影响。我们可以用公式…

P(A or B) = P(A) + P(B) — P(A and B)P(A or B) = 0.6 + 0.8 - (0.6*0.8)P(A or B) = 0.92

问: 什么是 boosting?

Boosting是一种集成方法,通过减少模型的偏差和方差,最终将弱学习者转化为强学习者来改进模型。其基本思想是训练一个弱学习者,然后通过学习前一个学习者的知识来迭代和改进模型。你可以在这里了解更多。


分享到:


相關文章: