40个机器学习与数据科学的面试问题(3)


40个机器学习与数据科学的面试问题(3)

Q31:处理一个分类问题,为了验证,随机抽样训练数据进行训练和验证。你很自信自己的模型能在未训练数据上工作非常好因为你的验证精度特别高。然而,你验证后发现精度特别低?为什么?

<code>回答:在分类问题中,我们应该使用分层抽样而不是随机抽样。
随机抽样并不考虑目标类的百分比,另外,分层抽样帮助保留目标变量在抽取样本中的分布。/<code>

Q32: 评估一个回归模型,可选用R2R2,校正R2R2和公差,你会选取哪一个?

<code>回答:公差(1/VIF)被用作多重共线性指标,表示预测器方差无法被其他预测器所解释的百分比。公差大是较好的.
我们会考虑使用校正R2R2而不是R2R2来评估模型拟合性能。因为当加入更多的变量时,R2R2提高与预测精确度的改进无关。
但校正R2R2只有在额外变量提高模型精度时才会提高,否则不会改变。为校正R2R2设定一个阈值很困难因为每个数据集都不一样。
例如:基因突变数据集会有较低的校正R2R2,而且预测性能不错。与股票市场数据相比较,较低校正R2R2暗示这个模型并不好。/<code>

Q33: 在k-means或者kNN中,使用欧几里得距离来计算最近邻之间的距离,为什么不用mahattan距离?

<code>回答:曼哈顿距离只计算水平或者垂直距离,具有维度限制。而欧几里得度量可以用于任何空间计算距离。
因为数据点会在任意维度上显示,欧几里得度量是切实可行的选择。
举例:想象棋盘(国际围棋)上,大主教或者车所行进的距离可以用曼哈端距离计算,因为移动方向是水平和垂直的。
/<code>

Q34: 像对待5岁小孩一样向我解释机器学习(machine learning)。

<code>回答:这很简单。这就像宝宝学习走路一样,每次他们跌倒,他们学习(无意识地)& 明白到他们的腿应该伸直而不是弯曲。
下一次他们跌倒,他们会感觉到疼,哭泣,但学会不要那样站。为了避免那样的疼痛,他们更加痛苦地尝试。
为了成功,他们甚至寻求门和墙或者身边其他事情的帮助,这样他们能站稳。
这是一个机器在它所处的环境中如何工作和发展的感性描述。
注意:这个面试问题考察将复杂问题用简单的语言表达出来的能力。

/<code>

Q35: 一个线性回归模型经常用校正R2R2或者F值来评价,如何评价一个逻辑回归模型?

<code>回答:我们可以使用下面这些方式:
1.逻辑回归被用于预测可能性,可以使用AUC-ROC曲线,结合混淆矩阵去评估。
2.同样的,校正R2R2的意义相对于逻辑回归是AIC。AIC是拟合的度量值,以模型参数的数量作为惩罚项,因为我们倾向于拥有最小AIC值的模型。
3.Null Deviance 表示模型截距项能够预测的结果。该值越小,模型越好。
Residual Deviance表示添加不相关的变量,模型预测的结果。该值越小,模型越好。/<code>

Q36:如何为数据集挑选合适的算法?

<code>回答:机器学习算法的选择仅仅依靠数据的类型。如果数据集有线性关系,则线性回归是最好的算法。
如果你需要进行图像方面的工作,神经网络将帮助你建立一个稳固的模型。
如果数据由非线性关系组成,那么Boosting或者Bagging算法就是选择之一。
如果商业需求是构造可部署的模型,那倾向于使用回归或者决策树模型(很方便解释)而不是黑箱算法比如SVM,GBM等等。

简而言之,没有任何情境下都适用的算法。我们必须足够谨慎并理解可以使用哪个算法。
/<code>

Q37: 将一个分类变量对待为连续变量,可以得到一个更好的预测模型吗?

<code>回答:为了更好地预测,分类变量可以被考虑为连续变量:当变量本质上是有序的。/<code>

Q38: 什么时候正则化是机器学习中的必须步骤?

<code>回答:当模型过拟合或者欠拟合时,正则化是必须的。这个方式包含为目标函数引进更多特征的成本,因此倾向于使很多变量的参数为零,以降低成本。
这帮助减少模型复杂度,模型能够得到更好的预测结果(泛化性)。/<code>

Q39:如何理解朴素贝叶斯中的偏差-方差均衡?

40个机器学习与数据科学的面试问题(3)

<code>回答:模型产生的误差可以分解为三个部分,如下列所示:
偏差误差(Bias):可以帮助衡量平均水平上预测的数值与实际值的差别。高偏差误差意味着模型表现欠佳,会错过重要趋势。
方差误差(Variance):衡量在同一预测结果之间的差异。高方差的模型意味着在训练数据上过拟合,但在训练数据之外的数据上表现很差。

/<code>

Q40:普通最小二乘法( OLS)是线性回归,最大似然是逻辑回归。解释这句话。

<code>回答:概括地说,普通最小二乘法和最大似然是使用不同回归方式的方法去接近未知参数值。

普通最小二乘法用在线性回归中,以获得真实值与预测值之间的最小距离的方式接近未知参数值。
最大似然方式是帮助选择参数值,该值能够使模型能够最大可能输出观察样本。
/<code>



碎片时间,关注收藏。


分享到:


相關文章: