40个机器学习与数据科学的面试问题(3) 技术頭條網

2020-03-11 23:41:58 碎片時間

Q31:处理一个分类问题，为了验证，随机抽样训练数据进行训练和验证。你很自信自己的模型能在未训练数据上工作非常好因为你的验证精度特别高。然而，你验证后发现精度特别低？为什么？

<code>回答：在分类问题中，我们应该使用分层抽样而不是随机抽样。
随机抽样并不考虑目标类的百分比，另外，分层抽样帮助保留目标变量在抽取样本中的分布。/<code>

Q32: 评估一个回归模型，可选用R2R2，校正R2R2和公差，你会选取哪一个？

<code>回答：公差（1/VIF）被用作多重共线性指标，表示预测器方差无法被其他预测器所解释的百分比。公差大是较好的.
我们会考虑使用校正R2R2而不是R2R2来评估模型拟合性能。因为当加入更多的变量时，R2R2提高与预测精确度的改进无关。
但校正R2R2只有在额外变量提高模型精度时才会提高，否则不会改变。为校正R2R2设定一个阈值很困难因为每个数据集都不一样。
例如：基因突变数据集会有较低的校正R2R2，而且预测性能不错。与股票市场数据相比较，较低校正R2R2暗示这个模型并不好。/<code>

Q33: 在k-means或者kNN中，使用欧几里得距离来计算最近邻之间的距离，为什么不用mahattan距离？

<code>回答：曼哈顿距离只计算水平或者垂直距离，具有维度限制。而欧几里得度量可以用于任何空间计算距离。
因为数据点会在任意维度上显示，欧几里得度量是切实可行的选择。
举例：想象棋盘（国际围棋）上，大主教或者车所行进的距离可以用曼哈端距离计算，因为移动方向是水平和垂直的。
/<code>

Q34: 像对待5岁小孩一样向我解释机器学习（machine learning）。

<code>回答：这很简单。这就像宝宝学习走路一样，每次他们跌倒，他们学习（无意识地）& 明白到他们的腿应该伸直而不是弯曲。
下一次他们跌倒，他们会感觉到疼，哭泣，但学会不要那样站。为了避免那样的疼痛，他们更加痛苦地尝试。
为了成功，他们甚至寻求门和墙或者身边其他事情的帮助，这样他们能站稳。
这是一个机器在它所处的环境中如何工作和发展的感性描述。
注意：这个面试问题考察将复杂问题用简单的语言表达出来的能力。 

/<code>

Q35: 一个线性回归模型经常用校正R2R2或者F值来评价，如何评价一个逻辑回归模型？

<code>回答：我们可以使用下面这些方式：
1.逻辑回归被用于预测可能性，可以使用AUC-ROC曲线，结合混淆矩阵去评估。
2.同样的，校正R2R2的意义相对于逻辑回归是AIC。AIC是拟合的度量值，以模型参数的数量作为惩罚项，因为我们倾向于拥有最小AIC值的模型。
3.Null Deviance 表示模型截距项能够预测的结果。该值越小，模型越好。
  Residual Deviance表示添加不相关的变量，模型预测的结果。该值越小，模型越好。/<code>

Q36:如何为数据集挑选合适的算法？

<code>回答：机器学习算法的选择仅仅依靠数据的类型。如果数据集有线性关系，则线性回归是最好的算法。
如果你需要进行图像方面的工作，神经网络将帮助你建立一个稳固的模型。
如果数据由非线性关系组成，那么Boosting或者Bagging算法就是选择之一。
如果商业需求是构造可部署的模型，那倾向于使用回归或者决策树模型（很方便解释）而不是黑箱算法比如SVM，GBM等等。 

简而言之，没有任何情境下都适用的算法。我们必须足够谨慎并理解可以使用哪个算法。
/<code>

Q37: 将一个分类变量对待为连续变量，可以得到一个更好的预测模型吗？

<code>回答：为了更好地预测，分类变量可以被考虑为连续变量：当变量本质上是有序的。/<code>

Q38: 什么时候正则化是机器学习中的必须步骤？

<code>回答：当模型过拟合或者欠拟合时，正则化是必须的。这个方式包含为目标函数引进更多特征的成本，因此倾向于使很多变量的参数为零，以降低成本。
这帮助减少模型复杂度，模型能够得到更好的预测结果(泛化性)。/<code>

Q39:如何理解朴素贝叶斯中的偏差-方差均衡？

<code>回答：模型产生的误差可以分解为三个部分，如下列所示：
偏差误差（Bias）：可以帮助衡量平均水平上预测的数值与实际值的差别。高偏差误差意味着模型表现欠佳，会错过重要趋势。
方差误差（Variance）：衡量在同一预测结果之间的差异。高方差的模型意味着在训练数据上过拟合，但在训练数据之外的数据上表现很差。

/<code>

Q40:普通最小二乘法（ OLS）是线性回归，最大似然是逻辑回归。解释这句话。

<code>回答：概括地说，普通最小二乘法和最大似然是使用不同回归方式的方法去接近未知参数值。

普通最小二乘法用在线性回归中，以获得真实值与预测值之间的最小距离的方式接近未知参数值。
最大似然方式是帮助选择参数值，该值能够使模型能够最大可能输出观察样本。
/<code>

碎片时间，关注收藏。

分享到:

閱讀更多 碎片時間 的文章

關鍵字: 算法人生第一份工作数据

40个机器学习与数据科学的面试问题(3)

Q31:处理一个分类问题，为了验证，随机抽样训练数据进行训练和验证。你很自信自己的模型能在未训练数据上工作非常好因为你的验证精度特别高。然而，你验证后发现精度特别低？为什么？

Q32: 评估一个回归模型，可选用R2R2，校正R2R2和公差，你会选取哪一个？

Q33: 在k-means或者kNN中，使用欧几里得距离来计算最近邻之间的距离，为什么不用mahattan距离？

Q34: 像对待5岁小孩一样向我解释机器学习（machine learning）。

Q35: 一个线性回归模型经常用校正R2R2或者F值来评价，如何评价一个逻辑回归模型？

Q36:如何为数据集挑选合适的算法？

Q37: 将一个分类变量对待为连续变量，可以得到一个更好的预测模型吗？

Q38: 什么时候正则化是机器学习中的必须步骤？

Q39:如何理解朴素贝叶斯中的偏差-方差均衡？

Q40:普通最小二乘法（ OLS）是线性回归，最大似然是逻辑回归。解释这句话。

相關文章:

第二章 IoC容器和Bean配置

运算里不得不说的python模块—math

Devops度量--DevOps 现状快速检查表

SOP是什么（解读）

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

DNS侦查工具

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

（必收藏系列）Linux面试题——命令集

五分钟学会如何在 IPFS 上部署网站

「正点原子NANO STM32F103开发板资料连载」第29章 内存管理实验

小白怎么学Web前端开发 如何成为技术达人

如何开发一个web静态服务器

学Java编程还有前景吗 如何才能拿到高薪

Python网络爬虫之配置篇（一）

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

Python的运行效率太低？几行代码快速提升！

python的优点是什么？最新Python400集视频（附教程）

MySQL中OOM故障应如何下手-爱可生

像专家一样使用 panic

30种不同的编程语言怎么写“Hello, World”

percona QAN 介绍

面试官：你可以用纯CSS判断鼠标进入的方向吗？

网络工程师职业生涯中，哪两点是最重要的？

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

Hive分桶表

Spring中资源的加载原来是这么一回事啊！

自己动手搭建邮件系统：怎样让Exchange Server 发出第一封邮件？

【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库

NLP算法入门系列：隐含马尔可夫链(HMM)模型的简单介绍

第一章 Spring Framework概述

opencv人工智能深度学习这样实现人脸的年龄检测

嵌入式linux网络编程之——5年程序员给你深度讲解socket套接字

深入了解ProcessFunction的状态操作(Flink-1.10)

Redis内存分析工具--rdr安装与使用

资深架构师教你源码讲解zookeeper实现分布式锁以及集群搭建步骤

一行代码提升迁移性能

利用相似几何信息，做可泛化3D形状分割模型

这么好用的开源计算器SpeedCrunch，没有不尝试一下的道理

分布式缓存，真香

特征工程的力量

java架构：天天写面向接口编程，你考虑过性能吗？大神都是这么写

SpringBoot如何优雅的使用RocketMQ

css代码规范工具stylelint

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

小白怎么学Web前端开发如何成为技术达人

学Java编程还有前景吗如何才能拿到高薪