数据科学职位的典型面试过程会有很多轮,其中通常会触及理论概念,目的是肯定招聘者能否理解机器学习的根底学问。在这篇文章中,我想总结一下我一切的面试阅历(面试or被面试)并提出了160多个数据科学理论问题的清单。其中包括以下主题:
- 线性回归
- 模型考证
- 分类和逻辑回归
- 正则化
- 决策树
- 随机森林
- GBDT
- 神经网络
- 文本分类
- 聚类
- 排序:搜索和引荐
- 时间序列
这篇文章中的问题数量似乎远远不够,请记住,面试流程是依据公司的需求和你的工作阅历而定的。因而,假如你的工作中没有用过时间序列模型或计算机视觉模型,就不会收到相似的问题。
提示:假如不晓得某些面试问题的答案,不要灰心。为了简化起见,我依据难度将问题分为三类:
- 容易
- 中号
- 专家
2020年最新python教程和电子书,帮助您入门人工智能行业,方向对了,努力3个月,起薪过万并不难!
如果你看好人工智能产业,处于想学python或者找不到合适的入门教程,那么赶快来领取吧
获取方式:
1.点赞+关注+评论一下(勾选“同时转发”)
2.私信小V关键词 “ 资料 ”,即可免费获取哦!
还不会私信的小伙伴,可以按照以下步骤操作:
1、打开头条,点击右下角“我的”
2、在个人界面点击“关注”,当然这需要你先关注小编
3、在关注中找到小编,点击小编的头像进入他的个人界面,随后点击“私信”
4、随后进入私信发送界面,这样就可以愉快的私信聊天了;
let us go!
有监视的机器学习
- 什么是有监视学习?
线性回归
- 什么是回归?哪些模型可用于处理回归问题?
- 什么是线性回归?什么时分运用它?
- 什么是正态散布?为什么要注重它?
- 如何检查变量能否遵照正态散布?
- 如何树立价钱预测模型?价钱能否正态散布?需求对价钱停止预处置吗?
- 处理线性回归的模型有哪些?
- 什么是梯度降落?它是如何工作的?
- 什么是正轨方程?
- 什么是SGD-随机梯度降落?与通常的梯度降落有何不同?
- 有哪些评价回归模型的指标?
- 什么是MSE和RMSE?
考证方式
- 什么是过拟合?
- 如何考证模型?
- 为什么需求将数据分为三个局部:锻炼,考证和测试?
- 解释穿插考证的工作原理?
- 什么是K折穿插考证?
- 如何在K折穿插考证当选择K?你最喜欢的K是什么?
分类
- 什么是分类?哪些模型能够处理分类问题?
- 什么是逻辑回归?什么时分需求运用它?
- Logistic回归是线性模型吗?为什么?
- 什么是Sigmoid?它有什么作用?
- 如何评价分类模型?
- 什么是精确性?
- 精确性一直是一个好的指标吗?
- 什么是混杂表?表中的单元格表示什么?
- 什么是精度,召回率和F1分数?
- 精确率和召回率的权衡
- 什么是ROC曲线?什么时分运用?
- 什么是AUC(AU ROC)?什么时分运用?
- 如何解释AU ROC分数?
- 什么是PR曲线?
- PR曲线下的面积是几?这个指标有用吗?
- 在哪种状况下AU PR比AU ROC好?
- 如何处置分类变量?
- 为什么需求one-hot编码?
正则化
- 假如的数据中包含三列:x,y,z,其中z是x、y的和,那么线性回归模型会怎样?
- 假如数据中的z列是x和y列之和加上一些随机噪声,那么的线性回归模型会怎样?
- 什么是正则化?为什么需求它?
- 有哪些正则化技术?
- 什么样的正则化技术适用于线性模型?
- L2正则化在线性模型中是什么样的?
- 如何选择正确的正则化参数?
- L2正则化对线性模型的权重有什么影响?
- L1正则化在线性模型中是什么样的?
- L2和L1正则化有什么区别?
- 能够在线性模型中同时具有L1和L2正则化吗?
- 如何解释线性模型中的常数项?
- 如何解释线性模型中的权重?
- 假如一个变量的权重高于另一个变量的权重,那么能够说这个变量更重要吗?
- 什么时分需求对线性模型停止特征归一化?什么状况下能够不做归一化?
特征选择
- 什么是特征选择?为什么需求它?
- 特征选择对线性模型重要吗?
- 有哪些特征选择技术?
- 能够运用L1正则化停止特征选择吗?
- 能够运用L2正则化停止特征选择吗?
决策树
- 什么是决策树?
- 如何锻炼决策树?
- 决策树模型的主要参数是什么?
- 如何处置决策树中的分类变量?
- 与更复杂的模型相比,单个决策树有什么益处?
- 如何晓得哪些特征对决策树模型更重要?
随机森林
- 什么是随机森林?
- 为什么需求在随机森林中停止随机化?
- 随机森林模型的主要参数是什么?
- 如何选择随机森林中树的深度?
- 如何晓得随机森林需求几棵树?
- 随机森林的锻炼并行化容易?该怎样做?
- 随机森林中过多的树有什么潜在问题?
- 能否能够不找到最佳分割,而是随机选择几个分割,然后从当选择最佳分割?可行吗
- 数据中存在相关特征时会怎样?
梯度提升
- 什么是梯度加强树?
- 随机森林和梯度提升之间有什么区别?
- 能否能够并行化梯度提升模型的锻炼?怎样做?
- 梯度加强树种的特征重要性-有哪些可能的选择?
- 梯度提升模型的特征重要性,连续变量和离散变量之间能否有区别?
- 梯度提升模型中的主要参数是什么?
- 如何在XGBoost或LightGBM中调整参数?
- 如何在梯度提升模型当选择树的数量?
参数调整
- 你大致理解哪些参数调整战略?
- 网格搜索参数调整战略和随机搜索有什么区别?什么时分运用一个或另一个?
神经网络
- 神经网络能够处理哪些问题?
- 通常的全衔接前馈神经网络如何工作?
- 为什么需求激活功用?
- sigmoid 为激活函数有什么问题?
- 什么是ReLU?它比sigmoid 或tanh好吗?
- 如何初始化神经网络的权重?
- 假如将神经网络的一切权重都设置为0会怎样?
- 神经网络中有哪些正则化技术?
- 什么是1.1Dropout?为什么有用?它是如何工作的?
神经网络的优化
- 什么是反向传播?它是如何工作的?为什么需求它?
- 你晓得哪些锻炼神经网络的优化技术?
- 如何运用SGD(随机梯度降落)锻炼神经网络?
- 学习率是几?
- 学习率太大时会发作什么?太小?
- 如何设置学习率?
- 什么是Adam?Adam和SGD之间的主要区别是什么?
- 什么时分运用Adam和SGD?
- 要坚持学习率不变还是在锻炼过程中改动它?
- 如何肯定何时中止锻炼神经网络?
- 什么是ModelCheckpoint?
- 讲一下你是如何停止模型锻炼的?
用于计算机视觉的神经网络
- 如何运用神经网络停止计算机视觉?
- 什么是卷积层?
- 为什么需求卷积?不能运用全衔接层吗?
- CNN中的pooling是什么?为什么需求它?
- Max pooling如何工作?还有其他池化技术吗?
- CNN能否抗旋转?假如旋转图像,CNN的预测会怎样?
- 什么是数据加强?为什么需求它们?你晓得哪种加强?
- 如何选择要运用的加强?
- 你晓得什么样的CNN分类体系?
- 什么是迁移学习?它是如何工作的?
- 什么是目的检测?你晓得有哪些框架吗?
- 什么是对象分割?你晓得有哪些框架吗?
文字分类
- 如何运用机器学习停止文本分类?
- 什么是词袋模型?如何将其用于文本分类?
- 词袋模型的优缺陷是什么?
- 什么是N-gram?如何运用它们?
- 运用N-gram时,词袋模型中N应该是几?
- 什么是TF-IDF?它对文本分类有什么用?
- 你用过哪种模型对带有词袋特征的文本停止分类?
- 运用词袋停止文本分类时,你希望运用梯度提升树模型还是逻辑回归?
- 什么是词嵌入?为什么有用?你晓得Word2Vec吗?
- 你还晓得其他词嵌入的办法吗?
- 假如你的句子包含多个单词,则可能需求将多个单词嵌入组合为一个。你会怎样做?
- 在停止带有嵌入的文本分类时,运用梯度提升树模型还是逻辑回归?
- 如何运用神经网络停止文本分类?
- 如何运用CNN停止文本分类?
聚类
- 什么是无监视学习?
- 什么是聚类?什么时分需求它?
- K-means是如何工作的吗?
- 如何为K均值选择K?
- 你还晓得其他哪些聚类算法?
- 你晓得DBScan如何工作吗?
- 何时选择K-means,何时选择DBScan?
降维
- 维度灾难是什么?为什么要关怀它?
- 你晓得降维技巧吗?
- 什么是奇特值合成?它通常如何用于机器学习?
排序和搜索
- 什么是排序问题?能够运用哪些模型来处理它们?
- 文本信息检索任务重,什么是好的无监视baselines?
- 如何评价排序算法?运用哪些离线指标?
- k的精度和召回率是几?
- k的均匀精度均值是几?
- 如何运用机器学习停止搜索?
- 如何取得锻炼算法的排序数据?
- 能够将搜索问题表述为分类问题吗?
- 如何将点击数据用作锻炼数据以停止排序算法?
- 如何运用梯度提升树停止排序?
- 如何在线评价新的排序算法?
引荐系统
- 什么是引荐系统?
- 树立引荐系统时有什么好的 baseline?
- 什么是协同过滤?
- 如何将隐式反应(点击等)归入引荐系统?
- 什么是冷启动问题?
- 处理冷启动问题的可能办法?
时间序列
- 什么是时间序列?
- 时间序列与通常的回归问题有何不同?
- 用于处理时间序列问题的有哪些模型?
- 假如序列中有趋向,如何消弭它?为什么要这么做?
- 在时间t处测得只要一个变量“y”的序列。如何在时间t + 1预测“y”?运用哪种办法?
- 有一个带有变量“y”和一系列特征的序列。如何预测t + 1时的“y”?运用哪种办法?
- 运用树来处理时间序列问题有什么问题?
以上!希望它对各位有用,赶紧考考本人先,也希望大家面试顺利!更多人工智能,机器学习方面的教程也会继续更新!