人工智能面试总结:160个机器学习面试题,赶紧先考考本人!


人工智能面试总结:160个机器学习面试题,赶紧先考考本人!


数据科学职位的典型面试过程会有很多轮,其中通常会触及理论概念,目的是肯定招聘者能否理解机器学习的根底学问。在这篇文章中,我想总结一下我一切的面试阅历(面试or被面试)并提出了160多个数据科学理论问题的清单。其中包括以下主题:

  • 线性回归
  • 模型考证
  • 分类和逻辑回归
  • 正则化
  • 决策树
  • 随机森林
  • GBDT
  • 神经网络
  • 文本分类
  • 聚类
  • 排序:搜索和引荐
  • 时间序列

这篇文章中的问题数量似乎远远不够,请记住,面试流程是依据公司的需求和你的工作阅历而定的。因而,假如你的工作中没有用过时间序列模型或计算机视觉模型,就不会收到相似的问题。

提示:假如不晓得某些面试问题的答案,不要灰心。为了简化起见,我依据难度将问题分为三类:

  • 容易
  • 中号
  • 专家
人工智能面试总结:160个机器学习面试题,赶紧先考考本人!

人工智能面试总结:160个机器学习面试题,赶紧先考考本人!

2020年最新python教程和电子书,帮助您入门人工智能行业,方向对了,努力3个月,起薪过万并不难!

如果你看好人工智能产业,处于想学python或者找不到合适的入门教程,那么赶快来领取吧

获取方式:

1.点赞+关注+评论一下(勾选“同时转发”)

2.私信小V关键词 “ 资料 ”,即可免费获取哦!

还不会私信的小伙伴,可以按照以下步骤操作:

1、打开头条,点击右下角“我的”

2、在个人界面点击“关注”,当然这需要你先关注小编

3、在关注中找到小编,点击小编的头像进入他的个人界面,随后点击“私信” 

4、随后进入私信发送界面,这样就可以愉快的私信聊天了;


人工智能面试总结:160个机器学习面试题,赶紧先考考本人!


let us go!

有监视的机器学习

  • 什么是有监视学习?

线性回归

  • 什么是回归?哪些模型可用于处理回归问题?
  • 什么是线性回归?什么时分运用它?
  • 什么是正态散布?为什么要注重它?
  • 如何检查变量能否遵照正态散布?‍
  • 如何树立价钱预测模型?价钱能否正态散布?需求对价钱停止预处置吗?‍
  • 处理线性回归的模型有哪些?‍
  • 什么是梯度降落?它是如何工作的?‍
  • 什么是正轨方程?‍
  • 什么是SGD-随机梯度降落?与通常的梯度降落有何不同?‍
  • 有哪些评价回归模型的指标?
  • 什么是MSE和RMSE?

考证方式

  • 什么是过拟合?
  • 如何考证模型?
  • 为什么需求将数据分为三个局部:锻炼,考证和测试?
  • 解释穿插考证的工作原理?
  • 什么是K折穿插考证?
  • 如何在K折穿插考证当选择K?你最喜欢的K是什么?

分类

  • 什么是分类?哪些模型能够处理分类问题?
  • 什么是逻辑回归?什么时分需求运用它?
  • Logistic回归是线性模型吗?为什么?
  • 什么是Sigmoid?它有什么作用?
  • 如何评价分类模型?
  • 什么是精确性?
  • 精确性一直是一个好的指标吗?
  • 什么是混杂表?表中的单元格表示什么?
  • 什么是精度,召回率和F1分数?
  • 精确率和召回率的权衡‍
  • 什么是ROC曲线?什么时分运用?‍
  • 什么是AUC(AU ROC)?什么时分运用?‍
  • 如何解释AU ROC分数?‍
  • 什么是PR曲线?‍
  • PR曲线下的面积是几?这个指标有用吗?‍
  • 在哪种状况下AU PR比AU ROC好?‍
  • 如何处置分类变量?‍
  • 为什么需求one-hot编码?‍

正则化

  • 假如的数据中包含三列:x,y,z,其中z是x、y的和,那么线性回归模型会怎样?‍
  • 假如数据中的z列是x和y列之和加上一些随机噪声,那么的线性回归模型会怎样?‍
  • 什么是正则化?为什么需求它?
  • 有哪些正则化技术?‍
  • 什么样的正则化技术适用于线性模型?‍
  • L2正则化在线性模型中是什么样的?‍
  • 如何选择正确的正则化参数?
  • L2正则化对线性模型的权重有什么影响?‍
  • L1正则化在线性模型中是什么样的?‍
  • L2和L1正则化有什么区别?‍
  • 能够在线性模型中同时具有L1和L2正则化吗?‍
  • 如何解释线性模型中的常数项?‍
  • 如何解释线性模型中的权重?‍
  • 假如一个变量的权重高于另一个变量的权重,那么能够说这个变量更重要吗?‍
  • 什么时分需求对线性模型停止特征归一化?什么状况下能够不做归一化?‍

特征选择

  • 什么是特征选择?为什么需求它?
  • 特征选择对线性模型重要吗?‍
  • 有哪些特征选择技术?‍
  • 能够运用L1正则化停止特征选择吗?‍
  • 能够运用L2正则化停止特征选择吗?‍

决策树

  • 什么是决策树?
  • 如何锻炼决策树?‍
  • 决策树模型的主要参数是什么?
  • 如何处置决策树中的分类变量?‍
  • 与更复杂的模型相比,单个决策树有什么益处?‍
  • 如何晓得哪些特征对决策树模型更重要?‍

随机森林

  • 什么是随机森林?
  • 为什么需求在随机森林中停止随机化?‍
  • 随机森林模型的主要参数是什么?‍
  • 如何选择随机森林中树的深度?‍
  • 如何晓得随机森林需求几棵树?‍
  • 随机森林的锻炼并行化容易?该怎样做?‍
  • 随机森林中过多的树有什么潜在问题?‍
  • 能否能够不找到最佳分割,而是随机选择几个分割,然后从当选择最佳分割?可行吗
  • 数据中存在相关特征时会怎样?‍

梯度提升

  • 什么是梯度加强树?‍
  • 随机森林和梯度提升之间有什么区别?‍
  • 能否能够并行化梯度提升模型的锻炼?怎样做?‍
  • 梯度加强树种的特征重要性-有哪些可能的选择?‍
  • 梯度提升模型的特征重要性,连续变量和离散变量之间能否有区别?
  • 梯度提升模型中的主要参数是什么?‍
  • 如何在XGBoost或LightGBM中调整参数?
  • 如何在梯度提升模型当选择树的数量?‍

参数调整

  • 你大致理解哪些参数调整战略?‍
  • 网格搜索参数调整战略和随机搜索有什么区别?什么时分运用一个或另一个?‍

神经网络

  • 神经网络能够处理哪些问题?
  • 通常的全衔接前馈神经网络如何工作?‍
  • 为什么需求激活功用?
  • sigmoid 为激活函数有什么问题?‍
  • 什么是ReLU?它比sigmoid 或tanh好吗?‍
  • 如何初始化神经网络的权重?‍
  • 假如将神经网络的一切权重都设置为0会怎样?‍
  • 神经网络中有哪些正则化技术?‍
  • 什么是1.1Dropout?为什么有用?它是如何工作的?‍

神经网络的优化

  • 什么是反向传播?它是如何工作的?为什么需求它?‍
  • 你晓得哪些锻炼神经网络的优化技术?‍
  • 如何运用SGD(随机梯度降落)锻炼神经网络?‍
  • 学习率是几?
  • 学习率太大时会发作什么?太小?
  • 如何设置学习率?‍
  • 什么是Adam?Adam和SGD之间的主要区别是什么?‍
  • 什么时分运用Adam和SGD?‍
  • 要坚持学习率不变还是在锻炼过程中改动它?‍
  • 如何肯定何时中止锻炼神经网络?
  • 什么是ModelCheckpoint?‍
  • 讲一下你是如何停止模型锻炼的?‍

用于计算机视觉的神经网络

  • 如何运用神经网络停止计算机视觉?‍
  • 什么是卷积层?‍
  • 为什么需求卷积?不能运用全衔接层吗?‍
  • CNN中的pooling是什么?为什么需求它?‍
  • Max pooling如何工作?还有其他池化技术吗?‍
  • CNN能否抗旋转?假如旋转图像,CNN的预测会怎样?
  • 什么是数据加强?为什么需求它们?你晓得哪种加强?
  • 如何选择要运用的加强?‍
  • 你晓得什么样的CNN分类体系?
  • 什么是迁移学习?它是如何工作的?‍
  • 什么是目的检测?你晓得有哪些框架吗?
  • 什么是对象分割?你晓得有哪些框架吗?

文字分类

  • 如何运用机器学习停止文本分类?‍
  • 什么是词袋模型?如何将其用于文本分类?‍
  • 词袋模型的优缺陷是什么?‍
  • 什么是N-gram?如何运用它们?‍
  • 运用N-gram时,词袋模型中N应该是几?‍
  • 什么是TF-IDF?它对文本分类有什么用?‍
  • 你用过哪种模型对带有词袋特征的文本停止分类?‍
  • 运用词袋停止文本分类时,你希望运用梯度提升树模型还是逻辑回归?‍
  • 什么是词嵌入?为什么有用?你晓得Word2Vec吗?‍
  • 你还晓得其他词嵌入的办法吗?
  • 假如你的句子包含多个单词,则可能需求将多个单词嵌入组合为一个。你会怎样做?‍
  • 在停止带有嵌入的文本分类时,运用梯度提升树模型还是逻辑回归?‍
  • 如何运用神经网络停止文本分类?
  • 如何运用CNN停止文本分类?

聚类

  • 什么是无监视学习?
  • 什么是聚类?什么时分需求它?
  • K-means是如何工作的吗?‍
  • 如何为K均值选择K?‍
  • 你还晓得其他哪些聚类算法?‍
  • 你晓得DBScan如何工作吗?‍
  • 何时选择K-means,何时选择DBScan?‍

降维

  • 维度灾难是什么?为什么要关怀它?‍
  • 你晓得降维技巧吗?‍
  • 什么是奇特值合成?它通常如何用于机器学习?‍

排序和搜索

  • 什么是排序问题?能够运用哪些模型来处理它们?‍
  • 文本信息检索任务重,什么是好的无监视baselines?‍
  • 如何评价排序算法?运用哪些离线指标?‍
  • k的精度和召回率是几?‍
  • k的均匀精度均值是几?‍
  • 如何运用机器学习停止搜索?‍
  • 如何取得锻炼算法的排序数据?‍
  • 能够将搜索问题表述为分类问题吗?
  • 如何将点击数据用作锻炼数据以停止排序算法?
  • 如何运用梯度提升树停止排序?
  • 如何在线评价新的排序算法?‍

引荐系统

  • 什么是引荐系统?
  • 树立引荐系统时有什么好的 baseline?‍
  • 什么是协同过滤?
  • 如何将隐式反应(点击等)归入引荐系统?‍
  • 什么是冷启动问题?
  • 处理冷启动问题的可能办法?

时间序列

  • 什么是时间序列?
  • 时间序列与通常的回归问题有何不同?
  • 用于处理时间序列问题的有哪些模型?‍
  • 假如序列中有趋向,如何消弭它?为什么要这么做?‍
  • 在时间t处测得只要一个变量“y”的序列。如何在时间t + 1预测“y”?运用哪种办法?‍
  • 有一个带有变量“y”和一系列特征的序列。如何预测t + 1时的“y”?运用哪种办法?‍
  • 运用树来处理时间序列问题有什么问题?‍

以上!希望它对各位有用,赶紧考考本人先,也希望大家面试顺利!更多人工智能,机器学习方面的教程也会继续更新!


分享到:


相關文章: