01.30 数据十问,问十道百

​目录:

1,度量数据中心趋势与离散趋势的统计量?

2,刻画相异性的度量?

3,什么是高数据质量的数据?

4,规范化变换数据的方法?

5,什么是数据仓库?

6,什么是数据立方体?

7,OLAP的操作用哪些?

8,OLAP的服务器结构有哪些?

9,常用的属性选择度量有哪些?

10,评估分类器性能的度量?


通过细微的十个小问题,以点画线,画出数据相关的知识面,直观把握知识,形成一个体系。

1,度量数据中心趋势与离散趋势的统计量?

中心趋势度量:均值,中位数,中列数,众数;

离散趋势度量:极差,四分位数,方差,标准差,四分位数极差;

分布形态度量:峰度,偏度,一个标准正态分布数据偏度为0,峰度为3

2,刻画相异性的度量?

欧几里得距离(绿色),曼哈顿距离(红蓝黄),闵可斯夫基距离,上确界距离等等。

数据十问,问十道百

3,什么是高数据质量的数据?

准确性,完整性,一致性,时效性,可信性和可解释性。

数据预处理过程:数据清理,数据集成,数据归约。

4,规范化变换数据的方法?

最小-最大规范化:将原始数据投射到指定的空间[min,max]。可用公式表示为:

数据十问,问十道百


Z分数(z-score)规范化(或零均值规范化):属性的值基于A的均值(即平均值)和标准差规范化

数据十问,问十道百


小数定标规范化:通过移动属性A的值的小数点未知进行规范化。小数点的移动位数依赖于A的最大绝对值。

数据十问,问十道百

还有scaling 图表化显示。


5,什么是数据仓库?

William H. Inmon 说:“数据仓库是一个面向主题的,集成的,时变的,非易失的数据集合,支持管理者的决策过程。”

三种数据仓模型:企业仓,数据集市,虚拟仓库

6,什么是数据立方体?

数据立方体是一种多维数据模型,允许以多维对数据建模和观察。它由维和事实定义。

多维数据模型的模式:星形,雪花,事实星座。

对于N维立方体,共有2的N次方个基本方体,会产生维灾难。

完全立方体,冰山立方体,闭立方体,立方体外壳。

7,OLAP的操作用哪些?

上卷,下钻,切片和切块,转轴。其它操作:钻过,钻透;

8,OLAP的服务器结构有哪些?

关系OLPA(ROLAP)服务器,多维OLAP(MOLAP)服务器,混合OLAP(HOLAP)服务器,特殊的SQL服务器。

9,常用的属性选择度量有哪些?

属性选择度量就是分裂规则,用来确定分裂属性和分裂子集。

常见的度量方法:信息增益,增益率,基尼指数(Gini指数)

其他属性度量方法:卡方检验,C-SEP,G-统计量

10,评估分类器性能的度量?

数据十问,问十道百

数据十问,问十道百

恭喜你,看完了十个问题,也掌握了基础的解答点,更希望你能够做到问十道百,体现自己的专业知识和技术自信。


分享到:


相關文章: