01.30 數據十問,問十道百

​目錄:

1,度量數據中心趨勢與離散趨勢的統計量?

2,刻畫相異性的度量?

3,什麼是高數據質量的數據?

4,規範化變換數據的方法?

5,什麼是數據倉庫?

6,什麼是數據立方體?

7,OLAP的操作用哪些?

8,OLAP的服務器結構有哪些?

9,常用的屬性選擇度量有哪些?

10,評估分類器性能的度量?


通過細微的十個小問題,以點畫線,畫出數據相關的知識面,直觀把握知識,形成一個體系。

1,度量數據中心趨勢與離散趨勢的統計量?

中心趨勢度量:均值,中位數,中列數,眾數;

離散趨勢度量:極差,四分位數,方差,標準差,四分位數極差;

分佈形態度量:峰度,偏度,一個標準正態分佈數據偏度為0,峰度為3

2,刻畫相異性的度量?

歐幾里得距離(綠色),曼哈頓距離(紅藍黃),閔可斯夫基距離,上確界距離等等。

數據十問,問十道百

3,什麼是高數據質量的數據?

準確性,完整性,一致性,時效性,可信性和可解釋性。

數據預處理過程:數據清理,數據集成,數據歸約。

4,規範化變換數據的方法?

最小-最大規範化:將原始數據投射到指定的空間[min,max]。可用公式表示為:

數據十問,問十道百


Z分數(z-score)規範化(或零均值規範化):屬性的值基於A的均值(即平均值)和標準差規範化

數據十問,問十道百


小數定標規範化:通過移動屬性A的值的小數點未知進行規範化。小數點的移動位數依賴於A的最大絕對值。

數據十問,問十道百

還有scaling 圖表化顯示。


5,什麼是數據倉庫?

William H. Inmon 說:“數據倉庫是一個面向主題的,集成的,時變的,非易失的數據集合,支持管理者的決策過程。”

三種數據倉模型:企業倉,數據集市,虛擬倉庫

6,什麼是數據立方體?

數據立方體是一種多維數據模型,允許以多維對數據建模和觀察。它由維和事實定義。

多維數據模型的模式:星形,雪花,事實星座。

對於N維立方體,共有2的N次方個基本方體,會產生維災難。

完全立方體,冰山立方體,閉立方體,立方體外殼。

7,OLAP的操作用哪些?

上卷,下鑽,切片和切塊,轉軸。其它操作:鑽過,鑽透;

8,OLAP的服務器結構有哪些?

關係OLPA(ROLAP)服務器,多維OLAP(MOLAP)服務器,混合OLAP(HOLAP)服務器,特殊的SQL服務器。

9,常用的屬性選擇度量有哪些?

屬性選擇度量就是分裂規則,用來確定分裂屬性和分裂子集。

常見的度量方法:信息增益,增益率,基尼指數(Gini指數)

其他屬性度量方法:卡方檢驗,C-SEP,G-統計量

10,評估分類器性能的度量?

數據十問,問十道百

數據十問,問十道百

恭喜你,看完了十個問題,也掌握了基礎的解答點,更希望你能夠做到問十道百,體現自己的專業知識和技術自信。


分享到:


相關文章: