目錄:
1,度量數據中心趨勢與離散趨勢的統計量?
2,刻畫相異性的度量?
3,什麼是高數據質量的數據?
4,規範化變換數據的方法?
5,什麼是數據倉庫?
6,什麼是數據立方體?
7,OLAP的操作用哪些?
8,OLAP的服務器結構有哪些?
9,常用的屬性選擇度量有哪些?
10,評估分類器性能的度量?
通過細微的十個小問題,以點畫線,畫出數據相關的知識面,直觀把握知識,形成一個體系。
1,度量數據中心趨勢與離散趨勢的統計量?
中心趨勢度量:均值,中位數,中列數,眾數;
離散趨勢度量:極差,四分位數,方差,標準差,四分位數極差;
分佈形態度量:峰度,偏度,一個標準正態分佈數據偏度為0,峰度為3
2,刻畫相異性的度量?
歐幾里得距離(綠色),曼哈頓距離(紅藍黃),閔可斯夫基距離,上確界距離等等。
3,什麼是高數據質量的數據?
準確性,完整性,一致性,時效性,可信性和可解釋性。
數據預處理過程:數據清理,數據集成,數據歸約。
4,規範化變換數據的方法?
最小-最大規範化:將原始數據投射到指定的空間[min,max]。可用公式表示為:
Z分數(z-score)規範化(或零均值規範化):屬性的值基於A的均值(即平均值)和標準差規範化
小數定標規範化:通過移動屬性A的值的小數點未知進行規範化。小數點的移動位數依賴於A的最大絕對值。
還有scaling 圖表化顯示。
5,什麼是數據倉庫?
William H. Inmon 說:“數據倉庫是一個面向主題的,集成的,時變的,非易失的數據集合,支持管理者的決策過程。”
三種數據倉模型:企業倉,數據集市,虛擬倉庫
6,什麼是數據立方體?
數據立方體是一種多維數據模型,允許以多維對數據建模和觀察。它由維和事實定義。
多維數據模型的模式:星形,雪花,事實星座。
對於N維立方體,共有2的N次方個基本方體,會產生維災難。
完全立方體,冰山立方體,閉立方體,立方體外殼。
7,OLAP的操作用哪些?
上卷,下鑽,切片和切塊,轉軸。其它操作:鑽過,鑽透;
8,OLAP的服務器結構有哪些?
關係OLPA(ROLAP)服務器,多維OLAP(MOLAP)服務器,混合OLAP(HOLAP)服務器,特殊的SQL服務器。
9,常用的屬性選擇度量有哪些?
屬性選擇度量就是分裂規則,用來確定分裂屬性和分裂子集。
常見的度量方法:信息增益,增益率,基尼指數(Gini指數)
其他屬性度量方法:卡方檢驗,C-SEP,G-統計量
10,評估分類器性能的度量?
恭喜你,看完了十個問題,也掌握了基礎的解答點,更希望你能夠做到問十道百,體現自己的專業知識和技術自信。
閱讀更多 吾理數 的文章