04.26 數據倉庫相關術語 對你運用Hive或者ETL有非常大的理解

數據倉庫相關術語

數據倉庫相關術語 對你運用Hive或者ETL有非常大的理解

  • 數據倉庫:數據倉庫是一個支持管理決策的數據集合。數據是面向主題的、集成的、不易丟失的並且是時變的。數據倉庫是所有操作環境和外部數據源的快照集合。它並不需要非常精確,因為它必須在特定的時間基礎上從操作環境中提取出來。

  • 數據集市:數據倉庫只限於單個主題的區域,例如顧客、部門、地點等。數據集市在從數據倉庫獲取數據時可以依賴於數據倉庫,或者當它們從操作系統中獲取數據時就不依賴於數據倉庫。

  • 事實:事實是數據倉庫中的信息單元,也是多維空間中的一個單元,受分析單元的限制。事實存儲於一張表中或者是多維數據庫中的一個單元。每個事實包括關於事實的基本信息,並且與維度相關。在某些情況下,當所有的必要信息都存儲於維度中時,單純的事實出現就是對於數據倉庫足夠的信息。

  • 維度:維度是用來反映業務的一類屬性,這類屬性的集合構成一個維度。例如,某個地理維度可能包括國家、地區、省以及城市的級別。一個時間維度可能包括年、季、月、周、日的級別。

  • 級別:維度層次結構的一個元素。級別描述了數據的層次結構,從數據的最高(彙總程度最大)級別直到最低(最詳細)級別(如大分類-中分類-小分類-細分類)。級別僅存在於維度內。級別基於維度表中的列或維度中的成員屬性。

數據倉庫相關術語 對你運用Hive或者ETL有非常大的理解

  • 數據清洗:對數據倉庫系統無用的或者不符合數據格式規範的數據稱之為髒數據。清洗的過程就是清除髒數據的過程。

數據倉庫相關術語 對你運用Hive或者ETL有非常大的理解

  • 數據採集:數據倉庫系統中後端處理的一部分。數據採集過程是指從業務系統中收集與數據倉庫各指標有關的數據。

  • 數據轉換:解釋業務數據並修改其內容,使之符合數據倉庫數據格式規範,並放入數據倉庫的數據存儲介質中。數據轉換包括數據存儲格式的轉換以及數據表示符的轉換(如產品代碼到產品名稱的轉換)。

  • 數據挖掘:在數據倉庫的數據中發現新信息的過程被稱為數據挖掘,這些新信息不會從操作系統中獲得。


分享到:


相關文章: