數據倉庫源數據處理

數據倉庫的源數據可以分為3個主要類別:生產數據、內部數據、外部數據.

生產數據

生產數據主要來源於企業的各種操作型系統。基於數據倉庫的信息要求,要從不同的操作型系統中選擇數據段。在操作型系統中,信息查詢的範圍很窄。你不能在操作型系統上查詢沒有預先安排的,所有的查詢是可以預知的。我們不能跨越不同的操作型系統中進行某個特定的查詢。

生產數據最大的調整就是將從不同系統中得到的數據進行標準化,並且將它們轉換,整合成數據倉庫可以存儲的有用數據。

內部數據

每個組織中的用戶都有自己的電子表格、文檔、客戶信息,有的時候甚至有部門數據庫。這就是內部數據,其中有些部分對數據倉庫是有用的。

內部數據增加了數據轉換和整合過程的複雜性。我們需要事先計劃好如何獲取內部數據。

外部數據

外部數據所起的作用是內部數據無法替代的。企業內部數據可以告訴企業過去和現在的生產和經營情況,為了瞭解行業發展趨勢及其他公司進行比較,需要從外部數據源獲取數據。

從不同的操作型系統和外部得到數據後,需要為數據倉庫的存儲做準備。我們需要進行數據的抽取、轉換和裝載。

數據抽取

依賴市場上的工具進行抽取就可以。常見的是,數據倉庫實施人員將數據源抽取到一個獨立的物理環境裡,這樣可以更容易的將數據轉移到數據倉庫中。在這個獨立的環境中,你可以將數據放入許多文本文件、關係數據庫或兩者的結合體重。

數據轉換

在每個系統的實施中,數據轉換是非常重要的工作程序。首先,要對每一個不同來源的數據進行清洗。清洗的過程可能是更正錯誤的拼寫,檢查多個數據源之間編碼或壓縮格式的矛盾,或者補充遺失數據的默認值,也可以排除多個數據源系統中取同一個數值時出現的重複問題。

對數據元素的標準化也是數據轉換過程的一個很重要的組成部分。要對數據類型進行標準化,也要對來自不同數據源的相同數據元素長度進行標準化。語義的標準化也是一個重要的任務,你要解決異形同義和同音異義的問題,當來自不同源系統的不同的詞表示相同的意思時,你就得解決好異形同義的問題。當相同的字段名在不同的數據源系統中代表不同的意義的時候,就必須解決同音異義的問題。

轉換過程還包括組合從不同數據源提取的數據,要組合一個源記錄中提取的數據,或者對很多源記錄中提取的數據進行組合。數據轉換還包括清除沒有用的源數據,並將源記錄進行新的組合。

數據轉換工作也要包含適當的數據彙總。

當數據轉換工作結束後,我們就得到了清理、標準化和彙總後的完整數據了。可以將數據裝載到數據倉庫的每組數據中。

數據裝載

當數據倉庫開始工作後,需要繼續提取源數據的變動,將這些數據變動按照數據倉庫的要求進行轉換後,存入正在工作的數據倉庫中。

數據倉庫源數據處理


分享到:


相關文章: