讓企業更具有競爭力的法寶 -- 數據倉庫

摘要: 從信息系統本質來說,數據倉庫與數據挖掘沒有直接關係,但是數據倉庫卻是數據處理的核心組成部分,為數據挖掘工作提供堅實的數據基礎。

01 前言

從信息系統本質來說,數據倉庫與數據挖掘沒有直接關係,但是數據倉庫卻是數據處理的核心組成部分,為數據挖掘工作提供堅實的數據基礎,在2018年5月21發佈的《銀行業金融機構數據治理指引》中明確要求,銀行業金融機構應當系統性的收集、整理、跟蹤和分析各類數據,建立數據倉庫、風險數據集市和數據管理系統,以獲取、清洗、轉換和存儲數據,並建立數據質量控制政策和程序,確保數據的完整性、全面性、準確性和一致性,滿足資本計量和內部資本充足評估等工作的需要。

02 數據預處理

在實際的業務運營過程中,各個銀行業務系統存儲的數據可能存在不同的錯誤、缺失和不一致等問題,這使得數據挖掘和分析系統不能直接進行數據的導入和使用,需要提供一個數據預處理環節,將這些可能存在問題的數據進行統一整理和標準化輸出,以確保分析系統得到的數據是正確、完整和一致的。提前進行數據預處理,不僅可以對數據缺陷進行處理,保證數據質量還可以保證後續數據深度加工的性能以及精度,讓處理結果不會因為數據原始的缺陷而走樣,從而大大提高數據挖掘和分析結果的有效性。數據預處理是所有數據應用中的重要步驟,越早進行數據預處理,獲得的好處就越明顯,出現不必要錯誤的可能性也就越低。

目前比較常用的數據預處理技術主要有以下幾種:

(1)數據清理。數據清理的目的是解決數據的錯誤和不一致問題,其最終目的是將數據格式標準化、異常數據的發現和處理、數據糾錯、重複數據的發生和清除等。

在數據清理階段,需要處理包括遺漏值以及噪聲數據在內的異常情況,通常在處理遺漏值會使用包括忽略缺陷數據項、人工填寫遺漏數據值、使用統一常量填充遺漏數據值、使用屬性的平均值填充遺漏數據值、使用分組之後的樣本屬性平均值填充遺漏數據值和使用最可能的值填充遺漏數據值的方法來修復缺失和遺漏的數據,但這些方法或多或少都會帶來數據失真的情況,相對而言,使用最可能的值充填遺漏數據值是使用最多的遺漏值填充方法,因為它可以參考其它屬性的值,從多個維度對猜測值進行約束,從而有更大的概率獲得與真實值接近也最合理的猜測值。

噪聲數據是數據收集過程中產生的不可控的隨機錯誤,是不可避免的,所以需要考慮對收集到的數據進行平滑操作,去掉或減少噪聲數據對分析結果帶來的影響,常用的數據平滑技術包括分箱操作、聚類操作、計算機與人工檢查相結合的操作以及迴歸操作等。

(2)數據集成。數據集成的目的是整合來自多個數據源的數據,數據集成將多個數據源中的數據結合,並存放在同一個數據存儲環境中,有助於減少數據集的冗餘和不一致,提升後續數據處理的準確性和速度。

(3)數據歸約。數據歸約的目的是得到數據更加精簡的表達。在內容大幅度壓縮的同時,所表達的內容不能出現走樣,最終的分析結果也應該保持不變。數據歸約通常將數據按語義層次結構進行合併,語義層次結構定義了數據屬性值之間的語義關係,因此當歸約化使數據個數大量減少時,數據之間的關係可以保持不變。數據歸約操作之後,數據量相比原始數據會有大量減少,從而能夠大幅提升後續數據處理的性能和效率。數據歸約的策略主要有數據立方聚集、維歸約、數據壓縮和數值壓縮。

(4)數據變換。數據變換是對數據進行規範化、離散化和概念分層而進行的操作,其思路主要是找到數據的特徵表示,用維變換轉換方法減少有效變量的數目或找到數據的不變式,從而變成適合於後續處理的形式。數據變換的主要技術包括規格化、歸約、變換、旋轉、投影等操作。

03 數據治理

隨著數據量的增大,對數據的處理不能僅僅停留在清理層面,而要從更高的層面來做數據質量控制,這就是數據治理。數據治理是從信息系統的級別,全面把握數據質量的體系,需要來自高層的授權和信息部門的合作,也需要信息部門和業務部門的綜合監管,最終目標是從宏觀上把握和提升數據的質量。數據治理需要從制度、標準、監控、流程等幾個方面提升銀行的數據信息管理能力,解決目前所面臨的數據標準問題、元數據管理問題、數據質量問題和數據服務問題。

04 ETL工具

ETL意為抽取(Extract)、轉換(Transform)、加載(Load),為數據預處理提供標準化的流程,是當前數據倉庫系統的基礎,數據倉庫中的數據來自源業務系統,而ETL的主要功能是完成對源業務系統數據的抽取、清洗、轉換和加工,生成數據倉庫中的基礎層和應用層數據。

05 數據倉庫的基本概念

數據倉庫的概念是20世紀80年代,為了解決企業的數據集成問題而提出的,數據倉庫是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的數據集合,用於支持管理中的決策制定。

建立數據倉庫的目的主要是將企業系統運營過程中產生的數據存儲起來並加以得用,數據倉庫優越的特性對於數據密集型行業,例如銀行、證券、保險、電信等,有著莫大的吸引力,在發達國家,以數據倉庫為基礎的在線分析處理和數據挖掘應用首先在這些行業得到了推廣和普及。

數據倉庫有面向主題、集成、相對穩定和反映歷史變化的特點,他與數據庫最大差別在於,數據倉庫以數據分析、決策支持為目的來組織存儲數據,而數據庫的主要目的則是為生產運營系統保存數據。

06 OLAP

OLAP(On-Line Analytical Processing)即聯機分析處理,是使用多維信息,針對特定的聯機數據進行訪問、分析和驗證的軟件技術。OLAP由“關係數據庫之父”埃德加·弗蘭克·科德在1993年正式提出。科德認識到,無論是簡單的SQL數據庫查詢,還是OLTP,都無法滿足當時用戶對於數據查詢和分析的需求,越來越多的用戶需要更為複雜、動態的數據查詢功能,不僅要對歷史數據進行自由的檢索,而且要從不同的數據源中進行集成,從而可以自主地從不同的角度觀察數據。科德認為,關係數據庫從根本上無法提供強大的數據合成及多維分析能力,這些功能應該由前端工具來完成的。這裡的前端工具即為OLAP類產品。

OLAP通過在線聯機,為用戶請求的快速交互式操作提供了很好的使用體驗,除此之外,它還有很多重要的特點和處理特性:

(1)快速性。一般來說,系統能在5秒內對用戶的大部分分析要求做出反應。

(2)可分析性。對於邏輯分析和統計分析這類常見分析,OLAP系統都能處理,而且這些操作的邏輯性對決策者來說都是可理解的。

(3)多維性。多維性是OLAP的關鍵屬性,OLAP強大的處理能力正是來自多維數據的多維視圖分析,通過多維視圖在用戶面前的展現,提供多維分析操作功能。

(4)信息性。OLAP的設計和實現正是為了迎合足夠大的信息量需求。從設計角度就確定了OLAP系統必須及時獲得信息,並加以管理,進而做出及時響應。

07 常用數據倉庫產品及OLAP工具

目前市場上各種數據倉庫產品及其解決方案繁多,其定位和特色各有不同,一般要根據自身的項目需求和技術基礎進行選擇。

在數據倉庫產品方面主要有IBM提供的組合產品方案和Oracle的整套解決方案。在IBM提供的方案中,用戶可以自由搭配其它廠商的產品,比如前端數據展現部分,既可以是IBM公司的Query Management Facility,也可以是Business Objects公司的BO,而統計分析則可以用SAS公司的SAS系統完成。而Oracle公司的一整套解決方案就包括了數據庫平臺、開發工具和應用系統,它能夠提供一系列的數據倉庫工具集和服務。

在OLAP工具方面,相關的產品有IBM DB2 OLAP Server、Oracle Express等,隨著OLAP的不斷髮展,其適用範圍也在不斷擴大,如市場和銷售分析、財務報告與整合、管理報告、利益率分析等。更為普適的OLAP工具也正在把聯機分析處理推進到聯機分析挖掘領域,可以將聯機分析處理與多維數據庫的知識發現進行集成,從而把超立方體計算與傳統數據挖掘算法結合起來,通過聯機數據挖掘為用戶的數據分析提供靈活性。


分享到:


相關文章: