數據治理的基石之元數據應該怎麼做?

meta的起源

據說,英語中元數據meta一詞最早出現於1968年,其是對希臘語前綴"meta-"的粗略翻譯,用於表明更抽象層次的事物。儘管元數據一詞只有幾十年的歷史,然而幾千年的圖書館管理員們一直在工作中使用著元數據,只不過我們先所謂的“元數據”是歷史上被稱為"圖書館目錄信息"。圖書目錄中的信息解決了一個十分關鍵的問題,就是如何幫助用戶在圖書館快速地、準確地找到想要的資料。

圖書目錄中依然延續至今的信息片段:書名、作者或整理、主題、簡介和篇幅。但如今其含有更多的信息,如出版社、出版時間、定價、條形碼和上架建議等等。

數據治理的基石之元數據應該怎麼做?

如今的圖書目錄採用更多的信息片段。每本著作都有唯一的編碼號碼(圖書館的書一般帶有手寫或機打標籤),根據某種編碼方案(如杜威十進制分類法等)設計的純數字或字母數字混編字符串,來幫助圖書館用戶在書架上準確地快速地找到著作。

試想幾種場景,一個藏有幾千萬冊的圖書館沒有分類編碼存儲;著作沒有著作名稱、作者、簡介等;著作封面簡介與內容不符;著作沒有目錄等等。就會出現這樣的結果:

    • 圖書館無法管理的自己圖書,很難統計館內多少圖書、每類圖書多少
    • 圖書館無法根據大眾讀者喜好擺放某類圖書的位置
    • 讀者無法找到自己想讀的圖書
    • 讀者費時費力地找到了圖書,但內容與描述不符
    • 讀者精疲力盡地找到了圖書,但無法快速定位到某些章節
    • 讀者心平氣和地找到了圖書,但內容是錯誤的
    • 讀者心滿意足地找到了圖書,但內容是下冊的,又必須從上冊讀起
    • 讀者喜出望外地找到了圖書,但內容是用甲骨文寫的,用梵文作的註解(讀者看不懂)
    • 讀者欲哭無淚地找到了圖書,但圖書館要下班關門了
    • ......讀者崩潰了.....

同樣道理,若企業沒有做好元數據管理,那麼數據消費者或數據分析師會面臨上述讀者的同類困境:找不到數據、找到沒有上下文無法理解數據、理解了數據因數據格式無法使用、內容有誤導致結果錯誤、查詢性能低、數據加工好已經錯過時效等等問題。解決上述困境或管好這些對事物的描述信息都屬於元數據管理的概念範疇。

如果沒有元數據管理,數據無法被有效地組織起來、被準確地理解、被合理地使用和產出預期的結果,那麼數據價值無法發揮出來,於是數據變成了數據負債;如果沒有元數據,那麼數據的內容和真實性就難以估量,繼而可能造成數據價值和可用性的降低。元數據是發揮數據價值的前提,是數據治理的基石。

何為元數據

“元數據是關於數據的數據”(準確地說這個定義不大實用,且不易被理解)。從數據、信息、知識和智慧人類認知領域的層次結構來講,數據是通過工具或機器蒐集的原始資料。確切地說,數據是原始、未經處理的資料或潛在信息。信息就是經過某種處理並供人使用的數據。知識指的是你知道的事情,也就是經過內化的信息,而智慧則是指了解如何運用知識。元數據是對潛在信息的信息,是關於數據的更高層次抽象,是對數據的描述

準確的元數據是必不可少的,也是迅速有效地對數據去粗取精的關鍵。沒有元數據,數據就毫無意義,只不過是一堆數字或文字而已。

元數據只是發揮數據價值的充分條件,“酒香也怕巷子深”如制定了合理並嚴格執行數據標準,通用的易用的模型設計數倉底座,極高的良性循環的數據質量,安全的順滑的數據訪問和數據共享機制和合理的高效的管理流程等,就亟須統一標準的、合理的、易用理解的、易用使用的元數據管理系統,不能把“好酒”(數據)埋沒掉,要把數據宣傳出去,讓更多用戶知曉、理解和高效使用,並使數據價值得最大發揮。

同時也應避免言過其實的“金玉其外,敗絮其中”即數據不標準、數據質量較差、數據存在異常和形散而神散、重複建設及計算的數倉等等,即使有個華麗的元數據可視化展示,只會換來業務用戶更多抱怨。

總之,名副其實是最好的,數據與元數據同步持續良性迭代優化。

元數據應用領域較廣,種類甚多, 按照不同應用領域或功能,元數據分類有很多種方法或種類,元數據一般大致可為三類:業務元數據、技術元數據和操作元數據。各自包含內容如下:

業務元數據:

    • 指標名稱、計算口徑、業務術語解釋、衍生指標等
    • 數據概念模型和邏輯模型
    • 業務規則引擎的規則、數據質量檢測規則、數據挖掘算法等
    • 數據血緣和影響分析
    • 數據的安全或敏感級別等

技術元數據:

    • 物理數據庫表名稱、列名稱、列屬性、備註、約束信息等
    • 數據存儲類型、位置、數據存儲文件格式或數據壓縮類型等
    • 數據訪問權限、組和角色
    • 字段級血緣關係、ETL抽取加載轉換信息
    • 調度依賴關係、進度和數據更新頻率

操作元數據:

    • 系統執行日誌
    • 訪問模式、訪問頻率和執行時間
    • 程序名稱和描述
    • 版本維護等
    • 備份、歸檔時間、歸檔存儲信息

上述只是大致的分為三類,簡單地列舉常用的元數據信息,其實還包括結構性元數據、保存性和權限元數據等等這裡就不一一列舉了。

元數據管理

元數據也是數據,同樣適用數據生命週期管理。元數據生命週期可分為採集、整合、存儲、分析、應用、價值和服務幾個階段。

元數據架構

元數據戰略是關於企業元數據管理目標的說明,也是開發團隊的參考框架。元數據戰略決定了企業元數據架構。元數據架構可分為三類:集中式元數據架構、分佈式元數據架構和混合元數據架構。

  • 集中式元數據架構

集中式架構包括一個集中的元數據存儲,在這裡保存了來自各個元數據來源的元數據最新副本。保證了其獨立於源系統的元數據高可用性;加強了元數據存儲的統一性和一致性;通過結構化、標準化元數據及其附件的元數據信息,提升了元數據數據質量。集中式元數據架構有利於元數據標準化統一管理與應用。

  • 分佈式元數據架構

分佈式架構包括一個完整的分佈式系統架構只維護一個單一訪問點,元數據獲取引擎響應用戶的需求,從元數據來源系統實時獲取元數據,而不存在統一集中元數據存儲。雖然此架構保證了元數據始終是最新且有效的,但是源系統的元數據沒有經過標準化或附加元數據的整合,且查詢能力直接受限於相關元數據來源系統的可用性。

  • 混合式元數據架構

這是一種折中的架構方案,元數據依然從元數據來源系統進入存儲庫。但是存儲庫的設計只考慮用戶增加的元數據、高度標準化的元數據以及手工獲取的元數據。

這三類各有千秋,但為了更好發揮數據價值,就需要對元數據標準化、集中整合化、統一化管理。如果企業做功能較為完善的數據資產管理平臺可採用集中式元數據架構。

元數據管理

億信華辰的元數據管理內置豐富的採集適配器,端到端的自動化採集,一鍵元數據分析,快速理清數據資源,瞭解數據來龍去脈,構建數據地圖,為數據標準建設和數據質量提供基礎支撐。

數據治理的基石之元數據應該怎麼做?

數據治理的基石之元數據應該怎麼做?

如何從數據中探索信息、發現知識,尋找隱藏在數據中的趨勢、模式、相關性及隱含規律,都要我們用於更好的數據洞察力,而這種洞察力的基礎來自我們對元數據的理解。

元數據是用數據管理數據,是快速查找數據、精確定位數據、準確地理解數據和快速使用數據的關鍵。元數據管理還須符合數據標準、較高的數據質量、數據安全、數據共享、合理順滑管理流程。在存儲、計算和人力成本合理可控、可管理的前提下,使數據價值得最大發揮,是數據全生命週期管理重要組成部分。是提升數據價值發揮的前提,是數據治理的基石。


分享到:


相關文章: