數據太多、太亂、太雜?你需要這樣一套數據治理流程

數據作為機器學習的基礎,從 GB、TB 到 PB 已經增長了無數倍,現在大一點的業務場景,沒有 TB 級數據都提供不了高效的體驗。那麼數據怎麼治理才好,怎樣與模型、算力結合才算妙?在本文中,我們將看看什麼是 HAO 數據治理模型,看看公安數據到底是如何規範處理的。

最近,明略科技與合肥工業大學的研究者在中文核心期刊《軟件學報》上發表了一篇關於數據治理的論文。它介紹了數據治理的概念,並對數據清洗、交換和集成等進行具體分析,從而提出了一種新型大數據治理框架「HAO 治理」模型。

論文地址:http://www.jos.org.cn/1000-9825/5854.htm

數據治理真的很重要?

智能是基於數據的,而數據又是基於大量人工與工程努力的,所以人工智能還有相當一部分「人工」。數據收集需要人工確定數據源,或者手動寫爬蟲;數據處理則需要觀察數據,並手動寫整個清洗過程;數據標註則要根據具體業務,看看怎樣給數據打標籤才好。

這些過程都會耗費大量精力,有時候如果處理路徑不明確,甚至會導致重複或冗餘的人力工作。因此事先確定一個具體的處理流程,明確數據該怎樣治理、算力該怎樣分配、模型又該如何部署,那麼整個開發過程能減少很多人力成本與工程負擔。

作為論文一作,明略科技集團首席科學家、明略科學院院長吳信東教授表示:「數據治理的本質是對一個機構(企業或政府部門)的數據從收集融合到分析管理和利用進行評估、指導和監督的過程,通過提供數據服務創造價值。數據治理可對數據戰略資產進行管理,通過從收集匯聚到處理應用的一套治理機制,提高數據質量,實現數據共享和價值最大化。」

既然那麼重要,就需要一套框架,就像 DL 模型最開始都是手動寫,但成為主流後就需要 TensforFlow 這樣的框架。吳信東等研究者詳細分析了數據治理中的各種模塊,並表示數據治理從來都不是一次性的程序,每個組織必須採取許多小的、可實現的、可衡量的步驟來實現長期目標。

因此,如果我們想降低數據治理的成本,最優地調配數據、模型及算力,那麼就需要一個成熟的框架。如下我們重點介紹「HAO 治理」模型的概念與過程,並從公安數據治理的角度看看該框架在實際應用中是什麼樣的。

什麼是 HAO 治理模型

前面介紹過數據治理是從數據收集到應用處理的管理機制,而框架則規定了有關數據的流程、原則或定義。比如說我們現在有一堆圖像數據集,那麼從圖像源、圖像採集到圖像儲存,我們先要確定數據的接入方式是什麼。

隨後,因為這些圖像不止用於一個任務,所以需要確定標準化的形式,並做一些清洗與預處理;當然,標註還是根據任務來確定的。最後,這些圖像數據還應該統一地提供給不同的模型與任務,從而構建不同的服務,這一部分也是該統一管理的。

而明略科技設計的「HAO 治理」模型會從大數據開始,為「HI」(人類智能)、「AI」(人工智能)和「OI」(組織智能)三者協同的智能提供數據治理支持。下面舉個 HAO 的例子:

數據太多、太亂、太雜?你需要這樣一套數據治理流程

其中 HAO 智能的輸入不僅有各種傳感器,還有人類的主觀感受。後面的霧計算會分析所有信息,並將機器運算/推理結果與人的分析相匹配,形成概率化與規則化有機協調的優化判斷。人類、機器和組織三者結合,它們的數據與判斷相互協助,這樣才能最大化地利用數據的能力。

整個人機協同系統是非常複雜的,那麼這就要求有一套成熟的治理框架來規範數據與算力的分配。

這樣的系統應該需要滿足很多要求,例如全面的數據接入機制、標準化的數據處理流程、多元集成的數據組織模式和多種數據服務模式。其中數據服務模式可以向使用者提供查詢檢索和比對排序等基礎數據服務,也可以面向專業人員提供挖掘分析和專家建模等智能數據服務。

如下展示了 HAO 智能的藍圖設計,它主要包括感知、認知和行動三部分。

數據太多、太亂、太雜?你需要這樣一套數據治理流程

總體而言,整個過程會從大數據環境開始,並根據大數據、人類專家系統、人工智能和組織智能生成對應的知識圖譜,從而將大知識應用到人機協同中。此外,「HAO 治理」是一種實用系統,因此也就要求模塊化數據源和治理功能,它需要更快速與靈活地搭建新特性。

「HAO 治理」模型是什麼樣的

「HAO 治理」模型主要包含三部分,即數據接入模塊、數據治理模塊和數據服務模塊。其中數據接入需要採集、匯聚等操作,從而構建異質的大數據。其次數據治理模塊主要對數據進行一系列預處理過程,從而構建更加容易建模的數據。最後的數據服務模塊則通過分析與加工,為外部提供各種新的能力。

1. 數據接入

一般而言,現實世界的數據主要分為結構化或非結構化,而這些圖像、文本等各種數據都應該進行統一的接入與管理。對於數據源之上的接入模塊,它主要完成不同類型的抽取匯聚任務配置,包括異構數據庫之間數據傳輸匯聚,不同類型的文件數據和服務接口間相互傳輸。

數據太多、太亂、太雜?你需要這樣一套數據治理流程

2. 數據治理

接入後的數據都是比較雜亂的,它本身帶了一些冗餘或缺失的信息。因此,數據治理模塊主要包括對匯聚庫中的數據進行數據清洗和數據規範,必要時進行主題劃分和數據關聯,然後進行數據集成。治理完成後的數據匯聚到數據共享中心中,並用於後續的建模。

數據太多、太亂、太雜?你需要這樣一套數據治理流程

其中我們比較熟悉的就是數據清洗,它會對數據進行審查和校驗,從而過濾不合規數據、刪除重複數據、糾正錯誤數據、完成格式轉換。

3. 數據服務

數據治理的目標是提供一個可直接使用且方便管理的數據庫,它最終還是要為各種模型提供學習基礎。而模型,最終也是要提供各種智能服務,因此這一部分也應該得到規範的管理。

基於數據治理模塊,數據服務模塊最開始會根據數據共享中心構建知識圖譜,它不僅向使用者提供模型管理、模型探索、數據探索等數據服務,同時還向專業人員提供挖掘分析、專家建模等智能數據服務。

數據太多、太亂、太雜?你需要這樣一套數據治理流程

其中核心的知識圖譜是由節點和邊組成的巨型知識網絡,節點代表實體、邊代表實體之間的關係,每個實體 還通過鍵值對來描述實體的內在特性。領域專家們可以根據知識圖譜中的實體和關係等核心數據進行建模,並進行高層次的數據挖掘分析和加工。

統一數據接入、治理和服務模塊,就能構造出「HAO 治理」模型,它規定了最一般的處理流程。吳信東教授說:「只有通過多維感知,利用數據治理技術,將高質量的數據連接起來,才能進行知識的智能抽取,基於知識圖譜、暴力挖掘對知識進行多維度分析推理,構建決策模型,完成從數字化、網絡化到智能化的躍遷。」

公安的數據治理應該是什麼樣的

上面介紹了「HAO 治理」模型的主要概念,那麼它應用到現實世界中又是怎麼樣的,它能進一步降低人工成本嗎?在論文的最後一部分,研究者以公安數據治理為例,介紹了整體流程與框架到底是什麼樣的。

先來看張圖,如下圖 13 描述的是公安數據治理框架,平臺架構主要包括數據存儲、數據計算、數據管理、數據應用四部分。它將不同的數據按照應用分到了不同的主題或專題庫,例如常住人口專題庫或企業信息專題庫等等。與此同時,不同的數據也能最終組成知識圖譜,相當於構建了一種龐大的背景知識。

數據太多、太亂、太雜?你需要這樣一套數據治理流程

看上去這張圖非常複雜,但其實也就分為儲存、計算、管理和應用四部分。

  • 數據存儲:基於分佈式的大數據存儲平臺;
  • 數據計算:這是數據治理的最主要部分,包括數據的探查、提取、清洗、轉換、集成等;
  • 數據管理:對集成後的數據統一維護與管理;
  • 數據應用:這是數據價值最直接的體現,我們可以通過自然語言處理等技術,對數據進行深度分析。

從上圖我們可以看到整個工作流大概從預處理到分析挖掘分為 7 個部分,其中不同的部分會調用不同的數據知識庫,最後的分析挖掘則是我們希望獲得的結果。

在整個流程中,我們除了對數據進行各種操作與處理外,還要創建新的知識表示方式。例如將數據按照一定主題進行關聯來構造一個模型,公安數據治理分別以人、物、時空、組織、虛擬標識、 案件等作為主題來建立模型。

數據太多、太亂、太雜?你需要這樣一套數據治理流程

除此之外,知識圖譜按照目標數據可以分為實體、事件、關係三種類型,從而建立數據之間的關聯關係。如下在公安場景中,我們能以人為中心實體構建的一個簡單的知識圖譜。其中我們需要建立人與電話號碼所屬關係、人與護照所屬關係及人與人的關係等等。

數據太多、太亂、太雜?你需要這樣一套數據治理流程

以上就是公安數據治理的簡要結構了,吳信東教授說:「明略科技提出這樣的數據治理框架,希望通過數據在線、分析洞察、閉環智能「三步走」戰略,構建從感知到認知再到行動的反饋閉環,將人類、機器、組織的智能三位一體,為企業和組織提供具有分析決策能力的高階人工智能應用。」


分享到:


相關文章: