智與理的結合:當數據治理遇上人工智慧

智与理的结合:当数据治理遇上人工智能

智与理的结合:当数据治理遇上人工智能

導讀

智与理的结合:当数据治理遇上人工智能智与理的结合:当数据治理遇上人工智能

近日,中國移動研究院發佈文章,解說了數據治理和人工智能兩者之間各自發展歷程,論證了兩者在結構功能上的相互作用,闡明瞭兩者共同發展的前景。

Part 1

數據治理:大數據產業生態系統中的新熱點

近些年來,隨著大數據在各個行業領域應用的不斷深入,數據作為基礎性戰略資源的地位日益凸顯,數據標準化、數據確權、數據質量、數據安全、隱私保護、數據流通管控、數據共享開放這些問題越來越受到國家、行業、企業各個層面的高度關注。更多的人開始意識到,大數據一方面給現有信息技術體系帶來了大挑戰,需要更多的研發投入和創新;另一方面,也需要營造更有利於大數據產業健康有序發展的良好環境,這樣一來,數據治理的概念就越來越多受到了關注,成為目前大數據產業生態系統中的新熱點。

在上世紀80年代,隨著數據隨機存儲和數據庫技術應用,產業界首次提出了數據管理的概念,這就是數據治理最早的起源。2009年,國際數據管理協會(DAMA)發佈了數據管理知識體系DMBOK1.0,提出DAMA數據管理理論框架模型,成為了目前行業最權威的數據管理理論模型,DAMA 數據管理模型包括10個活動職能,分別是數據治理、數據架構管理、數據開發、數據操作管理、數據安全管理、參考數據和主數據管理、數據倉庫和商務智能管理、文檔和內容管理、元數據管理和數據質量管理。2015年,DAMA 新發布的DBMOK2.0知識領域中又將該模型擴展為11個活動職能。在2012年,另一個行業組織數據管控協會 (DGI,The Data Governance Institute)提出了DGI數據管控框架模型。2014年,軟件工程研究所(SEI)基於軟件能力成熟度集成模型(CMMI),提出數據能力成熟度模型(DMM)。2015年,一個主要面向金融保險行業數據管理的公益性組織企業數據管理協會(EDM Council),提出數據管理能力評價模型(DCAM),另外還有像Gartner提出的企業信息能力成熟度模型(the EIM Maturity Model)、IBM企業數據管理能力成熟度模型以及一些諮詢公司如畢馬威、普華永道等發佈的細分行業數據管理體系架構等。、

在我國,2015年,工信部電子技術標準化研究院制定《數據治理白皮書》國際標準研究報告。2017年,工信部信息通信研究院發佈《數據資產管理白皮書》。2018年4月,國家大數據標準化工作組發佈了國家標準《數據管理能力成熟度評估模型GB/T 36073-2018》(簡稱《DCMM模型》)。2018年5月,銀保監會印發《銀行業金融機構數據治理指引的通知》。近年來,國內各行業大型企業也紛紛發起企業內部數據治理項目,制定數據治理規範,成立專業的數據管理實體團隊來開展企業數據治理工作。

上面提到的這些種種數據管理模型,奠定了此後諸多行業化、定製化數據管理模型的基礎,各個企業紛紛在這些已有理論模型基礎上擴展、裁剪、引申、演化,可謂百花齊放。

企業開展數據管理類的工作,除了使用“數據治理”這個詞,業界也經常使用“數據管理”、“數據管控”、“數據資產管理”等說法。總之,這幾個詞語,概念略有差異,內涵基本一致,大家做的事,基本都跳不出DAMA數據管理模型的範圍。

Part 2

人工智能:大型科技企業爭奪未來的主戰場

提到人工智能,近年來可謂炙手可熱,產業界資本的積極佈局,國家政府層面的大力宣傳,還有一些像自動駕駛、機器人、智能客服、語音識別等方面實際應用的湧現,使得人工智能方面的人才身價倍增,很多大型科技企業也緊隨趨勢,成立了AI研究院、人工智能研發中心等實體組織。百度李彥宏宣稱:“百度公司將不再是互聯網公司,而是一家人工智能公司”。中國移動也高度重視人工智能,於2017年發佈了“九天”人工智能平臺,正努力將人工智能技術應用在 網絡、市場、服務、安全、管理和衍生業務等多個領域。”就如一句段子所說:現在混在科技圈的,如果不說自己搞人工智能,都不好意思跟人打招呼。

人工智能已經成為了大型科技企業爭奪未來的主戰場,雖然尚不清楚,藉助了更大的數據量(大數據)、更快的計算力(GPU)、更強的算法技術(深度學習等),過去數年間這個一度沉寂的領域,這一波的爆發能持續多久的時間,但技術發展一般都呈現波浪狀,大數據的一波未平,人工智能一波又起,隨著人工智能和社會各行業各領域不斷融合和創新,相信在這新一輪的科技革命和產業變革進程中,人工智能技術將扮演更加重要的角色。

人工智能的研究範疇包括自然語言處理,知識表現,智能搜索,機器學習,知識獲取,組合調度問題,感知問題,模式識別,神經網絡等等,它的目標是希望計算機擁有像人一樣的智力能力,可以替代人類實現識別、認知、分類和決策等多種功能。

人工智能更是歷史悠久,1959年,計算機科學之父圖靈發表了一篇劃時代的論文《計算機器與智能》,文中提出了人工智能領域著名的圖靈測試:如果電腦能在5分鐘內回答由人類測試者提出的一系列問題,且其超過30%的回答讓測試者誤認為是人類所答,則電腦就通過測試並可下結論為機器具有智能。1956年,達特茅斯會議推動了全球第一次人工智能浪潮的出現,當時樂觀的氣氛瀰漫著整個學界,在算法方面出現了很多世界級的發明,其中包括一種叫做增強學習的雛形(即貝爾曼公式),增強學習就是谷歌AlphaGo算法核心思想內容。現在常聽到的深度學習模型,其雛形叫做感知器,也是在那幾年間發明的。第一次人工智能冬天出現在1974年到1980年,人們發現邏輯證明器、感知器、增強學習等等只能做很簡單、非常專業且使用場景很窄的任務,稍微超出範圍就無法應對。在80年代出現了人工智能數學模型方面的重大發明,其中包括著名的多層神經網絡(1986)和BP反向傳播算法(1986)等,也出現了能與人類下象棋的高度智能機器(1989)。於是,大家又開始覺得人工智能可能還有戲。

然而,1987年到1993年現代PC的出現,讓人工智能的寒冬再次降臨。當時蘋果、IBM開始推廣第一代臺式機,計算機開始走入個人家庭,其費用遠遠低於專家系統所使用的Symbolics和Lisp等機器。相比於現代PC,專家系統被認為古老陳舊而非常難以維護。於是,政府經費開始下降,寒冬又一次來臨。人們開始思考人工智能到底往何處走,到底要實現什麼樣的人工智能。之後,出現了新的數學工具、新的理論和摩爾定律。人工智能也在確定自己的方向,其中一個選擇就是要做實用性、功能性的人工智能,這導致了一個新的人工智能路徑。由於對於人工智能任務的明確和簡化,帶來了新的繁榮。標誌性事件就是1997年IBM深藍戰勝國際象棋大師。2011年,“深藍”的同門師弟“沃森”在美國老牌智力問答節目《危險邊緣》中挑戰兩位人類冠軍,又使人工智能更上了一層臺階。2016年3月15日,谷歌研發的AlphaGo挑戰圍棋九段高手李世石,最後AlphaGo以4:1擊敗李世石,完爆人類,由此將人工智能推向了高潮。人們開始意識到機器智能已經在很多領域超越人類,甚至有人擔心,未來機器人會控制人類,人工智能的發展已經到了前所未有的高度。

數據治理和人工智能,看似不相關的兩個詞,他們兩者放一起,會發生什麼故事呢。

Part 3

確保數據質量和安全是發展人工智能的第一需求

如今,企業對於全面數據治理的需求從未如此強烈。監管機構希望企業能更加清晰地瞭解數據,對它進行有效的管控;企業管理層希望理清數據資產,降低數據應用的複雜性,對企業進行更高效的管理;企業員工也開始認識到數據的重要性,更多地採用數據驅動的方式來開展工作。數據治理正迅速發展成一種企業核心策略,只有做好數據治理,讓數據更加準確完整,並且安全合規,才能釋放出數據的無限潛能,挖掘出更多有價值的數據應用。

而人工智能技術在應用和實踐中,確保數據質量和數據安全是最基礎的底層保障。由於人工智能的落地應用效果會受到數據質量和安全的影響,更多的企業開始反思並轉而去推動數據質量和安全的提升,提供數據質量和安全評測工具,建立好的數據環境,再進行人工智能應用的同步研發。

大數據是人工智能技術研發、訓練的關鍵,是人工智能長期發展的重要保障。只有當人工智能系統能夠獲取更為準確、及時、一致的高質量數據,才能提供更有效、有用、精準性高的智能化服務。根據埃森哲在2018年4月的一份調研發現,中國製造企業在運用人工智能技術時面臨一系列挑戰。其中,52%的受訪中國企業將數據質量列為突出挑戰,數據安全與網絡安全緊隨其後(47%)。在2017年4月的一次研討會上,圍繞人工智能話題,華為任正非提出:“高質量的數據是人工智能的前提和基礎”。當前,不管是人工智能技術的研發,還是人工智能應用領域的發展,“數據質量”都是一個不可或缺、位於重中之重的要素。

人工智能發展的另一個重點保障就是數據安全,人工智能系統的基礎是大數據,要對外提供服務,就會涉及數據的安全保護,在這個過程中,一系列的數據安全防護手段是必不可少的,如數據脫敏管理,對敏感信息的風險評估、使用監控,對數據的洩露檢測,數據庫保密檢查等。人工智能需要海量的數據,人工智能技術的進步取決於各種來源數據的可用性,如何確保這些數據的安全性與保證用戶數據的隱私性是數據質量之外又一個重要問題。同時,通過對業務數據應用語義計算、數據挖掘、機器學習、知識圖譜、認知計算等人工智能技術,也可以促進企業數據安全保障體系完善。因此,數據安全和人工智能兩種技術起到了相互促進、相互完善的作用。

Part 4

搭借AI東風 傳統數據治理悄然向“智能化”升級

經過多年的理論更新、技術演進和應用實踐,與前些年前相比,如今的數據治理從概念到技術已經發生了很多變化。特別是隨著這一波人工智能浪潮的重新興起,數據治理技術和人工智能技術在一些方面也開始有了結合使用,應用了人工智能技術的新一代數據治理可以稱之為“智能化數據治理”。

數據治理工作中,可以通過對大數據應用機器學習技術,作數據挖掘和分析,來識別哪些可能是用戶隱私性數據、哪些數據可能有異常,一旦數據特徵被確認,打上標籤,未來再做數據管理時,就可以使用元數據管理的方法機制,對外提供服務。比如當碰到涉及的某特殊標記數據,就會有相應的流程啟動,或在相關的數據對外服務提供過程中,一旦數據涉及個人隱私,則一定要小心處理,以避免引起政策方面的風險。通過上述應用,可以增強大數據系統數據安全管理和元數據管理的能力。

另外,也可以在針對大數據開展數據質量核查過程中,配合傳統根據預置的質量核查規則進行核查的方式,僅針對少量核心核查規則,從大數據中選取訓練數據樣本,經過預處理,利用機器學習算法進行深度分析,提取公共特徵和模型,可以用來定位數據質量原因,做數據質量問題的預測,並進一步形成知識庫。這樣就可以更進一步增強大數據系統數據質量管理的能力。

對於數據模型的管理,機器學習技術可用來分析數據庫中數據實體的引用熱度,通過聚類算法自動識別數據模型間的內在關係,還可以用於數據模型質量的檢測和評估。對於非結構化數據的管理,像文檔內容,圖像,音頻,視頻,更是可以充分利用人工智能中的自然語言處理、圖像識別、語音識別、視頻處理等技術。

Part 5

大數據治理如何全面擁抱AI

大數據治理,顧名思義,即基於大數據的數據治理。大數據,一般指符合4V特徵的數據,包括社交數據,機器數據等,大數據對傳統數據治理工作帶來很多的擴展。在政策和流程上,大數據治理應覆蓋大數據的獲取、處理、存儲、安全等環節;在數據生命週期管理各階段,如數據存儲、保留、歸檔、處置時,要考慮大數據保存時間與存儲空間的平衡;大數據量大,因此應識別對業務有關鍵影響的數據元素,檢查和保證數據質量;大數據還需要定義與其內容相關的元數據,需與傳統數據定義標準保持一致,術語字典應包含大數據的術語,需要為非結構化數據提供分類、語義支持,Hadoop、NoSQL數據庫的技術元數據也同樣需要納入元數據存儲庫管理;此外,在隱私方面,應考慮社交數據的隱私保護需求,制定相應政策,還要將大數據治理與企業內外部風險管控需求建立聯繫。

數字化時代,大數據治理應該如何和人工智能技術深度結合,人工智能技術在大數據治理領域能有哪些應用,下面提供一些簡單的思路。

數據安全管理

當前已經有許多行業信息安全解決方案都開始使用機器學習算法來識別潛在的系統攻擊,通過機器學習可以建立用於檢測異常情況的“正常”行為的基線,一切不符合基線標準的異常情況都能及時預警和處理。

元數據管理

互聯網企業使用機器學習,分析用戶點擊過哪些鏈接,為用戶生成畫像,打上特定的標籤,來做商品、內容的推薦和優化用戶搜索結果。這些描述用戶消費形為、興趣偏好特徵的元數據信息,已經成為互聯網企業得以生存發展的核心數據資產。

數據質量管理

在金融行業,銀行信用卡髮卡部門很早就開始利用機器學習技術,來識別不合規的申請人、虛假申請信息以及可能存在欺詐性的交易行為。此外,既然機器學習可以識別信息系統中的異常數據,那它也可以檢測製成品或食品中的異常情況。企業可以通過將實體物品生產過程數字化,然後使用經過訓練的機器學習系統來識別不符合標準或規格的產品數據,挑出異常數據,從而部分替代人類檢測員的工作。

非結構化數據管理

近年來,利用機器學習的人臉識別系統能力一直在提高,已經大量應用在識別已知的犯罪分子、員工上班考勤、或者識別公共場所中超出規範或違反法律的行為或活動。而醫療行業,則可以利用機器學習工具,通過對大量紙質和圖像病例資料的訓練學習,構建醫療知識庫,輔助專業醫護人員,診斷疾病並提出最有效的治療策略。

各類社交網站每天都在產生著大量非結構化數據,企業可以利用機器學習技術來實時發現和識別潛在的問題,手寫識別、語音轉寫、自然語言處理技術也在不同場景中大量應用,可以提高人們識別、理解和處理非結構化數據的能力。

數據共享開放

企業可以充分利用人工智能技術,以信息化、自動化方式,共享和開放一部分數據或數據加工結果,對外提供服務,提升企業競爭力。最典型的就是現在各種客戶服務機器人,可以使用自然語言處理技術處理回答客戶提出的常見問題,並隨著時間的推移提高答案的質量。據悉,中國移動客戶服務系統中機器服務的比例已經提升到了20%。

另外一個常見的應用領域就是營銷推薦,在許多行業中,將適合的產品投放到正確的位置對於商業成功至關重要。機器學習系統可以使用企業收集的用戶數據,根據用戶過去的購物習慣預測可能喜歡的物品,再將預測結果數據向企業電商系統或銷售決策系統開放。Facebook前科學家Jeffrey Hammerbacher曾感嘆道:“我們這一代最聰明的大腦,沒有花多少精力思考如何利用人工智能改善人們的生活,而是思考怎麼讓人們點擊更多廣告…”。

數據資產分析

物聯網(IOT)的大發展提供了許多潛在的機器學習使用場景,其中就包括預測性維護,企業可以使用歷史設備數據開展預測分析,推斷機器可能發生故障的時間,使其能夠在影響業務運行之前主動進行維修或安裝更換部件。對於物流企業來說,設置時間表和路線是一件複雜而費時的工作,機器學習系統可以通過對交通數據的分析和監控,幫助企業規劃貨物運輸路線及計劃,提出最有效和最具成本效益的方法。

另外,在金融市場交易中,每個交易者都希望在市場上找到能讓他們低買高賣的模式,大的金融機構更是花費重金,使用人工智能技術針對金融交易數據做深度的分析挖掘,打造自己的量化交易系統,以期望能在變幻莫測的市場風雲中更早一步識別潛在的風險和機會。

Part 6

讓懂數據治理的人來做人工智能

2018年5月,中國國際大數據博覽會上,中國科學院院士梅宏發表演講中表示,大數據治理體系建設是我們國家實施大數據戰略的重要保障,是發揮大數據作用,做大做強大數據產業的重要因素,也是關鍵基礎。當下,做人工智能的企業很多,人工智能的基礎就是大數據,數據首先要能互通、共享,如果數據不通,標準不一致,質量不高,就很難做分析、建模,更談不上預測的準確性。開展數據治理則能為企業提供一個高質量的數據工作環境,促進人工智能技術的研究和實踐。總之,數據治理是人工智能的基礎,想做人工智能,需要先把數據治理這個基礎打好。

對大型科技企業來說,面對日益激烈的競爭環境,企業亟需進行數字化轉型,一方面要做好數據治理,另一方面,數據治理政策也對人工智能發展發揮著重要的影響。

作為歐盟“史上最嚴”的數據保護法規,備受關注的《通用數據保護條例》(General Data Protection Regulation,GDPR)於2018年5月25日正式生效,相關組織機構需於該生效日起遵照新規行事。一方面,GDPR適用的地域範圍不僅限於歐盟境內,也適用於提供業務給歐盟境內個人的境外組織機構;另一方面,GDPR在全面加強個人信息保護、強調用戶知情權、訪問權和被遺忘權的同時,對相關組織機構提出更為嚴格的合規要求,並以最高罰沒其全球營業額的4%或2千萬歐元(以金額較高者為準)為條例的施行保駕護航。

GDPR的制定者認為,在大數據時代,隱私權就是人權。根據這一條例,個人消費者可以享有更多權力,並通過對違規行為的嚴厲處罰,更好地保護消費者的數據資產和個人隱私。但同時, GDPR將會對國內互聯網及商業科技公司會產生長遠的影響。有業內人士表示:“如果歐盟對GDPR的執行力度非常嚴,中國企業會“中槍”99%的條款。”對以消費者數據應用為主要業務的國內科技公司來說,更不可能成為例外。GDPR是一部重整全球數據秩序的法令,將成為未來全球網絡空間規則的基石。GDPR對基於個人信息蒐集和隱私驅動的中國互聯網產業收入模式將產生重大影響,甚至可能是顛覆性的影響。

此外,我國對個人信息保護方面,《信息安全技術個人信息安全規範》於2018年5月1日的正式實施,已經對我國科技公司產生了實質性的影響。過去幾年,隨著我國大型科技企業在人工智能領域突飛猛進的發展,從支付領域的身份識別(人臉、指紋、虹膜、語音識別)到信貸領域的大數據風控,我國科技企業通過使用消費者數據,提供了智能化服務便利性的同時,由於法律制度和文化環境等因素,在保護消費者隱私的合規性方面做得還不到位。

未來,以歐盟為代表的監管者,拿著“GDPR”大棒,隨時對違規企業進行處罰。在這種內外多重因素的推動下,開展數據治理,以及對數據治理的政策研究和應對,將成為企業人工智能技術應用過程中亟待解決的重大問題。

Part 7

管理數據資產,決勝智能時代

隨著數字時代的到來,企業在開展數據治理和人工智能研究研發工作中,兩者的結合必不可少,近年來一些互聯網企業在享受人工智能技術紅利的同時,存在數據認知不清、數據治理不當、客戶隱私數據使用不合規等現象,出現了不少負面事件。要防止大數據和人工智能的濫用和失控,應該從人工智能的源頭 – 大數據上開始建立科學的數據治理體系,包括數據的質量規範、制度政策、管理流程、職責定位和技術管控工具。數據治理體系是對商業價值和用戶隱私,以及企業長期利益和短期利益選擇的基礎,建立數據治理體系是一個長期的過程,對於大型科技企業,都應當在數據治理的規範和約束下應用大數據,挖掘數據資產價值,提供人工智能服務。

結語

數據治理是人工智能的基礎,數據治理的目的是在業務價值驅動下提供高質量的大數據,而人工智能本身是大數據應用的一種商業模式,數據治理和人工智能就好比一枚硬幣的正反面一樣密不可分,數據治理強調修煉內功,人工智能側重預測未來。


分享到:


相關文章: