大數據計算平台還遠不成熟,面臨的問題主要包括哪幾個方面

大數據是新一代信息技術的核心方面和競爭前沿,也是制約大數據產業快速發展的關鍵瓶頸。大數據技術創新能力已經成為後信息時代衡量國家競爭力的重要指標。與傳統信息產業的發展過程相似,大數據必將逐漸形成一個相對獨立、體系完善的產業形態,完成傳統信息產業的升級換代。互聯網和雲計算的發展過程與趨勢已經證明,大數據未來的產業形態將是以服務為核心的新型產業形態,大數據產業體系的各個環節將提供極為豐富的服務。

大數據是國家、社會和產業在後信息時代的戰略性資源,以大數據為核心支撐的新一代信息技術與應用(如互聯網+、物聯網、智慧城市、智能製造等)利用大數據資源的手段和工具,為社會提供信息服務,其最終目的是利用大數據解決科學研究、社會管理、產業發展等一系列實際問題,從而在戰略決策、運營管理、終端服務等不同層面和環節提升效能與效益,形成新的核心競爭力。當前,全社會數據產生越來越快、積累越來越多,大數據資源越來越豐富,而現有的信息技術已經跟不上數據的發展,特別是對大數據的處理、分析與應用已經成為全球性問題,引起了各國政府和產業界的高度重視。

大規模且高複雜性的大數據,其處理時間、響應速度等都有明確且具體的要求,這對計算平臺的架構、計算模型的框架、共性技術等提出了更高的要求。傳統的以計算速度為優先的設計理念已經不能滿足當前大數據時代的處理需求,新計算平臺的研發、框架設計和共性技術開發等需要兼顧效率與效能的雙重標準,同時兼顧大數據類型多、變化快、價值稀疏的特性。

2 大數據系統計算技術現狀與問題

大數據計算平臺是大數據的硬件與系統基礎,對大數據的所有分析與處理都需要在高性能的計算平臺上進行;共性技術是大數據分析與處理的知識與技術基礎,所有的大數據系統都涉及數據採集、傳輸、存儲、處理和分析過程中的多項共性的技術;典型的應用可以用來驗證計算平臺和共性技術的可行性與執行效率,併為相近應用的研發提供借鑑。

經過近幾年的快速發展,大數據已經形成從數據採集、數據處理到數據分析的完整產業,為社會經濟的發展提供有力的數據支持。然而技術的發展趕不上數據數量和形式的變化速度,這需要大數據研發和從業人員不斷努力來適應新情況。下面從計算平臺、共性技術和應用3個方面對大數據的技術現狀及存在的問題進行闡述。

2.1 大數據計算平臺現狀及存在的問題

大數據計算平臺是大數據產品體系的核心龍頭。大數據計算平臺以雲計算為基礎環境、以服務模式為總體架構,覆蓋大數據應用全過程,支持多源異構海量數據的採集、存儲、集成、處理、分析、可視化展現、交互式應用,涉及企業大數據產品體系的各個層面,為各層產品實現提供關鍵技術支撐。

當前,面向信息服務的大數據計算平臺還遠不成熟,平臺優化和節能等關鍵技術有待突破,面臨的問題主要包括以下幾個方面。

● 平臺研發需要交叉學科知識。由於大數據計算平臺環境複雜,要提高大數據計算平臺的處理能力、優化平臺性能和降低能耗、提高平臺的安全性和隱私保護,需要多學科、多種專業背景的科研人員協同創新、聯合攻關,才能實現技術突破。平臺研發需要交叉學科知識。

● 平臺研發人才缺乏。由於大數據應用在許多行業屬於新生事物,雖然很多企業管理者認識到了大數據的潛在價值,但還處於觀望狀態,不願冒風險做領先者;多數企業缺少大數據技術和應用人才,也缺少大數據應用的技術平臺,無法開展實際應用項目;目前大數據技術還很不成熟,很多是開源軟件,實施應用項目成本高、風險大。企業、科研機構和大學協同創新是突破行業示範應用障礙的有效途徑。

● 平臺框架需要突破。大數據計算平臺的處理和分析能力主要依賴分佈式計算框架來完成。分佈式計算框架不僅要提供高效的計算模型、簡單的編程接口,還要具備容錯能力和高擴展性。大數據計算平臺的計算框架主要分為批處理和流處理兩種。批處理計算框架主要針對靜態數據的離線計算,吞吐量好,但是不能保證實時性;流處理計算框架主要針對動態數據的在線實時計算,時效性好,但是難以獲取數據全貌。

● 技術環境不統一。目前大數據最前沿的計算框架和衍生的生態圈都分佈在以GitHub為主的開源社區內,形成了大數據基礎架構和大數據分析處理技術群。大數據的技術環境為用戶提供了豐富的技術選擇,但也給用戶掌握和使用多樣性的大數據技術造成障礙,且提高了應用成本。

2.2 大數據共性技術現狀及存在的問題

根據處理流程,大數據技術可以分為基礎架構支持、數據採集、數據存儲、數據計算以及展現與交互幾類。具體來說,基礎架構涉及的技術包括雲計算平臺、雲存儲、虛擬化、網絡以及資源監控等;數據採集涉及的技術包括數據總線、抽取—轉換—加載(extract-transform-load, ETL)工具等;數據存儲涉及的技術包括分佈式文件系統、關係型數據庫、NoSQL數據庫、內存數據庫等;數據計算涉及的技術包括數據查詢、統計與分析、數據預測與挖掘、圖譜挖掘、商業智能(business intelligence,BI)等;展現與交互技術包括圖形與報表、可視化工具、增強現實技術等。此外,大數據技術還包括大數據的安全與隱私保護等相關技術。

當前,大數據的存儲、處理、分析、展示等關鍵技術有待突破,大數據處理和分析能力、算法的數據處理能力遠遠達不到實際應用要求。現有的信息技術不足以解決大數據的問題,面對豐富和複雜的大數據應用場景,需要多學科、多領域的交叉合作才能解決。這給傳統信息技術帶來了挑戰,主要表現在:多源多模大數據的獲取和融合;對數據質量和低質量數據的容忍;面向大數據算法及理論的進一步研究;對現有可擴展存儲和處理的計算架構更新設計;對大數據並行處理及分析挖掘技術適應性設計等。

2.3 大數據應用的現狀及存在的問題

隨著國家政策扶持力度的不斷加大,產業資本的持續投入,國內外發展大數據的積極性都很高,行業應用得到快速推廣。當前,大數據的應用給企業不僅帶來了技術和應用模式上的突破,還為商業模式的創新以及企業的轉型發展帶來了驅動力。對公共服務機構來說,挖掘大數據的潛在價值對解決城市發展問題、完善社會機制、更好地服務於市民有著重大的意義。

雖然大數據應用逐步深入人們的生活,但限於目前大數據技術仍不成熟,因此與實際問題解決需求存在一定的差異,主要表現如下。

● 時空大數據面臨海量數據管理、時空數據融合、時空大數據理論框架和時空推理與數據挖掘的深度結合的挑戰;針對時空大數據模式發現與價值提煉的問題,揭示大尺度事件的演化推理機理,突破大尺度安全時間的理解和侷限的挑戰。

● 媒體大數據的包容量大、源頭多且成分迥異的特性,給媒體大數據計算理論和關聯算法的研究帶來了巨大的挑戰。此外,目前無論是科學研究還是新技術開發,都沒有解決計算機按內容自動搜索視頻媒體的可行性方案。

● 為了有效地利用物聯網海量多樣化的大數據,挖掘其價值,一方面需要對網絡進行優化,使其具備未來物聯網需具備的承載大數據的能力;另一方面,對用戶的服務進行分析挖掘,充分實現物聯網的潛在價值。

● 物流大數據應用領域面臨使用大數據技術推動電子商務與現代物流的協同發展問題,是物流大數據應用的一大挑戰。

3 大數據系統計算技術創新平臺

在國際社會和我國政府將大數據上升為國家戰略的背景下、在我國大數據計算平臺和共性技術研究不充分的情況下,國家發展和改革委員會於2017年正式批覆由深圳大學牽頭建設大數據系統計算技術國家工程實驗室(以下簡稱國家工程實驗室)。國家工程實驗室面向國家實施大數據戰略的需求,著重解決我國大數據計算平臺安全可信性差、軟件通用性低的突出問題;採用國產高性能處理器互聯芯片和計算平臺,實現大數據智能診斷和自動糾錯等可靠性信息高速轉發,提升大數據計算平臺的安全控制能力,滿足國家加密算法的要求;以研製自主可控、通用性強的大數據計算平臺為核心目標,解決高性能大數據計算中的共性問題,並以此為基礎,著力開展大數據示範性應用研發。各技術方向的架構和關係如圖1所示。


大數據計算平臺還遠不成熟,面臨的問題主要包括哪幾個方面


圖1 國家工程實驗室研究方向

國家工程實驗室計劃突破的3個主要技術方向包括高性能高安全的大數據計算平臺研發、高度通用的大數據計算共性關鍵技術研究、大數據示範性應用研發,有針對性地解決目前我國大數據計算平臺面臨的安全性差、通用性低等突出問題。採用全國產化、面向特定工程領域的芯片及軟件技術,實現完全自主可控的高性能大數據計算平臺。將在該自主可控的硬件計算平臺上,研發可以適用於大數據計算共性關鍵技術的通用系統軟件。還將面向大數據計算中的示範性應用,開展應用軟件技術的研發,實現“硬件—系統軟件—應用軟件”的完整的大數據計算生態環境。

(1)高性能高安全的大數據計算平臺研發

隨著國家、國防信息化建設的發展,構建自主可控的大數據計算平臺是國家戰略安全的至關重要的問題。目前我國絕大多數的大數據計算平臺都基於國外的軟硬件系統。大數據計算平臺安全可信性差和軟件通用性低等問題,成為大數據行業最為突出的核心問題。採用國外的基礎技術平臺,不僅在核心技術上受制於人,而且對我國重要數據信息的安全構成了直接威脅。國家工程實驗室將從“硬件—系統軟件—應用”3個層次,全面構建國產化高可靠性、高性能大數據平臺。該平臺的建設以研製基於國產化處理器的大數據計算硬件系統為核心方向。採用創新的RAS 2.0(增強的可靠性(reliability)、可用性(availability)及可服務性(serviceability))和處理器互聯技術,提供超越現有標準開放平臺的單機可靠性和計算性能。採用基於固件、不依賴操作系統(operatin system,OS)的故障響應和診斷機制,能夠全面、自動收集故障信息並進行分析,實現主動預警、隔離、替換失效部件,並率先支持CPU、內存等核心部件的在線維護,面向計劃內零停機維護設計,保障重要部門和企業的關鍵業務連續運行。

(2)高 度通用的大數據計算共性關鍵技術研究

國家工程實驗室將開展面向高度通用的大數據計算共性關鍵技術的研究。大數據計算在數據量、數據類型方面與傳統高性能計算有顯著不同,對數據的實時響應、安全性等方面也有特殊的要求。國家工程實驗室擬在通用大數據並行計算框架、一體化平臺集成、數據存儲、資源調度、數據安全、一體化應用環境6個方面開展研究。基於度量空間的大數據抽象框架,利用度量空間將大數據複雜繁多的數據類型和多樣化的距離抽象為統一的數據類型和距離函數接口,並通過支撐點選取算法選取若干支撐點,以數據到支撐點的距離為座標,從而將數據從無座標的度量空間映射到有座標的多維空間,使眾多數學工具得以使用。

(3)大數據示範性應用研發

研發特定領域的大數據示範性應用及其共性技術是國家工程實驗室建設的重要目標之一。國家工程實驗室建設期間將從“智慧城市”“智能製造”“智慧政府”及“智慧服務”等領域的關鍵應用技術出發,開展五大示範性應用及共性技術的開發,包括多維時空大數據分析在智慧城市中的示範應用、物流大數據示範應用、媒體大數據分析的示範應用、物聯網大數據示範應用以及大數據可視化分析技術的示範應用。通過示範應用的開發及共性技術的研究,建立大數據“產學研用”協同創新生態鏈,促進大眾創業和萬眾創新。

4 基於大數據系統計算技術平臺打造大數據生態創新基地

國家工程實驗室的總體功能定位概括為我國大數據領域領先的“4個基地”,分別介紹如下。

(1)大數據技術創新與計算平臺基地國家工程實驗室特別注重大數據計算共性關鍵技術的源頭創新能力,大數據計算平臺的基礎支撐能力以及對前沿技術成果和重大項目方案的集成、測試、驗證的能力,保障產業界對先進、成熟的技術的應用需求。

(2)人才培養與交流基地

國家工程實驗室以重大需求引領技術創新和多學科交叉為人才培養特色,以校企聯合及國際化為人才培養途徑,著力培養兼具理論探索和實踐開發的複合型人才;同時,通過與中國港澳地區及歐美知名高校開展聯合研究、特色專業、訪問學者等活動,實現國際高端人才的常態化交流與合作,發展成為區域性大數據高端人才培養與國際交流基地。

(3)產業孵化與服務基地

國家工程實驗室針對深圳、香港及珠三角地區新一代信息技術領域創客群體對大數據技術與服務的共性需求,提供大數據創新創業的技術、平臺、人才等公共技術服務支撐,促進創業項目加速成熟。

(4)大數據協同創新基地

國家工程實驗室廣泛對接政府和社會資源,成為以政府開放數據為源頭、以社會應用需求為引領、以大數據平臺為核心、以廣東及香港高校人才團隊為支撐、以社會資本為紐帶、以龍頭企業和產業園區為出口的大數據上下游鏈條協同合作與發展的樞紐,共同建設良好的融合大數據領域“政產學 研資介用”多元創新資源的產業生態圈。

國家工程實驗室以高校為建設主體,實現大數據領域的共性核心技術創新、核心平臺建設、高端人才培養、公共技術服務,符合大數據領域技術驅動的發展要求。同時,高校作為國家公立科研機構,能夠從根本上保障協同創新的公立性和持續性。

5 大數據系統計算技術“產學研”合作及行業應用示範平臺

為有效地支撐大數據產業發展與應用推廣,充分發揮國家工程實驗室建設成果對各行業大數據應用的基礎共性需求的支撐能力,實驗室將建設大數據“產學研”合作及行業應用示範平臺,平臺提供的核心子系統與功能包括以下幾個方面。

(1)數據資源目錄系統與服務

平臺將提供數據資源目錄服務。一方面,將已經聚集的數據資源處理成標準數據集,授權第三方合作伙伴使用;另一方面,接收外部數據資源匯聚,將所用數據資源經過處理後的標準數據集以數據資源目錄的形式提供給授權用戶訪問、查詢、分級使用,同時提供基於數據資源開展項目的清單,便於數據資源價值理解與橫向對比,促進產業生態發展。

(2)行業大數據應用案例庫及服務

為促進行業大數據應用普及推廣,不斷強化行業大數據應用的標準化與產品化發展,平臺提供行業大數據應用案例庫及相關服務,將依託平臺構建的各個行業大數據應用案例進行統一管理,並對外授權服務。同時,借鑑開源軟件管理與發展模式,任何基於本平臺提供的案例進行定製開發的案例有義務提交到本平臺,明確不同案例版本的所有權,促進合作方之間的共贏發展。

(3)資源管理與共享服務

為有效支撐不同用戶及案例的開發與運行,平臺將提供資源管理與共享服務,進行用戶及案例管理,平臺將根據用戶案例的開發與運行所需資源進行動態分配與管控,實現在IaaS層、PaaS層的平臺資源共享。

6 強化國家大數據創新能力

大數據系統計算技術創新平臺處在國際大數據競相發展的起步階段和國際大數據的技術體系與產業格局尚未完善成熟的初級階段。瞄準國際大數據技術與產業發展趨勢,針對國家大數據發展戰略需求,依託區域大數據創新創業優越環境,發揮建設單位的創新成果基礎與互補資源優勢,集中圍繞大數據處理與分析的主題,以建設大數據計算平臺與大數據共性技術為核心任務,以研發和促進大數據重大行業應用示範為導向,以構建多學科、多領域交叉融合的創新載體為手段,全面系統地突破大數據領域的技術與應用問題,通過自主創新的大數據成果,支持和驅動相關產業轉型升級和雙創戰略深化實現。

首先,創新平臺將強化國家大數據創新能力建設。大數據是新一代信息技術的核心方面和競爭前沿,也是制約大數據產業快速發展的關鍵瓶頸。大數據技術創新能力已經成為後信息時代衡量國家競爭力的重要指標。與傳統信息技術創新相比,大數據技術創新對科技人才、科研載體、合作模式、資源要素等提出了更高的要求,迫切需要能夠有效組織、融合、協同、發展多元化創新主體和資源的新型、高水平的大數據創新載體,承擔起滿足國家大數據需求的創新、組織、交流、合作的職責。通過本項目研發出自主可控的大數據計算平臺和一系列大數據共性技術,將成為國家大數據創新體系的重要組成部分和推進抓手。

其次,創新平臺將滿足我國大數據技術與應用的重大需求。大數據系統技術按技術創新平臺建設的直接產出就是系統全面地提供大數據技術成果,具體包括時空大數據、物流大數據、媒體大數據、物聯網大數據等示範性大數據應用的相關機器學習理論、分析模型與算法以及應用相關工具、系統與平臺、行業大數據應用解決方案等。這些技術成果具有極強的適用性和推廣性,可進一步面向具體應用場景與需求進行第三方定製開發,應用到更廣泛的行業、領域、環節、場景,突破制約我國大數據應用發展的瓶頸。

再次,創新平臺將促進我國大數據技術服務產業發展壯大。與傳統信息產業的發展過程相似,大數據必將逐漸形成一個相對獨立、體系完善的產業形態,成為傳統信息產業的升級換代。互聯網和雲計算的發展過程與趨勢已經證明,大數據未來的產業形態將是以服務為核心的新型產業形態,大數據產業體系的各個環節將形成極為豐富的服務。建設從計算平臺、共性技術到示範應用,全面覆蓋大數據技術體系中主要環節的核心技術創新與突破,相應的技術成果將以技術、專利、軟件、系統、平臺、方案、培訓、諮詢等形式為社會提供服務,促進我國大數據技術服務產業發展壯大。

最後,創新平臺將助力我國大數據“雙創”生態環境成熟完善。當前我國“雙創”戰略激發了眾多創客團隊和創業孵化器的快速發展,大量與信息技術和服務相關的創業項目,特別是在互聯網、移動互聯網、物聯網、智能硬件等領域的創業項目,都離不開大數據技術的支持。大數據系統計算技術創新平臺研製大數據計算平臺,研究大數據共性技術,具備開展大數據應用的全部核心功能與組件,並通過服務的方式一站式提供給用戶,因此將成為“雙創”戰略的重要支撐,降低創客群體使用大數據技術的門檻,有助於創客群體之間的交流合作,形成以平臺為核心的大數據相關創新創業生態圈。

本文從大數據計算平臺、共性技術和大數據應用的現狀及存在的問題出發,介紹了大數據系統計算技術國家工程實驗室的大數據系統計算技術創新平臺。創新平臺以研製高性能高安全的計算平臺、高度通用的大數據共性技術為基礎,進行大數據示範應用的研發。

依託創新平臺打造大數據生態創新基地,完善大數據“產學研”一體的綜合生態圈;建設大數據“產學研”合作及行業應用示範平臺,改善大數據人才培養的環境,促進大數據研究領域科研成果的轉化。創新平臺的建設將提升國家大數據創新能力,滿足我國大數據技術與應用的重大需求,促進我國大數據技術服務產業發展壯大,助力我國大數據“雙創”生態環境的成熟完善。

在不久的將來,多智時代一定會徹底走入我們的生活,有興趣入行未來前沿產業的朋友,可以收藏多智時代,及時獲取人工智能、大數據、雲計算和物聯網的前沿資訊和基礎知識,讓我們一起攜手,引領人工智能的未來


分享到:


相關文章: