大數據軟件產品研發進展及挑戰

大數據軟件產品研發進展及挑戰

雖然中國大數據產品和解決方案眾多,但是仍然存在很大的挑戰。在產品方面,國產大數據產品核心技術仍然沒有實現自主,從業人員的開源社區參與度很低;在市場方面,中國大數據產品還需要進一步針對細分市場改進;在人才方面,具備獨立工作能力的跨專業複合型人才十分稀缺;在產業方面,圍繞大數據、軟件、半導體等領域的協同創新機制還需進一步培育。


目前,大數據產品無論是在形態、關係上,還是在應用的領域上,已經發展成為一個龐大而複雜的生態系統。《大數據軟件產品研發進展及挑戰》從目前大數據的核心技術展開論述,結合當前中國大數據產品的現狀,闡述了其所面臨的問題和挑戰。


大數據產品的核心技術

數據管理和數據分析技術是大數據產品的兩大核心技術。


1、數據管理技術

數據是信息的存儲,而信息通過媒介傳播,大數據概念的誕生,背後反映了新媒介的發展。在數據管理技術的早期,佔統治地位的是關係數據庫技術。隨著新的數字化技術發展,一系列以非關係數據庫為基礎的大數據技術應運而生,這些數據庫被統稱為NoSQL數據庫。

NoSQL的縮寫通常被理解為“不僅是SQL(not only SQL)”,和傳統關係數據庫相比具有更高的性能、更好的可擴展性和容錯性以及應用開發更靈活的優勢。公認的一些NoSQL數據庫包括:鍵值數據庫、寬列數據庫、文檔數據庫、內容存儲、搜索引擎、圖數據庫、資源描述數據庫、時間序列數據庫、面向對象的數據庫。

NoSQL數據庫的蓬勃發展並未宣告傳統關係數據庫技術的終結,受大量傳統關係數據庫用戶的需求驅動,NewSQL數據庫的概念應運而生。主要有3種技術流派:基於NoSQL技術體系發展而來的、基於傳統關係數據庫引擎改進而來的分佈式版本和完全自行研發的產品。


2、大數據分析框架

在大數據存儲技術突破的同時,數據分析技術也伴隨著發展起來。在互聯網環境下,數據分析的工作重點從以往孤立的研究存儲如何分佈、計算任務如何分佈,轉向研究如何根據數據的特點有效將計算任務分佈到計算節點上,進而直接完成分析。

在這個過程中,開源軟件社區起到了關鍵性的作用,比較有代表性的分析框架如:面向批處理的Hadoop項目,Spark項目,面向流處理的Kafka項目,Storm項目和Flink項目等。

批處理和流處理分析框架的提出,為分佈式計算提供了可操作性的途徑,改變了以往以單一節點為基礎實施數據分析的工作方式。一些分析庫,例如機器學習庫Mahout、機器學習庫MLlib和麵向圖計算的Pregel、GraphX等,將傳統的統計分析、數據挖掘和機器學習的算法進行改進,以便充分發揮分佈式計算集群的效能。

近年來,通過深度神經網絡算法在圖像識別、語音視頻和自然語言理解領域大放異彩,谷歌、亞馬遜、百度等大型互聯網公司紛紛推出自己的深度學習算法庫。

中國大數據產品現狀

縱觀大數據各項關鍵技術的現狀可以看到,現在技術的發展呈現出一片欣欣向榮的局面,從積極的角度看,每項大數據技術各自解決了非常明確的問題。但如何針對某個特定業務需求構建個性化的大數據系統,仍然是各行業面臨的挑戰,在國內這個局面表現得非常突出。

目前中國市場上的大數據產品可以分為基礎類產品、數據管理類產品、分析應用類產品以及解決方案類產品。


中國大數據產品發展面臨的挑戰


1、開源成為推動大數據核心技術發展的主導力量

從核心技術層面上看,雖然中國的大數據產品繁多,但是仔細觀察,這些產品的底層技術仍然是國外開源社區主導。之所以開源會成為大數據技術的發源地,筆者認為,大數據軟件不直接面向用戶解決問題,在開發人者群體內得到認可是決定其生存發展的重要因素,通過開源拉低門檻,不僅可以限制同類產品低水平競爭,而且可以加快技術在全球範圍的開發者社區的傳播,進一步促進了其成熟,一旦最終成為事實標準,開發者的使用習慣就固定了。

國內目前的主流觀點很難理解開源社區的這種強調免費和運營的文化背後的邏輯,所以從理念上無法接受這種做法,再加上語言和文化差異,就更難融入國際開源社區的工作中,這已經成為中國大數據發展的挑戰。


2、具備大數據技術的複合型人才培養困難

人才方面,則是中國發展大數據技術面臨的另一個挑戰。由於大數據系統自身的複雜性遠超以往的軟件產品,加上數據的規模日益龐大,大數據系統管理員、大數據工程師和數據科學家等崗位分工愈發精細,國內市場對具備大數據運維能力的人才缺口很大,高端人才目前仍然集中在處於頭部的互聯網公司,而傳統行業需要同時具備行業理解和大數據分析能力、能夠獨立分析問題人才,很難以通過簡單引進方式完成人才隊伍建設。國外的頂尖大學已經開始圍繞這一市場需求提供教育產品,國內目前還處於起步狀態。


3、

中國市場對大數據產品的需求差異顯著

需求側角度觀察,中國大數據產品的用戶對大數據產品的用途理解上仍然存在很大的差距,有的公司在大數據產品的運用水平上已經達到國際先進,可以熟練使用數據技術驅動業務的發展;處於第二梯隊的用戶,能做到運用大數據技術解決已有的問題;更多行業的企業在採集數據的層面上還處於起步階段;中國大數據產品的研發者還需要進一步深耕市場,更多關照處於不同發展階段的細分市場的用戶需求。


4、底層技術的協同創新機制尚未形成

從發展路徑上看,導致大數據技術持續創新的底層邏輯與芯片、軟件技術的突破密切相關。中國大數據核心技術還面臨尚未形成跨領域的協同創新的挑戰,從體制機制上看半導體、軟件、數據及工業之間還是各自為戰的狀態,並未形成配合的局面。雖然短期內可能可以在大數據核心技術上實現局部性突破,但是長期來看,一旦底層技術隨著應用發生變化,例如智能芯片、5G或者操作系統,這些優勢也會被迅速瓦解。

全文詳見《大數據軟件產品研發進展及挑戰》,論文發表在《科技導報》2020年第3期。


劉英博,清華大學軟件學院,大數據系統軟件國家工程實驗室,工業大數據系統與應用北京市重點實驗室,副研究員,研究方向為軟件工程、製造業信息化、工業大數據系統與應用。

魏凱,中國信息通信研究院雲計算與大數據研究所副所長,國際電信聯盟(ITU)分佈式賬本標準焦點組主席,工業互聯網產業聯盟大數據特設組副主席,中國通信標準化協會大數據與區塊鏈工作組組長。研究方向為大數據、數據庫和區塊鏈相關技術、標準和產業政策。


分享到:


相關文章: