王建民:大數據系統軟件助力工業數字化轉型

王建民:大數據系統軟件助力工業數字化轉型

轉載自:雷鋒網(ID:leiphone-sz)

本文5951字14圖,建議閱讀15分鐘

本文為清華王建民教授論大數據系統軟件助力工業數字化轉型

王建民:大數據系統軟件助力工業數字化轉型

清華大學軟件學院院長、信息學院副院長、大數據研究中心執行主任王建民從工業數字化轉型、大數據系統軟件工程、製造業大數據應用三部分進行報告。

AIoT 融合落地方興未艾,工業製造智能轉型迫在眉睫。

為了構建行業對 AIoT 產業的全新認知,解析 AIoT 泛產業的 “雲、管、邊、端” 及智能製造產業的發展,探討當下 AIoT 行業落地困境及工業互聯網發展思路,2019 年 11 月 22 日,全球 AIoT 產業智能製造峰會在深圳隆重舉行,本次會議由雷鋒網主辦,由深圳市軟件行業協會、深圳市大數據產業協會、深圳市人工智能學會、深圳市人工智能行業協會作為支持單位。在下午的工業數字化轉型論壇,清華大學軟件學院院長、信息學院副院長、大數據研究中心執行主任王建民首先帶來《大數據系統軟件助力工業數字化轉型》的學術報告。他從工業數字化轉型、大數據系統軟件工程、製造業大數據應用三部分進行報告,在第一部分,王建民院長介紹了工業製造的發展必由之路,並指出工業數字化轉型核心目標是人和裝備之間的有機融合。接下來他在第二部分介紹了大數據軟件技術,目標是能夠挖掘大數據的四個內涵。第三部分分享了一些工業大數據的實際應用。



以下為演講實錄

總地來說,世界變了,製造業變了。這是哈佛大學2014年非常著名的一個論斷,就是信息技術帶來了產品的革命,產品升級是全球製造業發展的必由之路。製造不僅僅看一個產品,要看整個產品的運營的生態,並且是跨界的,開始就是一個拖拉機,後來帶上天線,最後要和天氣的數據、種子的數據、農業灌溉的數據聯繫起來,這才是現代農業、也是現代的工業,也是現代的服務業,現代工業革命已經模糊了第一、二、三產業。

工業數字化轉型

這個時候製造業出現一個剪刀的曲線,物質產品的市場容量一定是有限的。出路在哪?創新,我做新的產品別人沒有做過。另外一件事是把老的產品用好,做服務,做服務的過程當中再去創新,就是這樣的一個過程。

今天我們講工業互聯網,其中一個是升級,5G、AloT都是要把產品進行升級,另外我們要更多的產業形態,就像雷鋒網這樣的做知識的傳播、做知識的分享,這也是在助力製造業,也是在做製造業服務。



王建民:大數據系統軟件助力工業數字化轉型

王建民:大數據系統軟件助力工業數字化轉型

工業數字化轉型核心目標是人和機器之間的有效融合,我覺得剛才講的升級和轉型當中有一個要素是被忽略了——人。真正講的是人和社會、人和機器和諧的共存。這裡人有時要被客體化,是一個很悲慘的事。

王建民:大數據系統軟件助力工業數字化轉型

這裡一方面裝備要擬人化,另一方面人會被客體化為裝備,都在工業生產發展的進程中。這是好還是壞呢?我認為不可阻擋,沒有選擇。

這個過程當中最高境界還是人機融合,操作機器的時候讓機器懂我,被機器服務的時候也希望機器懂我,真正的AloT裡有機器AI,還有“人的AI”在裡面。

今天我講的主題是大數據,四中全會說大數據可以作為生產資料來進行投資、分成,同樣數據也是整個工業數字化轉型的一個關鍵。一會兒有西門子的分享,西門子無疑是工業4.0轉型升級的一個領導者。

不過,大家一直在問,工業大數據和別的大數據有什麼區別?下面這句話也許不能代表全部,但是他代表一種觀點。工業大數據一定要和物理的對象結合,這個是工業裡最核心要素。工業裡有巨大的學問,這種學問很多是領域知識,所以近200年工業文明發展造就了現代社會,如果離開了這個,我們老說是“互聯網的上半場,產業物聯網的下半場”,就沒有太大的區別了。

大數據軟件技術

我是做軟件的,回來再看大數據的軟件技術,用下圖稍微釐清一下我講的內容,今天大家都在講大數據,我個人把它分成了四個方面的含義。

王建民:大數據系統軟件助力工業數字化轉型

大數據一個含義是大數據集,這是我們採集下來的物化出來的0和1的資產。另外一個是用大數據解決問題,就是大數據應用,數據解決各行各業的問題並創造價值。有一個報道說中國的數字經濟達到了GDP的1/3,規模達到30萬億人民幣。但是2009年穀歌對整個美國的貢獻是5400億美元,我們還是要做很多的功課。我所服務的國家信息安全標準化委員會下設的大數據安全標準化特別工作組,還包括人工智能、區塊鏈,雲計算等安全標準化工作。

我們現在看看大數據的軟件,這是2016年的不完全統計,大數據開源軟件供給側很豐富。問題是這麼多的東西無非解決這麼簡單的問題,就是說把大象關在冰箱裡分五步,採集;然後抽取清洗、標註;再集成聚合;關鍵是分析建模,最後把結果解釋應用。

王建民:大數據系統軟件助力工業數字化轉型

這五個步驟裡面挑戰是什麼,有異構的挑戰、規模的挑戰、處理時效性的挑戰、隱私方面的挑戰,還有人機互動協同的挑戰。如果經過這五步就把問題解決了就太幸運了,大數據就變得太簡單了。

王建民:大數據系統軟件助力工業數字化轉型

實際情況不是這樣的,而是循環的,有時很難走出這個循環,要解決問題要去找現有數據,對數據進行一些理解。在這個時候可能就是好多個循環,常常是能夠用來解決業務問題的數據非常匱乏,企業有很多數據,但是缺乏能夠用來解決問題的數據集。其實在企業做大數據項目的時候,特別是工業企業選題就是個難題,好的選題是成功的一半,往往你找不到好的選題。當然好多人可能沒有做業務理解和數據理解這個循環就直接下去了,那結果風險就很大。

王建民:大數據系統軟件助力工業數字化轉型

選題大概差不多靠譜後,就做數據的建模。現在我們所謂的機器學習有一個很強的假設是,你的訓練集和應用場景是匹配的,也就是獨立同分布的,但如果這個假設不成立,那模型預測就是不可信的。因為大數據面對未來的事情做預測,未來的數據是不是符合獨立同分布的要求?所以要做模型的評估,如果你的運氣很好,老闆不太苛刻的情況下,分析模型很幸運地上線了,那是最好的方案,恭喜你就走出這個泥潭。往往你學習出來的結果和工業現場要求不相符的,比如我想看看計算機主板焊點的質量,人工檢測都已經達到99.99%了,如果你的AI方案達到99.98%,雖然已經到小數點後的第三位了,但是這個不行,因此工業應用場景要求遠遠大於互聯網的精度要求。

我一直在想為什麼谷歌推薦能夠賺那麼多的錢,PV轉化率據我所知只有千分之二十,但是這在行業裡就很牛了,很厲害了。但是如果你在工業應用中準確率只有千分之二十的話,老闆不會買賬。為什麼說工業場景的數據質量很重要,因為工業場景對數據分析的結果要求高。

怎麼樣構建一個數據系統?大數據的應用系統本質特徵是個性化,打個比方就是每個大數據應用都是在不斷裝修改造的別墅。BAT在消費互聯網領域很牛了,這個東西要推到產業裡頭是不是什麼東西都迎刃而解了?大家看看這幾年實現了多少,有多少產業落地了,在你們家用的別墅給別人家用就不適合了,所以這件事情,個性化是核心,怎麼樣個性化,這是我們要在方法論層面討論的問題。

比如伯克利在想能不能研發一個大數據的軟件棧給大家都能夠用,亞馬遜也在想這個問題。亞馬遜從雲計算開始到現在大數據和物聯網,非常牛,亞馬遜在問一個什麼問題,就是是否存在一個參考架構?這個參考架構在各行各業都能遵循。這麼多的工具,剛才我們看了好幾百個主流的工具,有現在的也有原來的,在解決大數據問題的時候,我用什麼工具是合適的?我應該怎麼樣使用這些工具?然後再問為什麼我們要用這些工具?



王建民:大數據系統軟件助力工業數字化轉型

NIST有一個標準,認為大數據系統應該長成這樣,下面是一個技術棧,上面是數據的生命週期,但是我覺得重要的在於上面有一個System Orchestrator,如果大家對雲計算有了解的話Orchestrator太普通了,但是他在大數據裡面有新的含義。

在這種背景下我們大數據系統軟件國家工程實驗室聚焦在以下問題:有沒有一個大數據軟件科學理論,有沒有一個大數據系統開發的軟件工程方法,是否有開發運行平臺與工具支撐,核心是提高大數據軟件構造的生產效率。

王建民:大數據系統軟件助力工業數字化轉型


今天的製造業發生著工藝與工具的革命,將來的軟件生產一定不是我們今天的“碼農”,一部分用java、C或其他的開發語言,另一方面低代碼開發等未來的軟件生成邏輯,將改變大數據系統構造方式。

所以我們設計了一個清華數為的可自由組裝的大數據軟件棧。這裡面有我們自己核心的功能,核心的構件,這裡IoTDB、XLearn、DQuality等都是我們自己研發的。再一個是右邊這個清華數為框架(DWF)非常重要,就是一個大數據系統構造軟件框架,一方面它是低代碼信息化開發環境,另一方面它是大數據軟構件集成的交互總線、控制總線和數據總線。

如果大數據軟件生態裡頭就是老虎、獅子、大象,需要一個訓獸師,每一個節目需要有一個人去協調它,這就是清華數為框架。

工業大數據其實要處理好三個關係,一個是數據的泉,一個是數據的庫,再加上數據的湖。你要把“泉”這件事情搞清楚了,數據泉就是我們今天講的AloT,或者把A去掉也行就是IoT,就是物聯網產生的數據是一個數據泉,今天是一個爆發的產生數據的水龍頭,如果接不住水就跑了。所以今天講IoT得把他連進來,然後還得留下來,所以數據的泉是一個重要的鮮活的數據來源,是一個實時的、在線的東西。數據的庫是信息化重要技術,把人產生的數據放在庫裡頭,結構化的數據放在庫裡頭。

今天我們講數據的湖,好多企業說現在我在建數據湖,我認為錯了,數據湖不是你建的,這是自然形成的。這些泉、庫都在你企業裡頭了,也許當時你也不知道如何組織這些數據,然後形成了數據的湖了,數據的湖是需要治理的,才能夠把有用的數據“釣”出來。

“泉、庫、湖”,中間有一個數據中臺的東西,一會兒再講數據中臺是什麼。這個過程當中DWF清華數為框架,一個作為大數據系統的協調器,把各個組件協調起來,另外一個是支持信息化應用的低號碼量開發,讓更多的業務人員可以用他來做數據的處理。還有一個解決數據泉的問題,要把物聯網的應用變成一個組態的軟件,把這些採集的數據給收回來。

低代碼做的就是軟件定製部署,特別是大數據的軟件不是一成不變的,總有新的需求,我們能不能有一個低代碼量的軟件開發的這樣一種形式,前天我們在清華做第一期的培訓,來了人不多大概50個左右的企業的人員,我們就在檢驗我們低代碼開發的這樣一個交互環境,能不能讓非軟件專業的人也能用,以適應企業業務的頻繁變化。

數據的湖不是我們期望的,它是指根本沒有組織或者沒有被良好組織起來的一組數據集,是一種缺少秩序的東西,在這裡麵人只能像釣魚一樣“釣”出有用的數據,這些裡面有些地方是營養不太好的,甚至有些地方的數據是有毒的,怎麼鑑別出來?怎麼治理?

現在看數據中臺,大家一定要想清楚什麼是數據後臺,否則中臺和後臺的關係不釐清,數據治理就是亂的。現在數據中臺很熱,大家要小心,可能變成一個陷阱。首先要把數據後臺能夠發揮出來的能力發揮到極致,實在不能滿足需要的時候,你按需建數據中臺,今天千萬別上來就建一個很厚的、很重的中臺,將來可能需要去交學費的。在這裡面我們要理清楚這些基本的概念,然後企業把他的數據治理在清華數為框架下得以實現。

這裡面我們有一個案例,這是一個頭盔,為什麼要做頭盔,就是要把人集成在互聯網裡面。這是一個維修工,戴著這個頭盔之後老闆就知道他在怎麼樣做維修,後面還有一個具體的,透過這個我們就知道我們在工業大數據裡頭,要把傳統的信息化的數據拿進來,要把現在的物聯網的數據拿進來,還要把很多你跨界的數據拿進來,然後用人工智能的辦法去理解它,這個頭盔上面就有行為識別。這是介紹了數據湖的一個框架。

下面我講數據泉的治理框架。清華大學開發了一個物聯網數據庫,Apache IoTDB,其實叫數據庫這個名字並不確切,因為他可以把傳感器等端上的數據形成一種持續的格式文件TsFile—CLI,進入到上位機的數據庫,然後還是這個數據文件格式進到雲AI處理環境,支持物聯網數據的全生命週期使用。

IoTDB 這個代碼為什麼要開源?現在到了一個共享的時代,大學也不例外,我們在前年做了國際學科評估,大家覺得一所有影響大學的軟件學科要看你的軟件製品,老百姓能不能看得見、用得上。IoTDB是可以放在端上面,可以放在工控機、場控機上面,也可以放到雲上面,TsFile一個文件格式打通從端到雲的文件。

2018年11月份我們正式貢獻給Apache社區。這次開源經歷給了我們非常大的鼓勵,真正開放的環境下面有創新,不是我們一個團隊在戰鬥,大家會看到深圳的深信服給了我們非常好的深度的測試,包括聯想、海爾,像一些大學,包括德國創業的企業,深圳是一個特別好的地方,深圳是一個創新活力特別強的地方,我們大家一起把IoTDB開源項目共創起來,是非常有意義的。

有了物聯網,然後有了前面的數據治理,然後就是Al了,怎麼樣把它處理起來,我們有一個機器學習的平臺叫做Xlearn,不過名字重了,我們準備要把它改名。它是服務整個生命週期的,從打標註開始。當前機器學習核心問題之一,是希望具有能夠舉一反三有遷移學習的能力,我們在國際上提前佈局了相關工作。在數據可視化交互探索上面我們也有工具AutoVis。

製造業大數據應用

今天的AloT我認為就是這五個階段的融合,一個是物聯網階段的數據採集,另外一個是信息化階段的全類型數據的管理,然後到原來稱為BI的報表,然後到當前AI當中的機器學習,今天我們講的AloT就是把這些技術的一個綜合的應用。


王建民:大數據系統軟件助力工業數字化轉型

現在分享幾個案例:

第一個,就是在裝備製造服務方面,我們跟河北天遠合作,他服務於小松、康明斯這樣世界500強企業。舉個例子,通過發動機裡採集的數據,精準分析油耗。會看到兩個司機,他的經濟性是不一樣的,深綠的是差的,淺黃的是好的,通過油耗經濟型分析,你就知道這兩個司機每個司機應該給他多少錢。

第二個,很多的工程機械要做租賃,這個人到底挖了多少斗的土,有多少的土方,原來是很難計量的。操作手戴上智能安全帽以後,就知道結帳的時候他今天應該領多少錢。

第三個,很多的工程裝備都在荒郊野外,維護人員是不是很負責任地做了維修保養,老闆原來只能聽彙報,今天不一樣了,戴上智能頭盔,老闆就知道他怎麼打的黃油,這個黃油槍在挖掘機的A、B、C、D這幾個關鍵的部位有沒有保養到位,你就知道了,數據就創造了價值。

還有臺灣英業達生產線大數據分析,這個迴流焊裡面有很多的數據。請大家看這裡面的場景,有時候電子器件要偏移,有時候要立碑,有的爬錫,這些缺欠的檢測靠的就是工業大數據和工業的AI。

最後我們看看跨界大數據應用的情形,大家知道風電、太陽能都是靠天吃飯的,看風力多大,看今天的太陽多大,這些來源於自然,所以要靠氣象預報。為了做這件事情,我們和中央氣象臺做了一個雲的外推的方法,取得了國際一流的成果,並完成了業務化。

最後,再次強調我們團隊的使命,是讓產業界可以非常低成本地構建大數據的應用軟件,讓工業界有效地蒐集存儲並且分析工業物聯網的數據,並有效降低大數據分析處理的門檻。

我的分享就到這兒,謝謝大家!

— 完 —

關注清華-青島數據科學研究院官方微信公眾平臺“THU數據派”及姊妹號“數據派THU”獲取更多講座福利及優質內容。


分享到:


相關文章: