【導語】人工智能、大數據、物聯網、區塊鏈作為當今信息化發展的新興技術,離我們的生活越來越近。隨著大數據的火熱,越來越多的小夥伴開始對大數據產生了興趣。但是大數據到底是什麼?
● 本期由優投空間、優投學院、京東智聯雲濟南創新中心、京東智聯雲創新空間(懷化)等聯合舉辦的線上"導師說"公益直播。
● 專門邀請了北京金山雲網絡技術有限公司解決方案架構師萬鈺萱老師,在3月14日下午15:00—16:00,進行了線上直播課程,主題為:“萬物分析的大數據,是算法還是算計?”,為學員進行分享並在線答疑解惑,受到一致好評。
● 本文整理了萬鈺萱老師的部分分享精華,瞭解詳細內容,推薦收看完整回放。
導師介紹
![【優投空間 | 回顧】萬鈺萱:萬物分析的大數據 是算法還是算計?](http://p2.ttnews.xyz/loading.gif)
萬鈺萱
北京金山雲網絡技術有限公司解決方案架構師
01
大數據發展概況
隨著科技的發展,每個企業,包括政府,我們的數據越來越多,數據是對於信息的一個積累。當數據越來越多的時候,就會出現“雜”的現象。數據主要有以下三個特點:
• 多樣性(Variety):
大數據不僅侷限於結構型數據,也包括非結構型數據,比如:文字,錄音,錄像,視頻,記錄等。
• 高速度(Velocity):
大數據是時間敏感的,必須快速識別和快速響應才能適應業務需求。
• 大容量(Volume):
大數據的特點就是巨大。公司充斥著各種數據,經常是TB級, 甚至是PB級的信息量。
例如氣象局會儲存十年前,甚至二十年前的天氣氣象數據,這些數據可以有效的利用起來,通過觀察近十年或近五年的氣象變化來推測未來的天氣環境變化。隨著存儲的數據越來越多,磁盤就不夠用了,如何調整存儲結構,包括提取數據時的帶寬,查詢數據時的計算和代換能力以及傳感器採集的能力,都會產生一系列的問題。
信息過載世界中的高價值信息提煉產生新的價值
在各式各樣數據存儲的數據庫中,我們如何提取有價值的信息呢?在前面提到,文字、錄音、錄像、視頻、記錄等都可以是大數據的信息,這些信息是否有價值,可能在短時間內是看不到的,當通過一次次的積累,可能在某一個領域就會體現出它的價值。
比如以最早使用大數據的購物行業來說,通過對大數據信息的分析,可以根據消費年齡、區域喜好去做區域性的產品推廣,帶動當地對電商的扶持。
我們要學會從大數據中提煉有價值的信息。
技術向前發展,迭代更新速度加快。
隨著技術的發展,技術的演變,會出現便於我們處理數據的知識和技術。我們怎麼去採集數據?怎麼去做數據的存儲,怎麼對數據進行計算和處理?甚至生成知識圖譜,這些都是衍生出來的知識和技術。
數據是未來企業的核心資源
數字其實就是數據,是數據在量化後得到數字的這樣一個階段,所以會有數字經濟。如何將這些數字變成企業有價值的資產?企業需要提取和產品相關的一些應用,比如能想到的在很多領域裡面,去幫助他們做工業互聯網,智能製造等方面。
傳統經濟模式下,企業向客戶出售產品或服務,以直接賺取金錢為目的。互聯網經濟下,企業儘可能多地發展用戶,不以直接從用戶處賺取金錢為目的, 希望通過後向收費或者發掘用戶終身價值等方式賺取利潤。而數據將是未來企業的重要資產,企業通過數據創造新的商業模式,或直接通過數據售賣以及利用數據提供增值服務獲得巨大利潤。數據有可能成為未來核心競爭力與收入的重要來源。
近年大數據的投資趨勢
從整個大數據的市場數據我們可以看到,未來五年,由於政策支持以及多方技術融合,中國大數據市場將保持穩定增長。IDC機構預測,2019年中國大數據市場總體收益將達到96億美元,2019年~2023年預測期內的複合年均增長率為23.5%,增速高於全球平均水平。國內大數據在互聯網,金融,電信行業落地效果顯著。
對於雲計算的廠商來說,如果大數據的增長率較高的話,是需要投入很多的精力去做,尤其是創新型的企業,對市場技術方向的把控要有前瞻性的分析,這樣才能不落後。如果能在自己的行業先前走一步,就意味著可能會佔領高地,對企業轉型、拓展業務都是有優勢的。
大數據未來發展的幾個方向
• 開源:
基於社區的開源技術成熟,商業化及服務也逐漸跟上,成為企業解決方案中的中流砥柱。
• 雲化:
彈性、低成本、高性能的雲是大數據落地的好夥伴,分佈式的思想也會貫穿應用及架構設計的始終。
• 人工智能:
機器學習、數據挖掘 、自然語言理解、模式識別等技術,已滲透到了大數據的各個程序中,成為重要組成。
• 實時分析:
數據價值也成為大數據的核心,實時的分析數據的價值已經成為企業核心競爭力。
數據處理能力增長帶來深度技術變革
![【優投空間 | 回顧】萬鈺萱:萬物分析的大數據 是算法還是算計?](http://p2.ttnews.xyz/loading.gif)
02
企業大數據的機遇
大數據的機遇
• 政府利用PB級數據建 設智慧城市系統。
• 警務數據分析幫助建立全國300個城市的人員關係網。
• 基礎設施建設幾分鐘內10PB的數據分析能力來避免停電
• 證券交易所將2PB數據 的查詢時間從26小時縮 減到2分鐘。
• 電信網絡數據流分析使 硬件成本降低90%。
• 醫院病理數據分析為疾病檢測爭取到生死攸關的24小時。
這些都將成為企業大數據的機遇。原先處理的方式,只能靠巡檢發現哪裡有問題再去解決,現在運用大數據,通過在線自動巡檢,發現參數有問題就會及時解決,提高了很多效率,降低了人工成本。
大數據的特點
• 有效的處理日益增長的數據
• 應對數據日益增長的速度
• 綜合分析覆蓋面 越來越寬的種類
技術創新貫穿行業始終
技術本身是貫穿於大數據行業。我們經常提到的物聯網、VR虛擬技術,這些都是用作於對數據的採集;雲計算和區塊鏈,提供雲資源、存儲以及數據化處理的功能;移動互聯可以做的是讓數據快速的應用,移動互聯是非常便捷的,包括現在的很多應用都是用移動的APP來實現;智能化和認知技術,主要是對數據進行服務,對數據進行可視化、智能化、便於搜索、對知識的互聯互通,包括共享等。
大數據產品定位
做大數據的產品,首先定位用戶如何利用大數據去解決業務能力上的問題,大數據應該怎麼存儲,怎麼利用計算能力解決用戶的問題,而且要具備一定的開發能力。
面向企業雲、行業雲、公有云等不同應用場景,提供統一、雲化、高效、 安全的一站式大數據智能服務。
• 企業傳統IT場景:
解決用戶大數據應用基礎存 儲計算能力,解決業務快速 開發能力
• 企業雲場景:
將雲搬到客戶家裡,雲化彈 性資源,統一數據管理,提 效數據業務開發,釋放數據 價值
• 行業雲場景:
幫助用戶自建公有云產品 平臺,對外輸出大數據產 品與服務
• 公有云場景:
雲端業務數據分析、雲外數據快 速上雲,雲端數據快速遷移、集 約資源管理,提效業務開發,開放數據價值
大數據對各行業的機遇--商業價值
銀行/金融
解決的問題:
• 貸款、保險、髮卡等多業務線數據集成分析、市場評估
• 新產品風險評估
• 股票等投資組合趨勢分析
商業價值:
• 增加市場份額
• 提升客戶忠誠度
• 降低金融風險
醫療
解決的問題:
• 共享電子病歷及醫療記錄,幫助快速診斷
• 穿戴式設備遠程醫療
商業價值:
• 改善診療質量
• 加快診療速度
製造/高科 技
解決的問題:
• 產品故障、失效總和分析
• 專利記錄檢索
• 智能設備全球定位、位置服務
商業價值:
• 優化產品設計、製造
• 降低維修成本
• 加快問題解決
能源
解決的問題:
• 勘探、鑽井等傳感器陣列數據集中分析
商業價值:
• 降低工程事故風險
• 優化勘探過程
互聯網
解決的問題:
• 在線廣告投放
• 商品評分、排名
• 社交網絡自動匹配
商業價值:
• 提升網絡用戶忠誠度
• 改善社交網絡體驗
• 向目標客戶提供針對性的商品
政府
解決的問題:
• 智慧城市信息網絡集成
• 天氣、地理、水電煤等公共數據流收集、研究
• 公共安全信息集中處理、智能分析
商業價值:
• 更好的對外提供公共服務
• 輿情分析
• 準確預判安全威脅
零售
解決的問題:
• 基於用戶位置信息的精確促銷
• 社交網絡購買行為分析
商業價值:
• 促進客戶購買熱情
• 順應客戶購買行為習慣
大數據相關技術儲備
首先數據採集分析,然後對數據進行處理,處理好的數據進行存儲、計算,最後應用。
大數據PAAS推到前臺 ——覆蓋數據生產到消費的全流程
技術人才儲備戰略
• 普通用戶(Casual User ):定期使用門戶和預置接口,較少有設計多維分析 的能力。
• 業務分析師(Business Analyst ):利用在線分析處理和多維工具,創建新的業務模型, 部分人員熟悉計算機語言和計算機處理技術。
• 數據分析師(Data Engineers ):數據、統計軟件、統計模型等方面的專家,充分 理解計算機處理“陷阱”或誤區。
• 數據科學家(Data Scientist):統計學、抽象數學、編程、業務流程等方面的專家。負責溝通與領導。
03
大數據應用場景及案例
大數據產品介紹-金山雲智
01 基礎大數據平臺:提供大數據底層分佈式存儲計算能力。
• 產品:KDE、KMR、KDW
02 大數據開發平臺:滿足私有云特性,企業級多租戶管理、多租戶下統一 數據管理,支持一站式數據採集、集成、批/流/實時 開發、調度。
• 產品:數據採集、數據集成、離線開發、實時開發、圖 開發、智能調度
03 數據湖管理和分析平臺:提供統一的多源異構數據源管理能力,提供快速 進行數據探索分析查詢能力。
• 產品:數據湖管理、數據湖分析
04 數據中臺服務套件:結合大數據開發平臺,提供數據資產管理、數據服務、 服務市場等中臺治理管理平臺。
• 產品:數據資產管理、數據服務開發、數據服務管理
05 大數據雲平臺:提供完善的多租戶隔離、運營管理、運維平臺, 幫助客戶快速構建滿足業務輸出的雲能力。
• 產品:公有云輸出能力,包含01-04產品
06 公有云產品:覆蓋基礎大數據平臺、一站式大數據開發、測試、生產 環境,在端雲提供數據開發、中臺套件、數據湖分析等 綜合能力,幫助用戶快速處理分析和應用雲端數據。
應用場景
數據倉庫建設
【場景】
將公司內部各個系統中分散的數據進行統一,形成一個統一的數據倉庫系統,進而為公司決策和產品改進提供數據支持。
【挑戰】
各個業務系統中的數據分散,如何彙總?
彙集的數據質量口徑不一,無法使用?
數據週期性運行依賴複雜,任務眾多,如何在規定時間內完成調度?
【方案】
1.數據集成:使用數據同步能力,快速簡易的實現多種不同源數據的增量/全量同步, 將數據進行快速彙集 數據同步過程中,同步進行數據規範性轉換,數據默認值設置,質量檢核等,確保彙總數據有用可用。
2. 離線數據開發支持多種類型開發腳本,保證數據倉庫分層。
3. 智能調度 支持多種複雜任務依賴,滿足各類週期性調度需求。
自助實時報表
【場景】
業務組同事經常需要緊急製作一張報表,不希望排期,能夠自助完成,並且報表最好能夠準實時,不希望是T+1。
【挑戰】
數據從哪裡來?
哪些是我需要的數據?
只會簡單SQL可以進行實時數據開發嗎?
【方案】
1.數據採集:將業務系統數據實時採集到消息隊列中。
2. 流數據開發:對接數據採集消息隊列,使用SQL的方式快速進行流式數據的開發,實時將流式數據計算結果sink到多種類型目標庫 。
3.分析與可視化 :對接多種類型目標庫,進行多維度的數據展示,生成可視化報表。
數據分析探查
【場景】
業務數據較多,且存儲數據庫各異,如何在不進行數據遷移的情況下進行跨源的數據探查,定位到我需要的數據 。
【挑戰】
跨源數據如何探查?
跨源關聯是否可行?
探查數據是否可共享?
【方案】
1.數據服務:提供了跨源異構數據之間的關聯分析,快速從各個業務系統 中定位需要數據集 。
API功能將數據結果已API的方式實現數據共享。
協作模型指導
【場景】
業務系統打造自己的數據集市後,如何共享給其他業務或 者前線系統使用,既要避免重複建設,又能保證數據安全。
【挑戰】
如何有效的建設數據模型和管理數據模型?
如何快速探查到現有倉庫數據能否滿足我的要求?
數據的共享發佈如何確保數據需求方申請的便易性和數據 所有方數據的安全性?
【方案】
1.數據管理 :統一的元數據託管服務,確保模型的可維護。
表級別和字段級別的的數據搜索,支持現有數據探查,找到需要的表。
數據申請與審批的流程化,既確保了數據的安全性,又縮短數據申請週期。
WPS案例
WPS是國內第一大正版化的辦公軟件,WPS的維護、存儲和整個運行的數據是非常大的。
業務簡述:
• wps是知名的辦公軟件提供商
• 旗下擁有wps office,wps mail,金山詞霸等多款明星產品
• 擁有PB級別的存量數據和每天TB級別的增量數據
• 離線數據使用KS3存儲,使用SPARK和Hive進行計算分析
需求痛點:
• 存量和增量數據龐大,數據存儲成本高
• 業務增長迅速,大數據分析集群需要頻繁擴容
• 數據分析業務不穩定,故障頻繁
• 集群運維成本高
• 缺乏專業的大數據調優專家
WPS大數據處理方案
WPS有兩種處理方案,一種是離線數據處理方案,部署在客戶的一個現場。另一種是公有云實時處理方案,就是實時辦公,這些都是通過對底層數據的蒐集和處理,來維護系統,保證客戶正常使用,即使出了故障,也保證數據不丟失。
04
Q&A環節
學員:金山雲和騰訊雲、百度雲、阿里雲、華為雲不一樣的地方有哪些?
萬鈺萱老師:雲其實是分為三大梯隊,第一梯隊是互聯網梯隊,或者叫公有云梯隊,像阿里、騰訊、金山。硬件廠商、設備廠商是另一個梯隊,像華為、華三是硬件廠商起家,連帶做他們的雲,第三個梯隊運營商梯隊,比如移動、電信等。
百度雲是屬於雲公司,但不是專門做雲的公司,是屬於技術互聯網的公司。公有云的廠商是有大量的公有云機房,基礎設施能力、運維能力都是很多小廠商沒有辦法比擬的。公有云廠商可以做直播類,直播最重要的是做流量的清洗,大廠商能做是因為有流量清洗的機房,有特別大的帶寬將流量引入清晰機房裡。
梯隊不一樣,就體現在能力不一樣。
學員:請問金山雲上有哪些遊戲應用服務嗎?
萬鈺萱老師:金山雲目前是國內最大的視頻雲和遊戲雲的廠商,目前遊戲應用服務非常多,給很多遊戲廠商提供服務。遊戲本身對網絡和存儲要求非常高,這塊基本都在公有云上實行,應用方面把人工智能加進去,像對遊戲畫面用人工智能去看裝備的狀態,還有對遊戲界面很多圖形圖像進行處理。
關於優投空間
優投空間是總部位於北京的投資創業服務機構,採取“空間+服務+投資”的模式,為早期創業項目提供創業服務,優秀的項目提供種子投資和天使投資,線下定期舉行優投創業營系列活動和創業大賽。同時優投有自己的眾創空間-“優投空間”。
其中優投空間(IMOMA),面積近3000平,集開放辦公區、獨立辦公室、會議區、展示區、咖啡區、戶外休閒區為一體,是創業企業的孵化和加速空間。目前還有少量工位可以進駐。工位每個每月800元;
另一個空間優投空間(東昇國際科學園)位於奧林匹克公園北園北,為低密度的科技園區。正在正接受項目預定:開放工位每個每月1300元,獨立空間每個工位每月1500元。入駐:010-57958588,郵箱:[email protected]
優投空間創始人:代瑞紅
代瑞紅博士,服務於大量早期創業項目,併為優秀項目提供“空間+服務+投資+學院”的系統服務,參與投資近多個天使項目。如知呱呱、光合旅程、臻和科技、匯創宜、奶牛媽媽等。是中國創翼創業創新大賽評委、中國創新創業大賽評委,知名創業導師。同時也是知識分享平臺“在行”的創投專家。如果項目想一對一進行打磨和輔導,或者瞭解投資相關知識,可以通過“在行”預約。
閱讀更多 優投空間 的文章