誰能跟我解釋一下,大數據到底是什麼?最主要它能幹什麼?

綠葉上面七根魚刺


大數據,不僅僅是數據量大,同時在其他方面,也有一定的特點。

第一,大數據數據體量非常大,傳統的單機存儲系統,已經無法在存儲這麼大量的數據,此時需要用到分佈式存儲技術。

第二,大數據的數據種類非常多,數據的格式也會變得複雜,比如數據種類有視頻、文檔、圖片、消息記錄等等。

第三,大數據中潛藏著非常重要的價值,通過數據分析技術,對商業決策做出智能化以及數據化的支持。

大數據最主要的功能,就是為公司上層提供商業化決策支持,讓公司能夠結合歷史數據,往正確的方向發展。大數據技術主要分為兩類:大數據計算和大數據存儲。

大數據計算主要分為離線計算和實時計算,具體使用要看業務場景對於數據產出時延的要求

離線計算對於數據的產出會有一定的時延,具體時延可以是15分鐘、小時或者天級別的。離線任務一般會對數據進行全局批計算,這一次運行完就運行完了,不會像實時計算那樣,除非你自己停止實時任務,否則實時程序會一直運行。

實時計算數據是不斷產生的,一般數據產出的延遲會很低,最多是秒級別的。比如我們的數據大屏、實時數據流的加工處理等,這些場景對於數據的產出的時延要求很低。

離線計算的話,一般對於數據的產出時延沒有那麼高的要求,只要數據最終產出即可,具體使用像現在很多公司離線業務報表。目前大多數公司離線計算引擎使用的是Hive或者Spark,實時計算引擎目前主要是Flink。

大數據存儲需要數據分佈式存儲,單機不能夠在存儲這麼多巨量數據

在傳統的關係型數據庫中,當一個表非常大時,會使用分庫分表技術,將表分佈式的存儲在不同的機器上面。分庫分表技術可以使用開源工具TDDL。

在非關係型NoSQL數據庫中,一般最底層的文件存儲系統可以選擇HDFS。HDFS文件系統將文件按照塊來進行存儲,一個塊的大小為128兆,同時每個塊會存儲三份,對數據進行容災存儲,即使其中一個塊壞了,可以選擇其他塊進行數據恢復。

分佈式數據庫系統可以對數據表進行水平分割和垂直分割。比如HBase數據庫,水平分割使用的是Region,垂直分割則是使用的列族。

分佈式數據存儲技術,需要不同機器一起協同工作,每臺機器存儲整體數據的一個子集。在未來大數據時代,肯定都會使用分佈式數據存儲,分佈式數據庫,會成為大數據系統的標配。


我是Lake,專注大數據技術原理、人工智能、數據庫技術、程序員經驗分享,如果我的問答對你有幫助的話,希望你能點贊關注我,感謝。

我會持續大數據、數據庫方面的內容,如果你有任何問題,也歡迎關注私信我,我會認真解答每一個問題。期待您的關注


Lake說科技


什麼是大數據及應用?大數據即為海量數據。人類生活在三維空間中,一草一木,一山一水,人類活動的行為軌跡,都能用數據來表達。如企業的生產運營,商品標準。政府的管理決策,消費者的消費水平,消費習慣。地理環境的一條公路,一條河流等等。每方面都有每方面的大數據。每個行業都有每個行業的大數據。通過各企業,行業,社會主體等等數據的集成。形成了概念更大,更有價值的大數據流。通過宇宙萬物是互聯的原理。以及邏輯關係的分析。能夠得到。關於社會治理,企業運營,個人服務的便捷可靠,真實的服務方案。一件事物的組成並非由單一因素組成。由多方組合或者協同完成的。一件衣服的完成,要有生產布料的廠家,製衣廠家,制扣廠家,制線廠家,設計方,工人加工等等環節組合而成。大數據也是如此。大數據應用也是如此。人類剛剛邁入數字經濟時代。既為以數據為生產資料的時代。誰能掌握大數據以及大數據的應用?更好地服務於人類社會。誰就佔據了未來財富以及地位的制高點。中國戰略性新興產業聯盟河北唐冠眾興科技有限公司畢紹鵬回答


畢紹鵬


大數據就是你行動行為的軌跡,將來可能會塑造成為你的影子,影子最終服務於你,預測到你的衣食住行,使你做到所想而行,比如你想自殺,它可能把刀放到你面前。


超全棧裙729240147


大數據其實是一種信息資產的集合。說白了就是信息。至於能幹什麼嘛,你現在能想到的除了人力勞動,其他的幾乎都可以用得到大數據。比如,寫悟空問答,你不好奇為什麼那麼多的看頭條的人為什麼偏偏要選擇我來讓你邀請回答嗎?原因很簡單,可能是我前段時間一直在寫大數據的內容,也有可能是我前段時間一直瀏覽著大數據的相關內容等等一切關於大數據的,這成為了大數據判定我是個大數據從業者的依據,所有邀請界面出現了我而不是其他人。再舉個簡單的例子,你在淘寶上搜了一件襯衣,下次打開淘寶的時候發現它會給你推各種各樣的襯衣或者是周邊產品。道理是一樣的。大數據會根據你的習慣來判定你需要什麼。這就是大數據的魅力所在。


安徽據說牛信息科技


為什麼要給你解釋?


大灰狼和七隻小白羊


就是統計與概率學在海量數據基礎上的日常應用