什麼是大數據|大數據知識科普

1、大數據定義

對於“大數據”(Big data)研究機構Gartner給出了定義,“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力

的海量、高增長率和多樣化的信息資產。

大數據技術的戰略意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據進行專業化處理。換言之,如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對數據的“加工能力”,通過“加工”實現數據的“增值”。

從技術上看,大數據與雲計算的關係就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單臺的計算機進行處理,必須採用分佈式架構。它的特色在於對海量數據進行分佈式數據挖掘,但它必須依託雲計算的分佈式處理、分佈式數據庫和雲存儲、虛擬化技術。

隨著雲時代的來臨,大數據(Big data)也吸引了越來越多的關注。《著雲臺》的分析師團隊認為,大數據(Big data)通常用來形容一個公司創造的大量非結構化數據和半結構化數據,這些數據在下載到關係型數據庫用於分析時會花費過多時間和金錢。大數據分析常和雲計算聯繫到一起,因為實時的大型數據集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。

大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用於大數據的技術,包括大規模並行處理(MPP)數據庫、數據挖掘電網、分佈式文件系統、分佈式數據庫、雲計算平臺、互聯網和可擴展的存儲系統。

最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,它們按照進率1024(2的十次方)來計算:

8bit= 1Byte

1KB= 1,024 Bytes

1MB= 1,024 KB = 1,048,576 Bytes

1GB= 1,024 MB = 1,048,576 KB

1TB= 1,024 GB = 1,048,576 MB

1PB= 1,024 TB = 1,048,576 GB

1EB= 1,024 PB = 1,048,576 TB

1ZB= 1,024 EB = 1,048,576 PB

1YB= 1,024 ZB = 1,048,576 EB

1BB= 1,024 YB = 1,048,576 ZB

1NB= 1,024 BB = 1,048,576 YB

1 DB = 1,024 NB = 1,048,576 BB

2.發展歷史

1887–1890年

什麼是大數據|大數據知識科普

赫爾曼·霍爾瑞斯

美國統計學家赫爾曼·霍爾瑞斯為了統計1890年的人口普查數據發明了一臺電動器來讀取卡片上的洞數,該設備讓美國用一年時間就完成了原本耗時8年的人口普查活動,由此在全球範圍內引發了數據處理的新紀元。

1935–1937年

美國總統富蘭克林·羅斯福利用社會保障法開展了美國政府最雄心勃勃的一項數據收集項目,IBM最終贏得競標,即需要整理美國的2600萬個員工和300萬個僱主的記錄。共和黨總統候選人阿爾夫蘭登scoffs嘲笑地說,“要整理如此繁多的職工檔案,還必須而調用大規模的現場調查人員去核實那些信息不完整的人員記錄。”

1943年

一家英國工廠為了破譯二戰期間的納粹密碼,讓工程師開發了系列開創性的能進行大規模數據處理的機器,並使用了第一臺可編程的電子計算機進行運算。該計算機被命名為“巨人”,為了找出攔截信息中的潛在模式,它以每秒鐘5000字符的速度讀取紙卡——將原本需要耗費數週時間才能完成的工作量壓縮到了幾個小時。破譯德國部隊前方陣地的信息以後,幫助盟軍成功登陸了諾曼底。

1997年

美國宇航局研究員邁克爾·考克斯和大衛·埃爾斯沃斯首次使用“大數據”這一術語來描述20世紀90年代的挑戰:超級計算機生成大量的信息——在考克斯和埃爾斯沃斯按案例中,模擬飛機周圍的氣流——是不能被處理和可視化的。數據集通常之大,超出了主存儲器、本地磁盤,甚至遠程磁盤的承載能力。”他們稱之為“大數據問題。”

2002年

在9/11襲擊後,美國政府為阻止恐怖主義已經涉足大規模數據挖掘。前國家安全顧問約翰·波因德克斯特領導國防部整合現有政府的數據集,組建一個用於篩選通信、犯罪、教育、金融、醫療和旅行等記錄來識別可疑人的大數據庫。一年後國會因擔憂公民自由權而停止了這一項目。

2004年

9/11委員會呼籲反恐機構應統一組建“一個基於網絡的信息共享系統”,以便能快處理應接不暇的數據。到2010年,美國國家安全局的30000名員工將攔截和存儲17億年電子郵件、電話和其它通訊日報。與此同時,零售商積累關於客戶購物和個人習慣的大量數據,沃爾瑪自吹已擁有一個容量為460字節的緩存器——比當時互聯網上的數據量還要多一倍。

2007–2008年

隨著社交網絡的激增,技術博客和專業人士為“大數據” 概念注入新的生機。“當前世界範圍內已有的一些其他工具將被大量數據和應用算法所取代”。《連線》的克里斯·安德森認為當時處於一個“理論終結時代”。一些政府機構和美國的頂尖計算機科學家聲稱,“應該深入參與大數據計算的開發和部署工作,因為它將直接有利於許多任務的實現。”

2009年1月

印度政府建立印度唯一的身份識別管理局,對12億人的指紋、照片和虹膜進行掃描,併為每人分配12位的數字ID號碼,將數據彙集到世界最大的生物識別數據庫中。官員們說它將會起到提高政府的服務效率和減少腐敗行為的作用,但批評者擔心政府會針對個別人進行剖面分析並與分享這些人的私密生活細節。

2009年5月

什麼是大數據|大數據知識科普

大數據或成反恐分析利器

美國總統巴拉克·奧巴馬政府推出data.gov網站作為政府開放數據計劃的部分舉措。該網站的超過4.45萬量數據集被用於保證一些網站和智能手機應用程序來跟蹤從航班到產品召回再到特定區域內失業率的信息,這一行動激發了從肯尼亞到英國範圍內的政府們相繼推出類似舉措。

2009年7月

應對全球金融危機,聯合國秘書長潘基文承諾創建警報系統,抓住“實時數據帶給貧窮國家經濟危機的影響” 。聯合國全球脈衝項目已研究了對如何利用手機和社交網站的數據源來分析預測從螺旋價格到疾病爆發之類的問題。

2011年2月

掃描2億年的頁面信息,或4兆兆字節磁盤存儲,只需幾秒即可完成。IBM的沃森計算機系統在智力競賽節目《危險邊緣》中打敗了兩名人類挑戰者。後來紐約時報配音這一刻為一個“大數據計算的勝利。”

2012年3月

美國政府報告要求每個聯邦機構都要有一個“大數據”的策略,作為回應,奧巴馬政府宣佈一項耗資2億美元的大數據研究與發展項目。國家衛生研究院將一套人類基因組項目的數據集存放在亞馬遜的計算機雲內,同時國防部也承諾要開發出可“從經驗中進行學習”的“自主式”防禦系統。中央情報局局長戴維·彼得雷烏斯將軍在發帖討論阿拉伯之春機構通過雲計算收集和分析全球社會媒體信息之事時,不禁驚歎我們已經被自卸卡車倒進了“‘數字塵土”中。

2012年7月

美國國務卿希拉里·克林頓宣佈了一個名為“數據2X”的公私合營企業用來收集統計世界各地的婦女和女童在經濟、政治和社會地位方面的信息。“數據不只是測量過程——它能給予我們啟發,”她解釋說。“一旦人們開始對某個問題實施測量時,就更傾向於採取行動來解決它們,因為沒有人願意排到名單的最低端去。”讓大數據開始競賽吧。

3.技術盤點

HadoopMapReduce

思維模式轉變的催化劑是大量新技術的誕生,它們能夠處理大數據分析所帶來的3個V的挑戰。紮根於開源社區,Hadoop已經是目前大數據平臺中應用率最高的技術,特別是針對諸如文本、社交媒體訂閱以及視頻等非結構化數據。除分佈式文件系統之外,伴隨Hadoop一同出現的還有進行大數據集處理MapReduce架構。根據權威報告顯示,許多企業都開始使用或者評估Hadoop技術來作為其大數據平臺的標準。

什麼是大數據|大數據知識科普

大數據

NoSQL數據庫

我們生活的時代,相對穩定的數據庫市場中還在出現一些新的技術,而且在未來幾年,它們會發揮作用。事實上,NoSQL數據庫在一個廣義上派系基礎上,其本身就包含了幾種技術。總體而言,他們關注關係型數據庫引擎的限制,如索引、流媒體和高訪問量的網站服務。在這些領域,相較關係型數據庫引擎,NoSQL的效率明顯更高。

內存分析

在Gartner公司評選的2012年十大戰略技術中,內存分析在個人消費電子設備以及其他嵌入式設備中的應用將會得到快速的發展。隨著越來越多的價格低廉的內存用到數據中心中,如何利用這一優勢對軟件進行最大限度的優化成為關鍵的問題。內存分析以其實時、高性能的特性,成為大數據分析時代下的“新寵兒”。如何讓大數據轉化為最佳的洞察力,也許內存分析就是答案。大數據背景下,用戶以及IT提供商應該將其視為長遠發展的技術趨勢。

集成設備

隨著數據倉庫設備(Data Warehouse Appliance)的出現,商業智能以及大數據分析的潛能也被激發出來,許多企業將利用數據倉庫新技術的優勢提升自身競爭力。集成設備將企業的數據倉庫硬件軟件整合在一起,提升查詢性能、擴充存儲空間並獲得更多的分析功能,並能夠提供同傳統數據倉庫系統一樣的優勢。在大數據時代,集成設備將成為企業應對數據挑戰的一個重要利器。

4.結構特點

結構

大數據就是互聯網發展到現今階段的一種表象或特徵而已,沒有必要神話它或對它保持敬畏之心,在以雲計算為代表的技術創新大幕的襯托下,這些原本很難收集和使用的數據開始容易被利用起來了,通過各行各業的不斷創新,大數據會逐步為人類創造更多的價值。

其次,想要系統的認知大數據,必須要全面而細緻的分解它,我著手從三個層面來展開:

第一層面是理論,理論是認知的必經途徑,也是被廣泛認同和傳播的基線。在這裡從大數據的特徵定義理解行業對大數據的整體描繪和定性;從對大數據價值的探討來深入解析大數據的珍貴所在;洞悉大數據的發展趨勢;從大數據隱私這個特別而重要的視角審視人和數據之間的長久博弈。

第二層面是技術,技術是大數據價值體現的手段和前進的基石。在這裡分別從雲計算、分佈式處理技術、存儲技術和感知技術的發展來說明大數據從採集、處理、存儲到形成結果的整個過程。

第三層面是實踐,實踐是大數據的最終價值體現。在這裡分別從互聯網的大數據,政府的大數據,企業的大數據和個人的大數據四個方面來描繪大數據已經展現的美好景象及即將實現的藍圖。

特點

什麼是大數據|大數據知識科普

大數據

大數據分析相比於傳統的數據倉庫應用,具有數據量大、查詢分析複雜等特點。《計算機學報》刊登的“架構大數據:挑戰、現狀與展望”一文列舉了大數據分析平臺需要具備的幾個重要特性,對當前的主流實現平臺——並行數據庫、MapReduce及基於兩者的混合架構進行了分析歸納,指出了各自的優勢及不足,同時也對各個方向的研究現狀及作者在大數據分析方面的努力進行了介紹,對未來研究做了展望。

大數據的4個“V”,或者說特點有四個層面:第一,數據體量巨大。從TB級別,躍升到PB級別;第二,數據類型繁多。前文提到的網絡日誌、視頻、圖片、地理位置信息等等。第三,處理速度快,1秒定律,可從各種類型的數據中快速獲得高價值的信息,這一點也是和傳統的數據挖掘技術有著本質的不同。第四,只要合理利用數據並對其進行正確、準確的分析,將會帶來很高的價值回報。業界將其歸納為4個“V”——Volume(數據體量大)、Variety(數據類型繁多)、Velocity(處理速度快)、Value(價值密度低)。

從某種程度上說,大數據是數據分析的前沿技術。簡言之,從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業的潛力。

大數據最核心的價值就是在於對於海量數據進行存儲和分析。相比起現有的其他技術而言,大數據的“廉價、迅速、優化”這三方面的綜合成本是最優的。

5.處理工具

當前用於分析大數據的工具主要有開源與商用兩個生態圈。

開源大數據生態圈:

1、Hadoop HDFS、HadoopMapReduce, HbaseHive 漸次誕生,早期Hadoop生態圈逐步形成。

2、. Hypertable是另類。它存在於Hadoop生態圈之外,但也曾經有一些用戶。

3、NoSQL,membase、MongoDB

商用大數據生態圈:

1、一體機數據庫/數據倉庫:IBM PureData(Netezza), OracleExadata, SAP Hana等等。

2、數據倉庫:TeradataAsterData, EMC GreenPlum, HPVertica 等等。

3、數據集市:QlikView、 Tableau 、 以及國內的Yonghong Data Mart 。

6.處理流程

數據採集

定義:利用多種輕型數據庫來接收發自客戶端的數據,並且用戶可以通過這些數據庫來進行簡單的查詢和處理工作。

特點和挑戰:併發係數高。

使用的產品:MySQLOracleHbaseRedisMongoDB等,並且這些產品的特點各不相同。

統計分析

什麼是大數據|大數據知識科普

大數據

定義:將海量的來自前端的數據快速導入到一個集中的大型分佈式數據庫 或者分佈式存儲集群,利用分佈式技術來對存儲於其內的集中的海量數據 進行普通的查詢和分類彙總等,以此滿足大多數常見的分析需求。

特點和挑戰:導入數據量大,查詢涉及的數據量大,查詢請求多。

使用的產品:InfoBright,Hadoop(Pig和Hive),YunTable, SAP Hana和OracleExadata,除Hadoop以做離線分析為主之外,其他產品可做實時分析。

挖掘數據

定義:基於前面的查詢數據進行數據挖掘,來滿足高級別 的數據分析需求。

特點和挑戰:算法複雜,並且計算涉及的數據量和計算量都大。

使用的產品:R,Hadoop Mahout

7.操作方法

SOA模型

什麼是大數據|大數據知識科普

我們需要的是以數據為中心的SOA還是以SOA為中心的數據?答案取決於如何處理的SOA-數據關係的三個不同模型來管理大數據、雲數據和數據層次結構。在越來越多的虛擬資源中,將這些模型之間所有類型的數據進行最優擬合是SOA所面臨的巨大挑戰之一。本文詳細介紹了每個SOA模型管理數據的優點、選擇和選項。

SOA的三個數據中心模型分別是數據即服務(DaaS)模型、物理層次結構模型和架構組件模型。DaaS數據存取的模型描述了數據是如何提供給SOA組件的。物理模型描述了數據是如何存儲的以及存儲的層次圖是如何傳送到SOA數據存儲器上的。最後,架構模型描述了數據、數據管理服務和SOA組件之間的關係。

SOA和數據企業的例子

也許以極限情況為開始是理解SOA數據問題的最好方式:一個企業的數據需求完全可以由關係數據庫管理系統(RDBMS)中的條款來表示。這樣一個企業可能會直接採用數據庫設備或者將專用的數據庫服務器和現有的查詢服務連接到SOA組件(查詢即服務,或QaaS)上。這種設計理念之前已經被人們所接受。該設計之所以成功是因為它平衡了上述三個模型之間的關係。QaaS服務模型不是機械地連接到存儲器上;而是通過一個單一的架構——RDBMS(關係型數據庫管理系統)。數據去重和完整性便於管理單一的架構。

通過大數據的例子可以更好地理解為什麼這個簡單的方法卻不能在更大的範圍內處理數據。多數的大數據是非關係型的、非交易型的、非結構化的甚至是未更新的數據。由於缺乏數據結構因此將其抽象成一個查詢服務並非易事,由於數據有多個來源和形式因此很少按序存儲,並且定義基礎數據的完整性和去重過程是有一些規則的。當作為大數據引入到SOA的應用程序中時,關鍵是要定義三種模型中的最後一種模型,SOA數據關係中的架構模型。有兩種選擇:水平方向和垂直方向。

什麼是大數據|大數據知識科普

大數據:“人工特徵工程+線性模型”的盡頭

SOA和各類數據模型

在水平集成數據模型中,數據收集隱蔽於一套抽象的數據服務器,該服務器有一個或多個接口連接到應用程序上,也提供所有的完整性和數據管理功能。組件雖不能直接訪問數據,但作為一種即服務形式,就像他們在簡單情況下的企業,其數據的要求是純粹的RDBMS模型。應用程序組件基本上脫離了RDBMS與大數據之間數據管理的差異。儘管由於上述原因這種方法不能創建簡單的RDBMS查詢模型,但是它至少複製了我們上面提到的簡單的RDBMS模型。

垂直集成的數據模型以更多應用程序特定的方式連接到數據服務上,該方式使得客戶關係管理、企業資源規劃或動態數據認證的應用程序數據很大程度在服務水平上相互分離,這種分離直接涉及到數據基礎設施。在某些情況下,這些應用程序或許有可以直接訪問存儲/數據服務的SOA組件。為了提供更多統一的數據完整性和管理,管理服務器可以作為SOA組件來操作各種數據庫系統,以數據庫特定的方式執行常見的任務,如去重和完整性檢查。這種方法更容易適應於遺留應用和

數據結構, 但它在問數據何訪方式上會破壞SOA即服務原則,也可能產生數據管理的一致性問題。

SOA和水平數據模型

毫無疑問水平模型更符合SOA原則,因為它更徹底地從SOA組件中抽象出了數據服務。不過,為了使其有效,有必要對非關係型數據庫進行抽象定義和處理低效率與抽象有關的流程——SOA架構師知道除非小心的避免此類事情否則這將會成為不可逾越的障礙。

水平的SOA數據策略已經開始應用於適用大數據的抽象數據。解決這個問題最常見的方法是MapReduce,可以應用於Hadoop形式的雲構架。Hadoop以及類似的方法可以分發、管理和訪問數據,然後集中查詢這一分佈式信息的相關結果。實際上,SOA組件應將MapReduce和類似數據分析功能作為一種查詢功能應用。

效率問題

效率問題較為複雜。因為水平數據庫模型可能是通過類似大多數SOA流程的信息服務總線來完成的,一個重要的步驟是要確保與該編排相關的開銷額度保持在最低程度。這可以幫助減少與SOA相關的數據訪問開銷,但它不能克服存儲系統本身的問題。因為這些存儲系統已經通過水平模型脫離了SOA組件,很容易被忽略與延遲和數據傳輸量相關的問題,特別地,如果數據庫是雲分佈的,那麼使用他們就會產生可變的網絡延遲。

上述問題的一個解決方案是現代分層存儲模式。數據庫不是磁盤,而是一組相互連接的高速緩存點,其存儲於本地內存中,也可能轉向固態硬盤,然後到本地磁盤,最後到雲存儲。緩存算法處理這些緩存點之間的活動,從而來平衡存儲成本(同時也是平衡同步地更新成本)和性能。

什麼是大數據|大數據知識科普

大數據應用領域

對於大數據,它也是經常可以創建適用於大多數分析的彙總數據。例如一個計算不同地點車輛數量的交通遙測應用。這種方法可以產生大量的數據,但是如果彙總數據最後一分鐘還存儲在內存中,最後一小時存儲在閃存中,最後一天存在磁盤上,那麼控制應用程序所需的實際時間可以通過快速訪問資源得到滿足,然而假設分析時我們可以使用一些更便宜、更慢的應用程序是會怎樣。

SOA都是抽象的,但當抽象隱藏了底層影響性能和響應時間的複雜性時,這種抽象的危險程度會提高。數據訪問也是這樣的,因此,SOA架構師需要認真地考慮抽象與性能之間的平衡關係,併為其特定的業務需求優化它。

Hadoop

Hadoop旨在通過一個高度可擴展的分佈式批量處理系統,對大型數據集進行掃描,以產生其結果。Hadoop項目包括三部分,分別是Hadoop Distributed File System(HDFS)、HadoopMapReduce編程模型,以及Hadoop Common。

Hadoop平臺對於操作非常大型的數據集而言可以說是一個強大的工具。為了抽象Hadoop編程模型的一些複雜性,已經出現了多個在Hadoop之上運行的應用開發語言。Pig、Hive和Jaql是其中的代表。而除了Java外,您還能夠以其他語言編寫map和reduce函數,並使用稱為Hadoop Streaming(簡寫為Streaming)的API調用它們。

流定義

從技術角度而言,流是通過邊緣連接的節點圖。圖中的每個節點都是“運算符”或“適配器”,均能夠在某種程度上處理流內的數據。節點可以不包含輸入和輸出,也可以包含多個輸入和輸出。一個節點的輸出與另外一個或多個節點的輸入相互連接。圖形的邊緣將這些節點緊密聯繫在一起,表示在運算符之間移動的數據流。

右圖一個簡單的流圖,它可以從文件中讀取數據,將數據發送到名為Functor的運算符(此運算符能夠以某種編程方式轉換所傳入的數據),然後將這些數據傳入另一個運算符。在此圖片中,流數據被傳送至Split運算符,而後又將數據傳入文件接收器或數據庫(具體情況視Split運算符的內部狀況而定)。

利用Apache Hadoop等開源項目,通過傳感器、RFID、社交媒體、呼叫中心記錄和其他來源提供的新型數據創造價值。

Streams

什麼是大數據|大數據知識科普

大數據應用領域

即,IBM InfoSphere Streams。在IBMInfoSphere Streams(簡稱Streams)中,數據將會流過有能力操控數據流(每秒鐘可能包含數百萬個事件)的運算符,然後對這些數據執行動態分析。這項分析可觸發大量事件,使企業利用即時的智能實時採取行動,最終改善業務成果。

當數據流過這些分析組件後,Streams將提供運算符將數據存儲至各個位置,或者如果經過動態分析某些數據被視為毫無價值,則會丟棄這些數據。你可能會認為Streams與複雜事件處理(CEP) 系統非相似,不過Streams的設計可擴展性更高,並且支持的數據流量也比其他系統多得多。此外,Streams還具備更高的企業級特性,包括高可用性、豐富的應用程序開發工具包和高級調度。

出於這樣的目的,許多組織開始啟動自己的大數據治理計劃。所謂大數據治理,指的是制定策略來協調多個職能部門的目標,從而優化、保護和利用大數據,將其作為一項企業資產。

8.主要問題

容量問題

這裡所說的“大容量”通常可達到PB級的數據規模,因此,海量數據存儲系統也一定要有相應等級的擴展能力。與此同時,存儲系統的擴展一定要簡便,可以通過增加模塊或磁盤櫃來增加容量,甚至不需要停機。在解決容量問題上,不得不提LSI公司的全新Nytro™智能化閃存解決方案,採用Nytro產品,客戶可以將數據庫事務處理性能提高30倍,並且超過每秒4.0GB的持續吞吐能力,非常適用於大數據分析。

延遲問題

“大數據”應用還存在實時性的問題。特別是涉及到與網上交易或者金融類相關的應用。有很多“大數據”應用環境需要較高的IOPS性能,比如HPC高性能計算。此外,服務器虛擬化的普及也導致了對高IOPS的需求,正如它改變了傳統IT環境一樣。為了迎接這些挑戰,各種模式的固態存儲設備應運而生,小到簡單的在服務器內部做高速緩存,大到全固態介質可擴展存儲系統通過高性能閃存存儲,自動、智能地對熱點數據進行讀/寫高速緩存的LSI Nytro系列產品等等都在蓬勃發展。

安全問題

某些特殊行業的應用,比如金融數據、醫療信息以及政府情報等都有自己的安全標準和保密性需求。雖然對於IT管理者來說這些並沒有什麼不同,而且都是必須遵從的,但是,大數據分析往往需要多類數據相互參考,而在過去並不會有這種數據混合訪問的情況,大數據應用催生出一些新的、需要考慮的安全性問題,這就充分體現出利用基於DuraClass™ 技術的LSI SandForce®閃存處理器的優勢了,實現了企業級閃存性能和可靠性,實現簡單、透明的應用加速,既安全又方便。

什麼是大數據|大數據知識科普

大數據應用領域

成本問題

對於那些正在使用大數據環境的企業來說,成本控制是關鍵的問題。想控制成本,就意味著我們要讓每一臺設備都實現更高的“效率”,同時還要減少那些昂貴的部件。重複數據刪除等技術已經進入到主存儲市場,而且還可以處理更多的數據類型,這都可以為大數據存儲應用帶來更多的價值,提升存儲效率。在數據量不斷增長的環境中,通過減少後端存儲的消耗,哪怕只是降低幾個百分點,這種錙銖必較的服務器也只有LSI推出的Syncro™ MX-B機架服務器啟動盤設備都能夠獲得明顯的投資回報,當今,數據中心使用的傳統引導驅動器不僅故障率高,而且具有較高的維修和更換成本。如果用它替換數據中心的獨立服務器引導驅動器,則能將可靠性提升多達100倍。並且對主機系統是透明的,能為每一個附加服務器提供唯一的引導鏡像,可簡化系統管理,提升可靠性,並且節電率高達60%,真正做到了節省成本的問題。

數據的積累

許多大數據應用都會涉及到法規遵從問題,這些法規通常要求數據要保存幾年或者幾十年。比如醫療信息通常是為了保證患者的生命安全,而財務信息通常要保存7年。而有些使用大數據存儲的用戶卻希望數據能夠保存更長的時間,因為任何數據都是歷史記錄的一部分,而且數據的分析大都是基於時間段進行的。要實現長期的數據保存,就要求存儲廠商開發出能夠持續進行數據一致性檢測的功能以及其他保證長期高可用的特性。同時還要實現數據直接在原位更新的功能需求。

靈活性

大數據存儲系統的基礎設施規模通常都很大,因此必須經過仔細設計,才能保證存儲系統的靈活性,使其能夠隨著應用分析軟件一起擴容及擴展。在大數據存儲環境中,已經沒有必要再做數據遷移了,因為數據會同時保存在多個部署站點。一個大型的數據存儲基礎設施一旦開始投入使用,就很難再調整了,因此它必須能夠適應各種不同的應用類型和數據場景。

應用感知

最早一批使用大數據的用戶已經開發出了一些針對應用的定製的基礎設施,比如針對政府項目開發的系統,還有大型互聯網服務商創造的專用服務器等。在主流存儲系統領域,應用感知技術的使用越來越普遍,它也是改善系統效率和性能的重要手段,所以,應用感知技術也應該用在大數據存儲環境裡。

針對小用戶

依賴大數據的不僅僅是那些特殊的大型用戶群體,作為一種商業需求,小型企業未來也一定會應用到大數據。我們看到,有些存儲廠商已經在開發一些小型的“大數據”存儲系統,主要吸引那些對成本比較敏感的用戶。

9.治理計劃

什麼是大數據|大數據知識科普

大數據

大數據治理計劃也需要關注與其他信息治理計劃類似的問題。這些計劃必須解決以下問題:

■元數據

大數據治理需要創建可靠的元數據,避免出現窘境,例如,一家企業重複購買了相同的數據集兩次,而原因僅僅是該數據集在兩個不同的存儲庫內使用了不同的名稱。

■隱私

企業需要嚴格關注遵守隱私方面的問題,例如利用社交媒體進行數據分析。

■數據質量

考慮到大數據的龐大數量和超快速度,組織需要確定哪種級別的數據質量屬於“足夠好”的質量。

■信息生命週期管理。大數據治理計劃需要制定存檔策略,確保存儲成本不會超出控制。除此之外,組織需要設定保留計劃,以便按照法規要求合理處置數據。

■管理人員

最終,企業需要招募大數據管理員。例如,石油與天然氣公司內的勘探開採部門的管理員負責管理地震數據,包括相關元數據在內。這些管理員需要避免組織因不一致的命名規範而付款購買已經擁有的外部數據。除此之外,社交媒體管理員需要與法律顧問和高級管理人員配合工作,制定有關可接受的信息使用方法的策略。

10.價值機遇

數據價值

眾所周知,企業數據本身就蘊藏著價值,但是將有用的數據與沒有價值的數據進行區分看起來可能是一個棘手的問題。

顯然,您所掌握的人員情況、工資表和客戶記錄對於企業的運轉至關重要,但是其他數據也擁有轉化為價值的力量。一段記錄人們如何在您的商店瀏覽購物的視頻、人們在購買您的服務前後的所作所為、如何通過社交網絡聯繫您的客戶、是什麼吸引合作伙伴加盟、客戶如何付款以及供應商喜歡的收款方式……所有這些場景都提供了很多指向,將它們抽絲剝繭,透過特殊的稜鏡觀察,將其與其他數據集對照,或者以與眾不同的方式分析解剖,就能讓您的行事方式發生天翻地覆的轉變。

但是屢見不鮮的是,很多公司仍然只是將信息簡單堆在一起,僅將其當作為滿足公司治理規則而必須要保存的信息加以處理,而不是將它們作為戰略轉變的工具。

畢竟,數據和人員是業務部門僅有的兩筆無法被競爭對手複製的財富。在善用的人手中,好的數據是所有管理決策的基礎,帶來的是對客戶的深入瞭解和競爭優勢。數據是業務部門的生命線,必須讓數據在決策和行動時無縫且安全地流到人們手中。

什麼是大數據|大數據知識科普

大數據應用

所以,數據應該隨時為決策提供依據。看看在政府公開道路和公共交通的使用信息這樣看起來甚至有點晦澀的數據時會發生什麼:這些數據來源為一些私營公司提供了巨大的價值,這些公司能夠善用這些數據,創造滿足潛在需求的新產品和服務。

企業需要向創造和取得數據方面的投入索取回報。有效管理來自新舊來源的數據以及獲取能夠破解龐大數據集含義的工具只是等式的一部分,但是這種挑戰不容低估。產生的數據在數量上持續膨脹;音頻、視頻和圖像等富媒體需要新的方法來發現;電子郵件、IM、tweet和社交網絡等合作和交流系統以非結構化文本的形式保存數據,必須用一種智能的方式來解讀。

但是,應該將這種複雜性看成是一種機會而不是問題。處理方法正確時,產生的數據越多,結果就會越成熟可靠。傳感器、GPS系統和社交數據的新世界將帶來轉變運營的驚人新視角和機會。請不要錯過。

有些人會說,數據中蘊含的價值只能由專業人員來解讀。但是澤字節經濟並不只是數據科學家和高級開發員的天下。

數據的價值在於將正確的信息在正確的時間交付到正確的人手中。未來將屬於那些能夠駕馭所擁有數據的公司,這些數據與公司自身的業務和客戶相關,通過對數據的利用,發現新的洞見,幫助他們找出競爭優勢。

數據機遇

自從有了IT部門,董事會就一直在要求信息管理專家提供洞察力。實際上,早在1951年,對預測小吃店蛋糕需求的訴求就催生了計算機的首次商業應用。自那以後,我們利用技術來識別趨勢和制定戰略戰術的能力不斷呈指數級日臻完善。

今天,商業智能 (使用數據模式看清曲線周圍的一切) 穩居 CXO 們的重中之重。在理想的世界中,IT 是巨大的槓桿,改變了公司的影響力,帶來競爭差異、節省金錢、增加利潤、愉悅買家、獎賞忠誠用戶、將潛在客戶轉化為客戶、增加吸引力、打敗競爭對手、開拓用戶群並創造市場。

大數據分析是商業智能的演進。當今,傳感器、GPS 系統、QR 碼、社交網絡等正在創建新的數據流。所有這些都可以得到發掘,正是這種真正廣度和深度的信息在創造不勝枚舉的機會。要使大數據言之有物,以便讓大中小企業都能通過更加貼近客戶的方式取得競爭優勢,數據集成和數據管理是核心所在。

面臨從全球化到衰退威脅的風暴, IT部門領導需要在掘金大數據中打頭陣,新經濟環境中的贏家將會是最好地理解哪些指標影響其大步前進的人。

什麼是大數據|大數據知識科普

大數據應用

當然,企業仍將需要聰明的人員做出睿智的決策,瞭解他們面臨著什麼,在充分利用的情況下,大數據可以賦予人們近乎超感官知覺的能力。Charles Duigg是《習慣的力量》一書的作者,他找出的一個黃金案例分析的例子是美國零售商 Target,其發現婦女在懷孕的中間三個月會經常購買沒有氣味的護膚液和某些維生素。通過鎖定這些購物者,商店可提供將這些婦女變成忠誠客戶的優惠券。實際上,Target 知道一位婦女懷孕時,那位婦女甚至還沒有告訴最親近的親朋好友 -- 更不要說商店自己了。

很明顯,在可以預見的將來,隱私將仍是重要的考量,但是歸根結底,用於瞭解行為的技術會為方方面面帶來雙贏,讓賣家瞭解買家,讓買家喜歡買到的東西。

再看一下作家兼科學家 Stephen Wolfram的例子,他收集有關自身習慣的數據,以分析他的個人行為,預測事件在未來的可能性。

大數據將會放大我們的能力,瞭解看起來難以理解和隨機的事物。對其前途的瞭解提供了獲取嶄新知識和能力的機會,將改變您的企業運作的方式。

發展前景

大數據的意義是由人類日益普及的網絡行為所伴生的,受到相關部門、企業採集的,蘊含數據生產者真實意圖、喜好的,非傳統結構和意義的數據 。

2013年5月10日,阿里巴巴集團董事局主席馬雲在淘寶十週年晚會上,將卸任阿里集團CEO的職位,並在晚會上做卸任前的演講,馬雲說,大家還沒搞清PC時代的時候,移動互聯網來了,還沒搞清移動互聯網的時候,大數據時代來了。

大數據正在改變著產品和生產過程、企業和產業,甚至競爭本身的性質。把信息技術看作是輔助或服務性的工具已經成為過時的觀念,管理者應該認識到信息技術的廣泛影響和深刻含義,以及怎樣利用信息技術來創造有力而持久的競爭優勢。無疑,信息技術正在改變著我們習以為常的經營之道,一場關係到企業生死存亡的技術革命已經到來。

藉著大數據時代的熱潮,微軟公司生產了一款數據驅動的軟件,主要是為工程建設節約資源提高效率。在這個過程裡可以為世界節約40%的能源。拋開這個軟件的前景不看,從微軟團隊致力於研究開始,可以看他們的目標不僅是為了節約了能源,更加關注智能化運營。通過跟蹤取暖器、空調、風扇以及燈光等積累下來的超大量數據,捕捉如何杜絕能源浪費。“給我提供一些數據,我就能做一些改變。如果給我提供所有數據,我就能拯救世界。”微軟史密斯這樣說。而智能建築正是他的團隊專注的事情。

隨著全球範圍內個人電腦、智能手機等設備的普及和新興市場內不斷增長的互聯網訪問量,以及監控攝像機或智能電錶等設備產生的數據爆增,使數字宇宙的規模在2012到2013兩年間翻了一番,達到驚人的2.8ZB。 IDC預計,到2020年,數字宇宙規模將超出預期,達到40ZB。

什麼是大數據|大數據知識科普

大數據應用

40ZB究竟是個什麼樣的概念呢?地球上所有海灘上的沙粒加在一起估計有七萬零五億億顆。40ZB相當於地球上所有海灘上的沙粒數量的57倍。也就是說到2020年,數字宇宙將每兩年翻一番;到2020年,人均數據量將達5,247GB。

該報告同時顯示,儘管個人和機器每天產生大量數據,使數字宇宙前所未有地不斷膨脹,但僅有0.4%的全球數據得到了分析。由此可見,大數據的應用幾乎是一塊未被開墾的處女地。

價值

谷歌搜索、Facebook的帖子和微博消息使得人們的行為和情緒的細節化測量成為可能。挖掘用戶的行為習慣和喜好,凌亂紛繁的數據背後找到更符合用戶興趣和習慣的產品和服務,並對產品和服務進行針對性地調整和優化,這就是大數據的價值。大數據也日益顯現出對各個行業的推進力。

大數據時代來臨首先由數據豐富度決定的。社交網絡興起,大量的UGC(互聯網術語,全稱為User Generated Content,即用戶生成內容的意思)內容、音頻、文本信息、視頻、圖片等非結構化數據出現了。另外,物聯網的數據量更大,加上移動互聯網能更準確、更快地收集用戶信息,比如位置、生活信息等數據。從數據量來說,已進入大數據時代,但硬件明顯已跟不上數據發展的腳步。

以往大數據通常用來形容一個公司創造的大量非結構化和半結構化數據,而提及“大數據”,通常是指解決問題的一種方法,並對其進行分析挖掘,進而從中獲得有價值信息,最終衍化出一種新的商業模式。

雖然大數據在國內還處於初級階段,但是商業價值已經顯現出來。首先,手中握有數據的公司站在金礦上,基於數據交易即可產生很好的效益;其次,基於數據挖掘會有很多商業模式誕生,定位角度不同,或側重數據分析。比如幫企業做內部數據挖掘,或側重優化,幫企業更精準找到用戶,降低營銷成本,提高企業銷售率,增加利潤。

未來,數據可能成為最大的交易商品。但數據量大並不能算是大數據,大數據的特徵是數據量大、數據種類多、非標準化數據的價值最大化。因此,大數據的價值是通過數據共享、交叉複用後獲取最大的數據價值。未來大數據將會如基礎設施一樣,有數據提供方、管理者、監管者,數據的交叉複用將大數據變成一大產業。據統計,大數據所形成的市場規模在51億美元左右,而到2017年,此數據預計會上漲到530億美元。

存儲

隨著大數據應用的爆發性增長,它已經衍生出了自己獨特的架構,而且也直接推動了存儲、網絡以及計算技術的發展。畢竟處理大數據這種特殊的需求是一個新的挑戰。硬件的發展最終還是由軟件需求推動的,我們很明顯的看到大數據分析應用需求正在影響著數據存儲基礎設施的發展。從另一方面看,這一變化對存儲廠商和其他IT基礎設施廠商未嘗不是一個機會。隨著結構化數據和非結構化數據量的持續增長,以及分析數據來源的多樣化,此前存儲系統的設計已經無法滿足大數據應用的需要。存儲廠商已經意識到這一點,他們開始修改基於塊和文件的存儲系統的架構設計以適應這些新的要求。

針對大數據的世界領先品牌存儲企業有:IBM、EMC、LSISandForce 、 雲創存儲、INTEL、惠普、戴爾、甲骨文、日立、賽門鐵克等。

11.數據回報

什麼是大數據|大數據知識科普

“大數據”的商業價值

簡而言之,企業可以通過思考數據戰略的總體回報,來應對大數據的挑戰,抓住大數據的機會。Informatica所指的‘數據回報率’,是為幫助高級IT和業務部門領導者進行大數據基本的戰術和戰略含義的討論而設計的一個簡單概念。等式非常簡單:如果您提高數據對於業務部門的價值,同時降低管理數據的成本,從數據得到的回報就會增加 -- 無論是用金錢衡量,還是更好的決策

數據回報率=數據價值/數據成本

在技術層面,數據回報率為數據集成、數據管理、商業智能和分析方面的投入提供了業務背景和案例。它還與解決業務的基礎有關:掙錢、省錢、創造機會和管理風險。它涉及對效率的考慮,同時推動了改變遊戲規則的洞察力。

實現回報

Informatica深知,對於很多企業來說,向數據回報模型的轉變不會一蹴而就。管理數據並將其成本降低的短期要求將會是首要焦點,同樣還需要打破障礙以瞭解數據。企業只有這時才可以開始從傳統和新興數據集獲得更多價值。Informatica可提供數據集成平臺和領導力,為企業提供全程幫助。

在大數據的世界中,最靈活和成功的企業將會是那些善用大機遇的公司。

12.意義用途

意義

1.變革價值的力量

未來十年,決定中國是不是有大智慧的核心意義標準(那個”思想者”),就是國民幸福。一體現到民生上,通過大數據讓事情變得澄明,看我們在人與人關係上,做得是否比以前更有意義;二體現在生態上,看我們在天與人關係上,做得是否比以前更有意義。總之,讓我們從前10年的意義混沌時代,進入未來10年意義澄明時代。

2.變革經濟的力量

生產者是有價值的,消費者是價值的意義所在。有意義的才有價值,消費者不認同的,就賣不出去,就實現不了價值;只有消費者認同的,才賣得出去,才實現得了價值。大數據幫助我們從消費者這個源頭識別意義,從而幫助生產者實現價值。這就是啟動內需的原理。

3.變革組織的力量

隨著具有語義網特徵的數據基礎設施和數據資源發展起來,組織的變革就越來越顯得不可避免。大數據將推動網絡結構產生無組織的組織力量。最先反映這種結構特點的,是各種各樣去中心化的WEB2.0應用,如RSS、維基、博客等。 大數據之所以成為時代變革力量,在於它通過追隨意義而獲得智慧。

用途

大數據可分成大數據技術、大數據工程、大數據科學和大數據應用等領域。目前人們談論最多的是大數據技術和大數據應用。工程和科學問題尚未被重視。大數據工程指大數據的規劃建設運營管理的系統工程;大數據科學關注大數據網絡發展和運營過程中發現和驗證大數據的規律及其與自然和社會活動之間的關係。

什麼是大數據|大數據知識科普

大數據與雲計算的關係

物聯網、雲計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍佈地球各個角落的各種各樣的傳感器,無一不是數據來源或者承載的方式。

有些例子包括網絡日誌,RFID,傳感器網絡,社會網絡,社會數據(由於數據革命的社會),互聯網文本和文件;互聯網搜索索引;呼叫詳細記錄,天文學,大氣科學,基因組學,生物地球化學,生物,和其他複雜和/或跨學科的科研,軍事偵察,醫療記錄;攝影檔案館視頻檔案;和大規模的電子商務。

弊端

雖然大數據的擁護者看到了使用大數據的巨大潛力,但也有隱私倡導者擔心,因為越來越多的人開始收集相關數據,無論是他們是否會故意透露這些數據或通過社交媒體張貼,甚至他們在不知不覺中通過分享自己的生活而公佈了一些具體的數字細節。

分析這些巨大的數據集會使我們的預測能力產生虛假的信息,將導致作出許多重大和有害的錯誤決定。此外,數據被強大的人或機構濫用,自私的操縱議程達到他們想要的結果。

13.科學應用

洛杉磯警察局和加利福尼亞大學合作利用大數據預測犯罪的發生。

google流感趨勢(Google Flu Trends)利用搜索關鍵詞預測禽流感的散佈。

統計學家內特.西爾弗(Nate Silver)利用大數據預測2012美國選舉結果。

麻省理工學院利用手機定位數據和交通數據建立城市規劃。

梅西百貨的實時定價機制,根據需求和庫存的情況,該公司基於SAS的系統對多達7300萬種貨品進行實時調價。

Tipp24 AG針對歐洲博彩業構建的下注和預測平臺。該公司用KXEN軟件來分析數十億計的交易以及客戶的特性,然後通過預測模型對特定用戶進行動態的營銷活動。這項舉措減少了90%的預測模型構建時間。SAP公司正在試圖收購KXEN。“SAP想通過這次收購來扭轉其長久以來在預測分析方面的劣勢。”Laney分析到。

PredPol Inc. 公司通過與洛杉磯和聖克魯斯的警方以及一群研究人員合作,基於地震預測算法的變體和犯罪數據來預測犯罪發生的幾率,可以精確到500平方英尺的範圍內。在洛杉磯運用該算法的地區,盜竊罪和暴力犯罪分佈下降了33%和21%。

American Express(美國運通,AmEx)和商業智能。以往,AmEx只能實現事後諸葛式的報告和滯後的預測。“傳統的BI已經無法滿足業務發展的需要。”Laney認為。於是,AmEx開始構建真正能夠預測忠誠度的模型,基於歷史交易數據,用115個變量來進行分析預測。該公司表示,對於澳大利亞將於之後四個月中流失的客戶,已經能夠識別出其中的24%。

什麼是大數據|大數據知識科普

大數據實踐 基礎架構先行

Express Scripts Holding Co.的產品製造。該公司發現那些需要服藥的人常常也是最可能忘記服藥的人。因此,他們開發了一個新產品:會響鈴的藥品蓋和自動的電話呼叫,以此提醒患者按時服藥。

Infinity Property & Casualty Corp.的黑暗數據(dark data)。Laney對於黑暗數據的定義是,那些針對單一目標而收集的數據,通常用過之後就被歸檔閒置,其真正價值未能被充分挖掘。在特定情況下,這些數據可以用作其他用途。該公司用累積的理賠師報告來分析欺詐案例,通過算法挽回了1200萬美元的代位追償金額。

利用起互聯網大數據,對消費者的喜好進行判定。商戶可以為消費者定製相應的獨特的個性服務,甚至可以在一些商品或者服務上匹配用戶心情等等。商家還可以根據大數據為消費者提供其可能會喜好的特色產品,活動,小而美的小眾商品等等 。

地產業的升級改造,具有令人興奮的商業前景。一個Shopping Mall的投資往往高達數十億元,設想一下,如果智能化升級能夠讓一個Shopping Mall的顧客數量和人均消費提升30%-50%,為此投入幾百萬元甚至上千萬元對於投資方來說非常划算,那麼僅僅針對國內Shopping Mall的智能化升級就是一個千億元級別的市場。

經典大數據案例-沃爾瑪經典營銷:啤酒與尿布

“啤酒與尿布”的故事產生於20世紀90年代的美國沃爾瑪超市中,沃爾瑪的超市管理人員分析銷售數據時發現了一個令人難於理解的現象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關係的商品會經常出現在同一個購物籃中,這種獨特的銷售現象引起了管理人員的注意,經過後續調查發現,這種現象出現在年輕的父親身上。

在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購買尿布。父親在購買尿布的同時,往往會順便為自己購買啤酒,這樣就會出現啤酒與尿布這兩件看上去不相干的商品經常會出現在同一個購物籃的現象。如果這個年輕的父親在賣場只能買到兩件商品之一,則他很有可能會放棄購物而到另一家商店, 直到可以一次同時買到啤酒與尿布為止。沃爾瑪發現了這一獨特的現象,開始在賣場嘗試將啤酒與尿布擺放在相同的區域,讓年輕的父親可以同時找到這兩件商品,並很快地完成購物;而沃爾瑪超市也可以讓這些客戶一次購買兩件商品、而不是一件,從而獲得了很好的商品銷售收入,這就是“啤酒與尿布” 故事的由來。

當然“啤酒與尿布”的故事必須具有技術方面的支持。1993年美國學者Agrawal提出通過分析購物籃中的商品集合,從而找出商品之間關聯關係的關聯算法,並根據商品之間的關係,找出客戶的購買行為。艾格拉沃從數學及計算機算法角度提 出了商品關聯關係的計算方法——Aprior算法。沃爾瑪從上個世紀 90 年代嘗試將 Aprior 算 法引入到 POS機數據分析中,並獲得了成功,於是產生了“啤酒與尿布”的故事。

IBM戰略

IBM的大數據戰略以其在2012年5月發佈智慧分析洞察“3A5步”動態路線圖作為基礎。所謂“3A5步”,指的是在“掌握信息”(Align)的基礎上“獲取洞察”(Anticipate),進而採取行動(Act),優化決策策劃能夠救業務績效。除此之外,還需要不斷地“學習”(Learn)從每一次業務結果中獲得反饋,改善基於信息的決策流程,從而實現“轉型”(Transform)。

什麼是大數據|大數據知識科普

大數據

基於“3A5步”動態路線圖,IBM提出了“大數據平臺”架構。該平臺的四大核心能力包括Hadoop系統、流計算(StreamComputing)、數據倉庫(Data Warehouse)和信息整合與治理(Information Integration and Governance)。

在大數據處理領域,IBM於2012年10月推出了IBMPureSystems專家集成系統的新成員——IBM PureData系統。這是IBM在數據處理領域發佈的首個集成系統產品系列。PureData系統具體包含三款產品,分別為PureDataSystem for Transactions、PureData System forAnalytics和PureData System for Operational Analytics,可分別應用於OLTP(聯機事務處理)、OLAP(聯機分析處理)和大數據分析操作。與此前發佈的IBMPureSystems系列產品一樣,IBM PureData系統提供內置的專業知識、源於設計的集成,以及在其整個生命週期中的簡化體驗。

斯隆數字巡天收集在其最初的幾個星期,就比在天文學的歷史上之前的2000年的收集了更多的數據。自那時以來,它已經積累了140兆兆 字節的信息。這個望遠鏡的繼任者,大天氣巡天望遠鏡,將於2016年在網上將獲得數據公佈,沃爾瑪每隔一小時處理超過100萬客戶的交易,錄入量數據庫估計超過2.5 PB相當於美國國會圖書館的書籍的167倍 。FACEBOOK從它的用戶群獲得並處理400億張照片。解碼最原始的人類基因組花費10年時間處理,如今可以在一個星期內實現。

“大數據”的影響,增加了對信息管理專家的需求,甲骨文,IBM,微軟和SAP花了超過15億美元的在軟件智能數據管理和分析的專業公司。這個行業自身價值超過1000億美元,增長近10%,每年兩次,這大概是作為一個整體的軟件業務的快速。

大數據已經出現,因為我們生活在一個有更多信息的社會中。有46億全球移動電話用戶有20億人訪問互聯網。基本上,人們比以往任何時候都與數據或信息交互。 1990年至2005年,全球超過1億人進入中產階級,這意味著越來越多的人收益的這筆錢將反過來導致更多的信息增長。思科公司預計,到2013年,在互聯網上流動的交通量將達到每年667艾字節。

大數據,其影響除了經濟方面的,它同時也能在政治、文化等方面產生深遠的影響,大數據可以幫助人們開啟循“數”管理的模式,也是我們當下“大社會”的集中體現,三分技術,七分數據,得數據者得天下。

14.商業模式

什麼是大數據|大數據知識科普

大數據實踐

國內網絡廣告投放正從傳統的面向群體的營銷轉向個性化營銷,從流量購買轉向人群購買。雖然市場大環境不好,但是具備數據挖掘能力的公司卻倍受資本青睞。

163大數據是一個很好的視角和工具。從資本角度來看,什麼樣的公司有價值,什麼樣的公司沒有價值,從其擁有的數據規模、數據的活性和這家公司能運用、解釋數據的能力,就可以看出這家公司的核心競爭力。而這幾個能力正是資本關注的點。

移動互聯網與社交網絡興起將大數據帶入新的征程,互聯網營銷將在行為分析的基礎上向個性化時代過渡。創業公司應用“大數據”告訴廣告商什麼是正確的時間,誰是正確的用戶,什麼是應該發表的正確內容等,這正好切中了廣告商的需求。

社交網絡產生了海量用戶以及實時和完整的數據,同時社交網絡也記錄了用戶群體的情緒,通過深入挖掘這些數據來了解用戶,然後將這些分析後的數據信息推給需要的品牌商家或是微博營銷公司。

實際上,將用戶群精準細分,直接找到要找的用戶正是社交內容背後數據挖掘所帶來的結果。而通過各種算法實現的數據信息交易,正是張文浩為自己的社交數據挖掘公司設計的盈利模式。這家僅僅五六個人的小公司拿到了天使投資。未來的市場將更多地以人為中心,主動迎合用戶需求,前提就是要找到這部分人群。

在移動互聯網領域,公司從開發者角度找到數據挖掘的方向,通過提供免費的技術服務,幫助開發者瞭解應用狀況。

15.企業應對

國內的企業跟美國比較,有一個很重要的特性就是人口基數的區別,中國消費群體所產生的這種數據量,與國外相比不可同日而語。

伴隨著各種隨身設備、物聯網和雲計算雲存儲等技術的發展,人和物的所有軌跡都可以被記錄。在移動互聯網的核心網絡節點是人,不再是網頁。數據大爆炸下,怎樣挖掘這些數據,也面臨著技術與商業的雙重挑戰。

首先,如何將數據信息與產品和人相結合,達到產品或服務優化是大數據商業模式延展上的挑戰之一。

其次,巧婦難為無米之炊,大數據的關鍵還是在於誰先擁有數據。

從市場角度來看,大數據還面臨其他因素的挑戰。

產業界對於大數據的熱情持續升溫的同時,資本也敏銳地發現了這一趨勢,並開始關注數據挖掘和服務類公司。

最早提出“大數據”時代已經到來的機構是全球知名諮詢公司麥肯錫。麥肯錫在研究報告中指出,數據已經滲透到每一個行業和業務職能領域,逐漸成為重要的生產因素;而人們對於海量數據的運用將預示著新一波生產率增長和消費者盈餘浪潮的到來。

什麼是大數據|大數據知識科普

大數據時代:如何節省存儲成本

“麥肯錫的報告發布後,大數據迅速成為了計算機行業爭相傳誦的熱門概念,也引起了金融界的高度關注。”隨著互聯網技術的不斷髮展,數據本身是資產,這一點在業界已經形成共識。“如果說雲計算為數據資產提供了保管、訪問的場所和渠道,那麼如何盤活數據資產,使其為國家治理、企業決策乃至個人生活服務,則是大數據的核心議題,也是雲計算內在的靈魂和必然的升級方向。”

事實上,全球互聯網巨頭都已意識到了“大數據”時代,數據的重要意義。包括EMC、惠普、IBM、微軟在內的全球IT 巨頭紛紛通過收購“大數據”相關廠商來實現技術整合,亦可見其對“大數據”的重視。

“大數據”作為一個較新的概念,目前尚未直接以專有名詞被我國政府提出來給予政策支持。不過,在2011年12月8日工信部發布的物聯網“十二五”規劃上,把信息處理技術作為4項關鍵技術創新工程之一被提出來,其中包括了海量數據存儲、數據挖掘、圖像視頻智能分析,這都是大數據的重要組成部分。而另外3項關鍵技術創新工程,包括信息感知技術、信息傳輸技術、信息安全技術,也都與“大數據”密切相關。

16.投資熱點

大數據是繼雲計算、物聯網之後IT產業又一次顛覆性的技術變革。雲計算主要為數據資產提供了保管、訪問的場所和渠道,而數據才是真正有價值的資產。企業內部的經營交易信息、物聯網世界中的商品物流信息,互聯網世界中的人與人交互信息、位置信息等,其數量將遠遠超越現有企業IT架構和基礎設施的承載能力,實時性要求也將大大超越現有的計算能力。如何盤活這些數據資產,使其為國家治理、企業決策乃至個人生活服務,是大數據的核心議題,也是雲計算內在的靈魂和必然的升級方向。

大數據時代網民和消費者的界限正在消弭,企業的疆界變得模糊,數據成為核心的資產,並將深刻影響企業的業務模式,甚至重構其文化和組織。因此,大數據對國家治理模式、對企業的決策、組織和業務流程、對個人生活方式都將產生巨大的影響。如果不能利用大數據更加貼近消費者、深刻理解需求、高效分析信息並作出預判,所有傳統的產品公司都只能淪為新型用戶平臺級公司的附庸,其衰落不是管理能扭轉的。

大數據時代將引發新一輪信息化投資和建設熱潮。據IDC預測,到2020年全球將總共擁有35ZB的數據量,而麥肯錫則預測未來大數據產品在三大行業的應用就將產生7千億美元的潛在市場,未來中國大數據產品的潛在市場規模有望達到1.57萬億元,給IT行業開拓了一個新的黃金時代。

當前還處在大數據時代的前夜,預計今明兩年將是大數據市場的培育期,2014年以後大數據產品將會形成業績。

17.專家觀點

什麼是大數據|大數據知識科普

大數據給城市帶來的重大變革

宋清輝:大數據正改變我們的未來

大數據時代,與其讓對你感興趣的人去搜尋你的隱私,就不如自曝隱私。當我在全球不同城市演講結束交換名片的時候,基本從來不發載有自己名字、電話、地址等基本信息的名片,因為那根本用不著,也不符合大數據時代的精髓。所以我的名片簡單到只有一個名字和幾個二維碼,只要百度一下或者掃一掃二維碼,關於個人的信息別人就會一覽無餘,包括在寫什麼文章、在哪裡演講等信息……

不想說一個人若拒絕大數據就去失去生命這樣沉重的話題,但大數據確實在深刻改變著你和我的未來。

18.戰略資源

2015年5月26日,中共貴州省委副書記、省政府省長陳敏爾在峰會上透露,國家在制定大數據國家戰略及行動計劃。貴州省將抓住和用好戰略機遇,深入挖掘大數據的商業價值、管理價值和社會價值。

工信部信息服務處處長李琰在論壇期間則表示,工信部將抓緊研究制定大數據發展的指導性文件。下一步,工信部將和有關部門加強協同,積極營造良好的環境,推動應用和產業相互促進、良性發展,為我國大數據產業和大數據創新發展探索積累經驗。

19.數據類型

大數據時代來了!不得不承認如今數據量的激增越來越明顯,各種各樣的數據鋪天蓋地的砸下來,企業選擇相應工具來存儲、分析與處理它們。從Excel、BI工具,到現在最新的可視化數據分析工具大數據魔鏡,數據分析軟件進步越來越快,免費的大數據魔鏡已經可以達到500多種可視化效果和實現數據共享。那麼在大數據時代中,都新出現了哪些數據類型呢?

1)過於一些記錄是以模擬形式方式存在的,或者以數據形式存在但是存貯在本地,不是公開數據資源,沒有開放給互聯網用戶,例如音樂、照片、視頻、監控錄像等影音資料。現在這些數據不但數據量巨大,並且共享到了互聯網上,面對所有互聯網用戶,其數量之大是前所未有。舉個例子,Facebook每天有18億張照片上傳或被傳播,形成了海量的數據。

2)移動互聯網出現後,移動設備的很多傳感器收集了大量的用戶點擊行為數據,已知IPHONE有3個傳感器,三星有6個傳感器。它們每天產生了大量的點擊數據,這些數據被某些公司所有擁有,形成用戶大量行為數據。

3)電子地圖如高德、百度、Google地圖出現後,其產生了大量的數據流數據,這些數據不同於傳統數據,傳統數據代表一個屬性或一個度量值,但是這些地圖產生的流數據代表著一種行為、一種習慣,這些流數據經頻率分析後會產生巨大的商業價值。基於地圖產生的數據流是一種新型的數據類型,在過去是不存在的。

4)進入了社交網絡的年代後,互聯網行為主要由用戶參與創造,大量的互聯網用戶創造出海量的社交行為數據,這些數據是過去未曾出現的。其揭示了人們行為特點和生活習慣。

5)電商戶崛起產來了大量網上交易數據,包含支付數據,查詢行為,物流運輸、購買喜好,點擊順序,評價行為等,其是信息流和資金流數據。

6)傳統的互聯網入口轉向搜索引擎之後,用戶的搜索行為和提問行為聚集了海量數據。單位存儲價格的下降也為存儲這些數據提供了經濟上的可能。

上面我們所指的大數據不同與過去傳統的數據,其產生方式、存儲載體、訪問方式、表現形式、來源特點等都同傳統數據不同。大數據更接近於某個群體行為數據,它是全面的數據、準確的數據、有價值的數據。這些新類型數據相信大家都很熟悉,它們已經比傳統數據類型更深入地走進了我們生活。


分享到:


相關文章: