到底什麼叫大數據?

蘇中山

關於大數據,只需要瞭解這幾點。

第一:什麼是大數據

簡而言之,大數據是指大數據集,這些數據集經過計算分析可以用於揭示某個方面相關的模式和趨勢。數據量不在多,只要足以得出可靠的結論即可。


第二:如何獲取大數據

大數據無處不在,隨著時間的推移,一個簡單的Google搜索就能夠找到幾乎所有的數據存儲庫。裡面不知道有多少數據可用於訪問和分析。我現在這裡提供一個可供學習的數據集列表:(https://www.kdnuggets.com/datasets/index.html)


第三:用這些數據做什麼

數據採集、數據存儲、數據清洗、數據分析、數據可視化


1.數據採集

在發生任何事情之前,需要一些數據。這可以通過多種方式獲得,通常通過對公司Web服務的API調用。尤其是我們在工作中遇到的數據很多都是來自系統內的數據,來自數據庫的數據來自日誌的數據。

數據採集常用的手段有:SQL/Python,其中SQL是數據分析的必備技能,Python是加分項。


2.數據存儲

大數據的主要難點在於如何管理數據的存儲。這完全取決於負責建立數據存儲的預算和個人具備的專業知識,因為大多數需要一些編程知識來實施,一個良好的數據庫能讓我們直接地存儲和查詢數據。


3.數據清理

採集來的數據一般是不規整的,字段缺失或者有錯誤是常有的事情,如果我們不對這些數據進行清洗,分析出的結果就會出現各種異常。在數據清洗這一塊就需要用到一些簡單的統計學基礎。


4.數據挖掘

數據挖掘是發現數據庫內的見解的過程。這樣做是為了能用掌握的數據提供預測和做出一些正確的決定,這部分往往涉及一些算法,也是最困難的部分。


5.數據分析

一旦收集完所有數據,就需要分析以尋找數據的模式和趨勢,發現一些不同尋常的地方,比如異常點或增長點、下降點。


6.數據可視化

也許最重要的是數據的可視化。這是先完成所有工作並輸出理想情況下任何人都能理解的可視化的部分。最常使用某種編程語言(如Plot.ly、d3.js)或軟件(Tableau)來完成。


第四:就業前景

就根據教育部近日公佈的2017年度高校本科專業備案和審批結果顯示,新增2311個專業中,“數據科學與大數據技術”、“機器人工程”等專業熱度最高。大數據和人工智能一定是未來有美好前景的專業。從谷歌搜索熱度看,自2010年左右熱度只增不減。



歡迎各位或者各位的孩子們加入數據分析師的隊伍!


路人甲M

大數據是一個描述數據從產生、傳輸、存儲、分析到展示的一些列技術的統稱。所以大數據不僅僅體現在量上,也體現在應用分析上。

在描述大數據的時候我們通常從四個維度來表述大數據,數據量大、非結構化數據、價值密度低、速度快,這是大數據在數據本身上具備的特點,除了這幾個常規的描述外,現在大數據正在不斷拓展研究邊界。

隨著大數據研究邊界的拓展,需要參與到大數據領域的角色也在逐漸增多,大數據與傳統技術之間的邊界也在逐漸模糊。比如在大數據模式下的物聯網不僅僅完成物物相連的基本功能,也在完成數據採集的功能,物聯網產生的大量數據正是大數據體系下大量非結構化數據的來源,而針對這些數據的發掘、分析正是大數據研究的重要內容。

同時大數據的傳輸和存儲需要一個容量巨大的數據中心,而這個數據中心往往需要提供分佈式存儲和分佈式計算的兩大核心任務,而這也正是雲計算平臺的重要任務。所以雲計算為大數據提供了支撐,可以說大數據是雲計算發展到一定階段的必然產物。

所以大數據與物聯網和雲計算關係密切,互不可分、互相依賴。同時大數據一個重要的研究內容是讓數據“說話”,也就是我們所說的數據之美。要發掘數據的價值就需要算法的支持,通過算法讓數據呈現出一定的規律,而這種規律的背後也許是一個重大的發現。

大數據的發展也促進了人工智能的發展,機器學習作為人工智能領域的重要組成部分,在進行算法訓練時需要大量的數據,而這正是大數據能提供的,所以伴隨著大數據的發展,人工智能領域也迎來了前所未有的契機。

所以,大數據不僅僅是一個概念,更是一條產業鏈,這條產業鏈涵蓋了數據的產生到數據的應用,未來大數據這條產業鏈將創造出大量的就業崗位,大量的科技人才將為大數據產業服務,數據也將在未來體現出更多的實際價值。

如果大家對大數據、雲計算、物聯網有問題或想法,可以私信我,一起交流。


IT人劉俊明

簡單來說,大數據就是大量的信息,尤其指存在於互聯網和數字終端中的數字信息。大數據到底有多大?統計數據表明,在一天之中,互聯網產生的全部內容可以刻滿1.68 億張DVD。IBM 公司的研究稱,在整個人類文明所獲得的全部數據中,有90% 是過去2 年內產生的。而到了2020 年,全世界所產生的數據規模將達到今天的44 倍。


草原獨狼

「大數據」(big data)和「資料科學家」(data scientist)是近年來商業界的熱門關鍵字。不過,你感受到大數據的重要性,卻未必真正瞭解大數據和你我的工作、和企業的關聯性是什麼?以下5 張圖,讓你快速瞭解大數據的商業應用。

Q1. 什麼是大數據?

A : 狹義的定義是指,符合「3V」條件的數據資料,分別是:

  • Volume(大量):以過去的技術無法管理的資料量,資料量的單位可從TB(terabyte,一兆位元組)到PB(petabyte,千兆位元組)。
  • Variety(多樣性):企業的銷售、庫存資料;網站的使用者動態、客服中心的通話紀錄;社交媒體上的文字影像等企業資料庫難以儲存的「非結構化資料」。
  • Velocity(速度):資料每分每秒都在更新,技術也能做到即時儲存、處理。廣義的定義,《大數據的獲利模式》作者城田真琴認為,還要包括具備儲存、處理與分析這些資料的技術,和能夠從這些資料中取出有用資訊或洞見的人才和組織。

Q2. 大數據分析和商業智慧(BI,business intelligence)有什麼不同?

A : 美國顧問機構顧能(Gartner)分析師霍華‧瑞斯納(Howard Dresner)在1980年代提出「商業智慧」概念,指有系統地儲存企業內、外部資料,並加以分析,輔助商務決策。瑞斯納認為,經理人應該親自經手資料,以達到迅速決策與提高生產力的目標。

商業智慧可分析過去發生什麼事,以及為什麼會發生這件事,像是利用統計學回歸分析,從A產品過去一年的銷量結構,找出銷售下滑的原因。大數據則可根據目前發生了什麼事,預測未來將發生什麼事。例如,電商可即時監控銷售情況,預測顧客回購週期。

Q3. 一般企業有哪些數據可用?

A :《大數據的獲利模式》作者城田真琴將企業能取得的資料分為4 種:

  1. 公司本身的事業活動資料:屬於公司的核心資料,例如便利商店的POS 系統資料。
  2. 公司背景資料:比方說員工的通訊錄或財務報表,但是對服務顧客沒有幫助。
  3. 其他公司或顧客的資料:像是顧客在社交網站上的活動紀錄,就是企業即使花錢也想拿到的資料,因為對自己很有用。
  4. 公開資料:通常可以免費取得,企業應該積極運用例如政府的公開資訊,例如政府的公開資訊。

Q4. 企業如何運用數據資料?

A : 阿里巴巴副總裁車品覺提出了數據的5 大價值:

  1. 識別與串聯:能夠辨識出用戶的資訊(手機、生日、e-mail等)
  2. 描述:舉凡用戶搜尋的關鍵字、企業的營運數字、網站活動的相關數據,企業都可以用來做為營運的儀表板。
  3. 時間:從用戶的行動時間軸推測他的行為,例如剛搜尋過旅館的使用者,在拜訪其他網站時,也能即時看到旅館廣告。
  4. 預測:可以幫助公司預測銷售,影響公司經營策略。
  5. 產出數據:將現有數據組合產生新的數據,像是將網路賣家的各項表現(物流、商品、客服等),綜合在一起形成店鋪評分機制。

Q5. 運用大數據的人,就可以稱為資料科學家嗎?

A : 基於前述資料的特性,大數據的儲存、處理和分析絕非易事,通常需要團隊支援,才能發揮出資料的最大效果。

大致來說,資料分析領域包含5 個關鍵職務:資料工程師與軟體工程師負責資料的清理、儲存和處理;資料分析師將資料視覺化,供資料科學家分析;資料科學家依據想要解決的商業命題建構模型,供決策參考;領域專家則是熟悉領域專業知識,提供專業見解供資料科學家分析參考,扮演發展決策的橋樑。


非馬財經

“大數據的運用,汽車私人定製服務已經不遠。”

題主的問題比較寬泛,這裡僅從筆者比較熟悉的汽車行業舉一個例子,分享一下車聯網大數據在汽車產業運用的一個例子,拋磚引玉。

背景

2017年我國汽車保有量已經達到2.05億輛,而且預計在未來的銷量還會增加,到2020年達到3000萬輛。

汽車的最終目的是為人們提供移動出行的解決方案,對於未來汽車的發展趨勢,業界基本上有一個共識,未來的汽車會朝著“電動化,網聯化,智能化,共享化”四個方向發展。

以用戶為中心的生態鏈

基於汽車網聯化的發展,形成了以用戶為中心的生態鏈,如下圖:

圍繞在車主周圍,有不同層級的參與者。傳統的主機廠,汽車製造商,硬件供應商,4S店,只是其中很一小部分。還有各種服務商,提供商,開發商,保險公司,傳媒,甚至教育機構,也扮演著重要的角色。

車聯網能夠將這些參與者全部連接起來,靠什麼?

大數據

汽車產業數據,駕駛行為數據,汽車感知數據,外部環境數據,還有最重要的人的社會數據,都儲存在“龐大的汽車保有量”這個數據庫中。

圍繞著車聯網,以上的數據不斷地更新,不斷地累積,形成了龐大的數據庫,可被收集,並進行分析和處理。

運用舉例-私人定製服務

通過數據處理,得到基於用戶里程的分佈,軌跡,行駛速度,超速違規事件一系列統計:

由此,構建出一個精準的用戶畫像,做什麼,愛好是什麼,習慣什麼等等。

那麼,針對於該用戶,各種服務商就可以提供私人的“定製服務”,比如安全指導,保費個性化,出行效率提升等等。

據估計,車聯網的市場規模從目前年250億,到2020年能夠達到4000億元,又是一個巨大的蛋糕。

版權聲明:本文為“汽車人參考”原創,如需轉載,請務必提前聯繫。轉載時請註明“本文出處於+媒體平臺名稱+汽車人參考”以及原文鏈接,侵權必究。

汽車圈兒的清流


汽車人參考

數字雲與大數據 數字世界傳達出一種流動性和遊牧式的輕。但與此同時,它又與一種肥胖形式密不可分,這種肥胖具體表現為一大堆被髮掘出來的信息。隨著存儲能力的提升和互聯網使用的普及,來自網絡用戶的海量數據被捕捉或擦肩而過。谷歌公司的執行總裁埃裡克·施密特認為,現在每兩天創建的數據量相當於從人類開端到2003年所產生的全部數據量。據估測,數據的製造量每兩年就會翻一番。2013年,全世界每天產生大約1800億封郵件。說到所謂的大數據現象,人們常常提及“信息海嘯”以及“數據洪流”。無形之物竟創造出一種新形式的副產物——“信息過載”。 種種跡象表明它還會進一步加劇,因為有越來越多的產品(電視、冰箱、商店、手機遊戲等)被數字化、連入互聯網,由此產生了更多數據源。據統計,現在平均每個家庭擁有6件聯網設備。到2020年,平均每個用戶使用的聯網設備將達到20件。愛立信的一項調查顯示,屆時,全世界可能會有500億件設備被連入網絡。輕革命最終生成了一大批不斷增長的數據,它們是如此浩瀚,急需新的存儲、管理和開發方式。 據此發展出一種被稱為大數據的新技術,它負責分析大規模的結構化和非結構化數據庫,以達到普遍預測的目的。以微小數據的大量積累為基礎,對數據進行處理,就有可能實現對病症的預測,做出個性化建議,評估風險,推薦最佳交通路線。輕革命使“非常小”遇見“無限大”,從此,相關性的力量被凸顯出來,解釋不再是必需。輕革命帶來的不再是對輕之幻夢的體驗,而是預測的能力和“算法管理”。 隨著各種技術和數字產業的發展,我們見證著兩個矛盾趨勢的興起。互聯網世界伴隨著去中心化過程、去中介化過程、與輕革命方向一致的交互過程。大眾媒體單方面、“定向”的交流已經失勢,取而代之的是一些針對個人需求的個性化操作:一對多的金字塔裝置被多對多和自媒體這類靈活的形式所取代。 但與此同時,網絡也見證著權力與財富通過大型平臺的再一次集中:流動的信息技術世界催生出多家全球巨頭公司,導致了目前美國一家獨大的局面,其影響力已經超出了合理的範圍。一方面,個體的權力得到了增強,通過掌握海量的數據,個人可以交流、表達自我,擁有更好的購物體驗和更多的知情權;另一方面,一些互聯網跨國公司出現了,它們利用數據使自己成為極其強大的存在,這些數據包括消費者留下的數億條微小的信息記錄,這些當他們購物、在社交網站上聊天、發送照片、訪問網站時,信息便或多或少地在他們不知情的情況下被收集。這些數量龐大的瑣碎信息先是零散的,然後通過路由 系統傳送到數據中心,由此形成了那些新的互聯網宏觀機構。在充斥著個人數據的大數據世界裡,正是極小之物為各大網絡巨頭提供著能量。 面對大數據和大規模數據處理所賦予的權力,一些人以1984年的數字技術危機為戒,發表了駭人聽聞的言論,認為人類的自由和尊嚴正受到威脅,被一種新形式的沉重的統治所籠罩。大數據技術不斷進駐新的領域,此時,其使用過程所牽涉的諸多倫理問題便凸顯出來。相關性在算法系統的支持下取得了時代的勝利,這不正是《少數派報告》中的場景嗎?罪犯在犯下他們計劃中的罪行之前就落網了。更廣泛地說,什麼法律條文適用於那些網絡上公開的個人數據?如何保護互聯網用戶的隱私?如何在不妨礙信息權的同時規範和確保“數字遺忘權”的效力?誰來決定?標準是什麼?這裡不是回答這些問題的場合。我們只是要強調,如果在大數據和算法系統盛行的今天,人們不去理解那些現象的原因,而僅僅更新相關性、提出局部有效的預測,那麼這個領域無疑會源源不斷地引起人們對個人保護的需求,並在落實過程中引發各種問題。時至今日,輕的世界已經與詩意、輕柔的飛翔沒有多大關係了,構成這個世界的,是對數字信息的擦除權和撤回權的投訴、爭議與複雜仲裁[1]。 [1] 根據歐盟法庭的一項決議,谷歌允許互聯網用戶從2014年起申請清除那些與個人相關的“不重要的、作廢的、不恰當的”鏈接。



愛我沒錯D

大數據就好理解了,按照字面含義解釋就好了——大~~數據。


大數據的特徵

  • 數據體量巨大(Volume)

  • 數據類型繁多(Variety)

  • 價值密度低(Value)

  • 處理速度快(Velocity)


舉個例子

大數據能幹啥,舉個小點兒的例子:

你是一個電話銷售,我也是一個電話銷售,蒐集咱倆平時所有的銷售行為和客戶畫像,發現你向40-50歲的“大姐姐”們推銷的時候,成功率奇高;而我向20-30歲的小姐姐們推銷的時候,成功率奇高,那麼以後你可以專門負責大姐姐,我負責小姐姐。


舉個稍微大點兒的例子:

保險公司可以分析每一筆理賠信息,再未來理賠的時候,系統可以自動的提示那一通理賠騙保的可能性最大。


大數據的價值

你有了更多數據,你就能看到之前你看不到的信息。

大數理論:在試驗條件不變的前提下,重複多次試驗,看似隨機事件往往都會呈現出可統計特性。

而隨著計算機的處理能力的增強,如果你能獲得更多的數據,那麼你就能找到事件產生的規律,挖掘到更多的數據價值。


寫在最後:數據的本身是不產生價值的,如何分析大數據找到事件的規律,再對去指導優化業務才是關鍵。


會點代碼的大叔

  大數據作為一個名詞其實是晚於Hadoop的,更是晚於MapReduce。曾經有那麼一段時間,流行的詞語是MapReduce而不是大數據。當然再後來,大數據這個詞就流行開了。但是大數據到底是什麼,到今天應該還是稀裡糊塗的一筆賬。

  大數據(big data),指無法在一定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中大數據指不用隨機分析法(抽樣調查)這樣捷徑,而採用所有數據進行分析處理。大數據的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。

  我不知道大家是不是讀懂了,反正我做大數據這麼多年,這段定義我是讀不懂。

  這個定義最大的特點,和很多紅皮書白皮書黑皮書之類的差不多,就是裝逼。說白了,不說人話。反正我是沒聽明白大數據和小數據有什麼本質的區別。無非是數據和處理數據的工具以及從數據裡面提取有用信息變成錢的過程。曾經我們在做這些事情,現在我們在做這些事情,將來我們也會繼續做這些事情。

  行為學家Dan Ariely關於大數據的名言,今天我們繼續共享一下這段名言:

  Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it.

  簡單翻譯一下:

  大數據就像青少年性行為:大家都談論,沒有人真正知道怎麼做,每個人都認為其他人都在做,所以每個人都聲稱自己在做。

  以前幾年國內大數據概念炒上天的情況來看,其實真的誰也不知道大數據是什麼,誰也不清楚大數據怎麼玩,但是各行各業忽如一夜春風來,冒出無數個大數據公司大數據專家。

  現在我們可以看到各行各業都在談論大數據。從政府到企業,從互聯網行業到傳統行業,隨便寫個App背後沒有大數據都不能叫好App。現在大數據都上升到國家高度了。比如說政府辦公要上大數據,一個三線城市,放兩三臺機器搞定的,這數據真的非常的大。

  如果我們撇開大數據這個概念不談,自從有了數據以來,人類一直做的事情是什麼?這個其實也是今天大數據的背景下大家都在做的事情,概括起來講:分析數據,產生有價值的信息。

  這個事情20年前在做10年前也在做,今天還是在做,其實沒什麼變化。 那麼什麼東西發生了變化呢?最大的一個是工具的能力發生了變化。 現在我們可以幾千幾萬臺機器一起協同做計算了。其次是性價比的變化。以前買Oracle的數據庫IBM大型機Teradata的解決方案,賊貴。現在開源軟件一搭,弄些PC機就好。糙一點無所謂,所謂便宜才能普及。

  然而本質來講,大家做的事情並無改變。所以我們不需要去糾結於大數據到底是什麼,而是要看清楚具體業務問題是什麼,有什麼合適的工具去解決。這些工具可能是新的也可能是舊的。我想大數據的所謂發展無非就是工具的進步使得大家能夠更有能力去在限定的時間內處理更多的數據,獲得更有效的信息。


西線學院

近幾年隨著工業的不斷髮展,已然來到了智能工業的4.0。此時,智能製造與大數據等新概念充斥著我們的眼球。這裡Woff簡要的介紹一下大數據。



本質上理解大數據,無非就是體量很大的數據集。但關鍵在於在這背後的:人類數據處理能力的提升、數據量的累積,分析方法的發展、思維的轉變等等,這些才是‘大數據’這個詞的真正含義。

大數據的類型大致可分為三類:

傳統企業數據(Traditional enterprise data):包括 CRM systems的消費者數據,傳統的ERP數據,庫存數據以及賬目數據等。

機器和傳感器數據(Machine-generated /sensor data):包括呼叫記錄(Call Detail Records),智能儀表,工業設備傳感器,設備日誌(通常是Digital exhaust),交易數據等。

社交數據(Social data):包括用戶行為記錄,反饋數據等。如Twitter,Facebook這樣的社交媒體平臺。

大數據的應用十分廣泛,比如輿情分析,就像海嘯預警,通過對海量信息的分析、比對,找出可能產生海嘯災害的區域……當然,最大的用處還是“預測”,比如通過分析多年的洋流運動,能夠分析出你今天在好望角錯過的魚群下個月會出現在哪裡。



說到最後,你可能覺得大數據離你我很遠,沒有大數據我們也一樣生活。其實不然,如果你認為大數據來預測海嘯,預測魚群對你沒有吸引力,那如果預測的是未來股票的漲跌呢?如果預測的是未來行業的風口呢?(~ ̄▽ ̄)→))* ̄▽ ̄*)o有沒有一點點動心?

我是Woff,歡迎大家關注我一同討論新新事物。我們一起學習,共同進步!


Woff

“大數據”(Big Data)不是個技術名詞,而是個商業用語。

以前,我們叫“海量數據”,就是很多很多數據的意思。

與之相關的數據處理方法,稱之為“數據挖掘”(Data Mining)。

而“大數據”這個商業詞彙,既包含了很多很多數據的意思,又包含了多種數據處理方法的概念,換言之,就是“海量數據以及數據分析處理算法”。

不得不說,“大數據”這個詞彙,廣大人民群眾接受度非常高,比什麼數據挖掘要通俗易懂多了,是一個非常成功的商業營銷案例。


與之類似的操作,還有“雲計算”、“人工智能”。

你跟非從業人員講半天虛擬化、IaaS、深度學習、NLP......沒人懂你在講啥。

但是你一說雲計算、人工智能.....人家說:哦,這個我知道,現在很熱門啊。


分享到:


相關文章: