04.12 大數據關鍵詞大掃盲,不懂的,還不趕快查?

1.

Hadoop

Hadoop的前身源於谷歌03至06年提出的三篇很有影響力的文章,分別是03年SOSP的GFS,04年OSDI的MapReduce,和06年OSDI的BigTable。江湖傳說永流傳:谷歌技術有"三寶",GFS、MapReduce和大表(BigTable)!其中GFS和MapReduce更衍生成為了Hadoop兩個最重要的技術核心:HDFS和MapReduce。那麼Hadoop究竟是什麼呢?它實際上是一個能對大量數據進行分佈式計算的框架。只要記住它的三個字的主旨,你就能對它的原理有一個很好的掌握,那就是:分!布!式!

那麼什麼叫做分佈式呢?它又有什麼作用呢?相信看完這個小編的例子你就會恍然大悟了:假如,你用一臺電腦做個非常簡單的計算:1*1+2*2+3*3,花費的時間可能是0.3s,(加法忽略不計),緊接著你將計算拆分成三個乘法,分別讓三臺電腦同時計算,三臺的計算結果發送到一臺做最終的加法計算,這樣花費的時間,僅僅是0.1s+,這,就叫分佈式計算。雖然聽起來有點賴皮,但是在Hadoop中,計算任務的拆分和分配,以及中間數據的管理,都會有內置服務自動幫你管理,你需要做的,就是提交計算任務就行。有這樣得力的助手,難道不覺得非常佛系非常省心了嗎?

大數據關鍵詞大掃盲,不懂的,還不趕快查?

Hadoop是一隻黃色的大象

2. ETL

E代表Extract,意思是數據的抽取過程。T代表Transform,意思是數據的轉換過程。L代表Load,意識是數據的加載過程。那麼,大家不禁會問,數據為什麼會需要抽取,轉換,加載ETL呢,難道不能拿來直接就用嗎?

當然不能。這裡還是給大家舉個例子:有一天老闆突發奇想看看最近的熱門車品牌,你從一個數據集上扒下來了海量數據,在分析喜愛車型這一字段時,發現了這樣一些不合常理的答案:譬如,問:您喜歡什麼樣的車型啊,答:20歲左右玲瓏有致的...問:您會選擇BBA中的什麼品牌,答:C...問:您心目中性價比最高的汽車是什麼啊?答:雅迪...程序員,卒。

其實,通過爬蟲等方式收集到的數據往往是很“髒”的,含有非常多的空值及無效數據,這些數據往往都需要進行清洗之後才能導入數據庫,為企業級客戶行為分析、用戶流量爭奪,提供許多有價值的信息!

大數據關鍵詞大掃盲,不懂的,還不趕快查?

3. GNU

GNU計劃,又稱革奴計劃,它的目標是創建一套完全自由的操作系統。其誕生是為實現軟件界合作互助的團結精神,保證GNU軟件可以自由地“使用、複製、修改和發佈”,所有GNU軟件都有一份在禁止其他人添加任何限制的情況下授權所有權利給任何人的協議條款,那就是GNU通用公共許可證(GNU General Public License,GPL)。這裡指的自由,並不是價格免費,這和價格無關而是使用軟件對所有的用戶來說是自由的。GNU代表了一種自由開發的精神!

大數據關鍵詞大掃盲,不懂的,還不趕快查?


分享到:


相關文章: