國外、國內Hadoop的應用現狀

2018-10-16 17:45:42 Java技術進階

摘要：

Hadoop是一個開源的高效雲計算基礎架構平臺，其不僅僅在雲計算領域用途廣泛，還可以支撐搜索引擎服務，作為搜索引擎底層的基礎架構系統，同時在海量數據處理、數據挖掘、機器學習、科學計算等領域都越來越受到青睞。本文將講述國外、國內Hadoop的主要應用現狀。

國外Hadoop的應用現狀

1.Yahoo

Yahoo是Hadoop的最大支持者，截至2012年，Yahoo的Hadoop機器總節點數目超過42?000個，有超過10萬的核心CPU在運行Hadoop。最大的一個單Master節點集群有4500個節點（每個節點雙路4核心CPUboxesw，4×1TB磁盤，16GBRAM）。總的集群存儲容量大於350PB，每月提交的作業數目超過1000萬個，在Pig中超過60%的Hadoop作業是使用Pig編寫提交的。

Yahoo的Hadoop應用主要包括以下幾個方面：

支持廣告系統
用戶行為分析
支持Web搜索
反垃圾郵件系統
會員反濫用
內容敏捷
個性化推薦

同時Pig研究並測試支持超大規模節點集群的Hadoop系統。

2.Facebook

Facebook使用Hadoop存儲內部日誌與多維數據，並以此作為報告、分析和機器學習的數據源。目前Hadoop集群的機器節點超過1400臺，共計11?200個核心CPU，超過15PB原始存儲容量，每個商用機器節點配置了8核CPU，12TB數據存儲，主要使用StreamingAPI和JavaAPI編程接口。Facebook同時在Hadoop基礎上建立了一個名為Hive的高級數據倉庫框架，Hive已經正式成為基於Hadoop的Apache一級項目。此外，還開發了HDFS上的FUSE實現。

3.A9.com

A9.com為Amazon使用Hadoop構建了商品搜索索引，主要使用StreamingAPI以及C++、Perl和Python工具，同時使用Java和StreamingAPI分析處理每日數以百萬計的會話。A9.com為Amazon構建的索引服務運行在100節點左右的Hadoop集群上。

4.Adobe

Adobe主要使用Hadoop及HBase，同於支撐社會服務計算，以及結構化的數據存儲和處理。大約有超過30個節點的Hadoop-HBase生產集群。Adobe將數據直接持續地存儲在HBase中，並以HBase作為數據源運行MapReduce作業處理，然後將其運行結果直接存到HBase或外部系統。Adobe在2008年10月就已經將Hadoop和HBase應用於生產集群。

5.CbIR

自2008年4月以來，日本的CbIR（Content-basedInformationRetrieval）公司在AmazonEC2上使用Hadoop來構建圖像處理環境，用於圖像產品推薦系統。使用Hadoop環境生成源數據庫，便於Web應用對其快速訪問，同時使用Hadoop分析用戶行為的相似性。

6.Datagraph

Datagraph主要使用Hadoop批量處理大量的RDF數據集，尤其是利用Hadoop對RDF數據建立索引。Datagraph也使用Hadoop為客戶執行長時間運行的離線SPARQL查詢。Datagraph是使用AmazonS3和Cassandra存儲RDF數據輸入和輸出文件的，並已經開發了一個基於MapReduce處理RDF數據的Ruby框架——RDFgrid。

Datagraph主要使用Ruby、RDF.rb以及自己開發的RDFgrid框架來處理RDF數據，主要使用HadoopStreaming接口。

7.EBay

單集群超過532節點集群，單節點8核心CPU，容量超過5.3PB存儲。大量使用的MapReduce的Java接口、Pig、Hive來處理大規模的數據，還使用HBase進行搜索優化和研究。

8.IBM

IBM藍雲也利用Hadoop來構建雲基礎設施。IBM藍雲使用的技術包括：Xen和PowerVM虛擬化的Linux操作系統映像及Hadoop並行工作量調度，併發布了自己的Hadoop發行版及大數據解決方案。

9.Last.Fm

Last.Fm主要用於圖表計算、專利申報、日誌分析、A/B測試、數據集合並等，也使用Hadoop對超過百萬的曲目進行大規模的音頻特徵分析。

節點超過100臺機器，集群節點配置雙四核[email protected]@2.13GHz，24GB內存，8TB（4×2TB）存儲。

10.LinkedIn

LinkedIn有多種硬件配置的Hadoop集群，主要集群配置如下：

800節點集群，基於Westmere的惠普SL170X與2×4的核心，24GB內存，6×2TBSATA。
1900節點集群，基於Westmere的超微-HX8DTT，與2×6的核心，24GB內存，6×2TBSATA。
1400節點集群，基於SandyBridge超微與2×6的核心，32GB內存，6×2TBSATA。

使用的軟件如下：

操作系統使用RHEL6.3。
JDK使用SUNJDK1.6.0_32。

Apache的Hadoop0.20.2的補丁和ApacheHadoop的1.0.4補丁。
Azkaban和Azkaban用於作業調度。
Hive、Avro、Kafka等。

11.MobileAnalytic.TV

主要使用Hadoop應用在並行化算法領域，涉及的MapReduce應用算法如下。

信息檢索和分析。
機器生成的內容——文檔、文本、音頻、視頻。
自然語言處理。
項目組合包括：
移動社交網絡。
網絡爬蟲。
文本到語音轉化。
音頻和視頻自動生成。

12.Openstat

主要利用Hadoop定製一個網絡日誌分析並生成報告，其生產環境下超過50個節點集群（雙路四核Xeon處理器，16GB的RAM，4～6硬盤驅動器），還有兩個相對小的集群用於個性化分析，每天處理約500萬的事件，每月15億美元的交易數據，集群每天產生大約25GB的報告。

使用的技術主要包括：CDH、Cascading、Janino。

13.Quantcast

3000個CPU核心，3500TB存儲，每日處理1PB以上的數據，使用完全自定義的數據路徑和排序器的Hadoop調度器，對KFS文件系統有突出貢獻。

14.Rapleaf

超過80個節點的集群（每個節點有2個雙核CPU，2TB×8存儲，16GBRAM內存）；主要使用Hadoop、Hive處理Web上關聯到個人的數據，並引入Cascading簡化數據流穿過各種處理階段。

15.WorldLingo

硬件上超過44臺服務器（每臺有2個雙核CPU，2TB存儲，8GB內存），每臺服務器均運行Xen，啟動一個虛擬機實例運行Hadoop/HBase，再啟動一個虛擬機實例運行Web或應用程序服務器，即有88臺可用的虛擬機；運行兩套獨立的Hadoop/HBase機群，它們各自擁有22個節點。Hadoop主要用於運行HBase和MapReduce作業，掃描HBase的數據表，執行特定的任務。HBase作為一種可擴展的、快速的存儲後端，用於保存數以百萬的文檔。目前存儲了1200萬篇文檔，近期的目標是存儲4.5億篇文檔。

16.格拉斯哥大學的TerrierTeam

超過30個節點的實驗集群（每節點配置XeonQuadCore2.4GHz，4GB內存，1TB存儲）。使用Hadoop促進信息檢索研究和試驗，特別是用於TREC，用於TerrierIR平臺。Terrier的開源發行版中包含了基於HadoopMapReduce的大規模分佈式索引。

17.內布拉斯加大學的HollandComputingCenter

運行一箇中等規模的Hadoop機群（共計1.6PB存儲）用於存儲和提供物理數據，以支持緊湊型μ子螺旋型磁譜儀（CompactMuonSolenoid，CMS）實驗的計算。這需要一類能夠以幾Gbps的速度下載數據，並以更高的速度處理數據的文件系統的支持。

18.VisibleMeasures

將Hadoop作為可擴展數據流水線的一個組件，最終用於VisibleSuite等產品。使用Hadoop彙總、存儲和分析與網絡視頻觀眾收看行為相關的數據流。目前的網格包括超過128個CPU核心，超過100TB的存儲，並計劃大幅擴容。

國內Hadoop的應用現狀

Hadoop在國內的應用主要以互聯網公司為主，下面主要介紹大規模使用Hadoop或研究Hadoop的公司。

百度在2006年就開始關注Hadoop並開始調研和使用，在2012年其總的集群規模達到近十個，單集群超過2800臺機器節點，Hadoop機器總數有上萬臺機器，總的存儲容量超過100PB，已經使用的超過74PB，每天提交的作業數目有數千個之多，每天的輸入數據量已經超過7500TB，輸出超過1700TB。

百度的Hadoop集群為整個公司的數據團隊、大搜索團隊、社區產品團隊、廣告團隊，以及LBS團體提供統一的計算和存儲服務，主要應用包括：

數據挖掘與分析。
日誌分析平臺。
數據倉庫系統。
推薦引擎系統。
用戶行為分析系統。

同時百度在Hadoop的基礎上還開發了自己的日誌分析平臺、數據倉庫系統，以及統一的C++編程接口，並對Hadoop進行深度改造，開發了HadoopC++擴展HCE系統。

2.阿里巴巴

阿里巴巴的Hadoop集群截至2012年大約有3200臺服務器，大約30?000物理CPU核心，總內存100TB，總的存儲容量超過60PB，每天的作業數目超過150?000個，每天hivequery查詢大於6000個，每天掃描數據量約為7.5PB，每天掃描文件數約為4億，存儲利用率大約為80%，CPU利用率平均為65%，峰值可以達到80%。阿里巴巴的Hadoop集群擁有150個用戶組、4500個集群用戶，為淘寶、天貓、一淘、聚划算、CBU、支付寶提供底層的基礎計算和存儲服務，主要應用包括：

數據平臺系統。
搜索支撐。
廣告系統。
數據魔方。
量子統計。
淘數據。
推薦引擎系統。
搜索排行榜。

為了便於開發，其還開發了WebIDE繼承開發環境，使用的相關係統包括：Hive、Pig、Mahout、Hbase等。

3.騰訊

騰訊也是使用Hadoop最早的中國互聯網公司之一，截至2012年年底，騰訊的Hadoop集群機器總量超過5000臺，最大單集群約為2000個節點，並利用Hadoop-Hive構建了自己的數據倉庫系統TDW，同時還開發了自己的TDW-IDE基礎開發環境。騰訊的Hadoop為騰訊各個產品線提供基礎雲計算和雲存儲服務，其支持以下產品：

騰訊社交廣告平臺。

搜搜（SOSO）。
拍拍網。
騰訊微博。
騰訊羅盤。
QQ會員。
騰訊遊戲支撐。
QQ空間。
朋友網。
騰訊開放平臺。
財付通。
手機QQ。
QQ音樂。

4.奇虎360

奇虎360主要使用Hadoop-HBase作為其搜索引擎so.com的底層網頁存儲架構系統，360搜索的網頁可到千億記錄，數據量在PB級別。截至2012年年底，其HBase集群規模超過300節點，region個數大於10萬個，使用的平臺版本如下。

HBase版本：facebook0.89-fb。
HDFS版本：facebookHadoop-20。

奇虎360在Hadoop-HBase方面的工作主要為了優化減少HBase集群的啟停時間，並優化減少RS異常退出後的恢復時間。

5.華為

華為公司也是Hadoop主要做出貢獻的公司之一，排在Google和Cisco的前面，華為對Hadoop的HA方案，以及HBase領域有深入研究，並已經向業界推出了自己的基於Hadoop的大數據解決方案。

6.中國移動

中國移動於2010年5月正式推出大雲BigCloud1.0，集群節點達到了1024。中國移動的大雲基於Hadoop的MapReduce實現了分佈式計算，並利用了HDFS來實現分佈式存儲，並開發了基於Hadoop的數據倉庫系統HugeTable，並行數據挖掘工具集BC-PDM，以及並行數據抽取轉化BC-ETL，對象存儲系統BC-ONestd等系統，並開源了自己的BC-Hadoop

版本。

中國移動主要在電信領域應用Hadoop，其規劃的應用領域包括：

經分KPI集中運算。
經分系統ETL/DM。
結算系統。
信令系統。
雲計算資源池系統。
物聯網應用系統。
E-mail。
IDC服務等。

7.盤古搜索

盤古搜索（目前已和即刻搜索合併為中國搜索）主要使用Hadoop集群作為搜索引擎的基礎架構支撐系統，截至2013年年初，集群中機器數量總計超過380臺，存儲總量總計3.66PB，主要包括的應用如下。

網頁存儲。
網頁解析。
建索引。
Pagerank計算。
日誌統計分析。
推薦引擎等。
即刻搜索（人民搜索）

即刻搜索（目前已與盤古搜索合併為中國搜索）也使用Hadoop作為其搜索引擎的支撐系統，截至2013年，其Hadoop集群規模總計超過500臺節點，配置為雙路6核心CPU，48G內存，11×2T存儲，集群總容量超過10PB，使用率在78%左右，每天處理讀取的數據量約為500TB，峰值大於1P，平均約為300TB。

即刻搜索在搜索引擎中使用sstable格式存儲網頁並直接將sstable文件存儲在HDFS上面，主要使用HadoopPipes編程接口進行後續處理，也使用Streaming接口處理數據，主要的應用包括：

網頁存儲。
解析。
建索引。
推薦引擎。

分享到:

閱讀更多 Java技術進階 的文章

關鍵字: Adobe 雲計算計算

Hadoop：MapReduce多路徑輸入與多文件輸出詳解

Hadoop 偽分佈式搭建指南

Hadoop 數據科學

Hadoop DataBase學習筆記

一步一步學習大數據：Hadoop 生態系統與場景

Hadoop 安裝教程

php 操作 Hadoop

第四章 Hadoop 集群搭建

第七章 Hadoop 常用的 shell 命令

第二章 Hadoop 發展背景

不看就虧系列！這裡有完整的 Hadoop 集群搭建教程，和最易懂的 Hadoop 概念！

大數據開發學習，Hadoop-HDFS詳細介紹

03.04 大數據開發學習，Hadoop-HDFS詳細介紹

03.02 看完就能獨自把集群搭起來！Hadoop HDFS完全分佈式環境搭建詳解

03.01 Hadoop HDFS詳細操作

Hbase教程菜鳥教程：Hadoop Hbase入門簡介

Hadoop 3的主要優缺點

FastDFS、Hadoop、TiDB共同點與各自特點

Hadoop YARN：調度性能優化實踐

SQL ON HADOOP 技術框架彙總

Hadoop 數據管理平臺 Apache Falcon

深入淺出 Hadoop YARN

Hadoop、Spark等5種大數據框架對比，你的項目該用哪種？

Hadoop 企業級大數據管理平台CDH 安裝Hadoop組件

Hadoop 基本 Shell命令

揭祕Apache Hadoop YARN，第一部分：集群和YARN基礎

08.28 Hadoop 學習一:jdk配置

最全騰訊等BAT大數據面試99題：hadoop、java、spark、機器算法等

ELK hadoop hbase

系統學習大數據兩大框架 hadoop 和spark

如何系統的學習大數據框架 hadoop 和spark？

大數據計算常用的分布式計算組件——Hadoop、Storm以及Spark

Nutch-Hadoop-MongoDB搭建分佈式爬蟲

好程式設計師：hadoop job 日誌的查看

Hadoop 的主節點如何啓動java程序？

hadoop上運行python——hadoop streaming：搭建數據分析體系79篇

Hadoop 面試，來看這篇就夠了

Hadoop MapReduce v1 系統剖析

Hadoop 之上的數據建模-Data Vault 2.

Hadoop 回收站Trash知識點

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"