大數據乾貨：Hadoop 面試中 7個必問問題及答案

2019-10-29 17:50:38 大數據三十四號

1.什麼是Hadoop？

Hadoop是一個開源軟件框架，用於存儲大量數據，併發處理/查詢在具有多個商用硬件（即低成本硬件）節點的集群上的那些數據。總之，Hadoop包括以下內容：

HDFS（Hadoop Distributed File System，Hadoop分佈式文件系統）：HDFS允許你以一種分佈式和冗餘的方式存儲大量數據。例如，1 GB（即1024 MB）文本文件可以拆分為16 * 128MB文件，並存儲在Hadoop集群中的8個不同節點上。每個分裂可以複製3次，以實現容錯，以便如果1個節點故障的話，也有備份。HDFS適用於順序的“一次寫入、多次讀取”的類型訪問。

MapReduce：一個計算框架。它以分佈式和並行的方式處理大量的數據。當你對所有年齡> 18的用戶在上述1 GB文件上執行查詢時，將會有“8個映射”函數並行運行，以在其128 MB拆分文件中提取年齡> 18的用戶，然後“reduce”函數將運行以將所有單獨的輸出組合成單個最終結果。

YARN（Yet Another Resource Nagotiator，又一資源定位器）：用於作業調度和集群資源管理的框架。

Hadoop生態系統，擁有15多種框架和工具，如Sqoop，Flume，Kafka，Pig，Hive，Spark，Impala等，以便將數據攝入HDFS，在HDFS中轉移數據（即變換，豐富，聚合等），並查詢來自HDFS的數據用於商業智能和分析。某些工具（如Pig和Hive）是MapReduce上的抽象層，而Spark和Impala等其他工具則是來自MapReduce的改進架構/設計，用於顯著提高的延遲以支持近實時（即NRT）和實時處理。

2.為什麼組織從傳統的數據倉庫工具轉移到基於Hadoop生態系統的智能數據中心？

Hadoop組織正在從以下幾個方面提高自己的能力：

現有數據基礎設施：

主要使用存儲在高端和昂貴硬件中的“structured data，結構化數據”
主要處理為ETL批處理作業，用於將數據提取到RDBMS和數據倉庫系統中進行數據挖掘，分析和報告，以進行關鍵業務決策。
主要處理以千兆字節到兆字節為單位的數據量

基於Hadoop的更智能的數據基礎設施，其中

結構化（例如RDBMS），非結構化（例如images，PDF，docs ）和半結構化（例如logs，XMLs）的數據可以以可擴展和容錯的方式存儲在較便宜的商品機器中。
可以通過批處理作業和近實時（即，NRT，200毫秒至2秒）流（例如Flume和Kafka）來攝取數據。
數據可以使用諸如Spark和Impala之類的工具以低延遲（即低於100毫秒）的能力查詢。
可以存儲以兆兆字節到千兆字節為單位的較大數據量。

這使得組織能夠使用更強大的工具來做出更好的業務決策，這些更強大的工具用於獲取數據，轉移存儲的數據（例如聚合，豐富，變換等），以及使用低延遲的報告功能和商業智能。

3.更智能&更大的數據中心架構與傳統的數據倉庫架構有何不同？

傳統的企業數據倉庫架構

基於Hadoop的數據中心架構

4.基於Hadoop的數據中心的好處是什麼？

隨著數據量和複雜性的增加，提高了整體SLA（即服務水平協議）。

例如，“Shared Nothing”架構，並行處理，內存密集型處理框架，如Spark和Impala，以及YARN容量調度程序中的資源搶佔。

縮放數據倉庫可能會很昂貴。添加額外的高端硬件容量以及獲取數據倉庫工具的許可證可能會顯著增加成本。基於Hadoop的解決方案不僅在商品硬件節點和開源工具方面更便宜，而且還可以通過將數據轉換卸載到Hadoop工具（如Spark和Impala）來補足數據倉庫解決方案，從而更高效地並行處理大數據。這也將釋放數據倉庫資源。

探索新的渠道和線索。Hadoop可以為數據科學家提供探索性的沙盒，以從社交媒體，日誌文件，電子郵件等地方發現潛在的有價值的數據，這些數據通常在數據倉庫中不可得。

更好的靈活性。通常業務需求的改變，也需要對架構和報告進行更改。基於Hadoop的解決方案不僅可以靈活地處理不斷髮展的模式，還可以處理來自不同來源，如社交媒體，應用程序日誌文件，image，PDF和文檔文件的半結構化和非結構化數據。

5.大數據解決方案的關鍵步驟是什麼？

提取數據，存儲數據（即數據建模）和處理數據（即數據加工，數據轉換和查詢數據）。

提取數據

從各種來源提取數據，例如：

RDBM（Relational Database Management Systems）關係數據庫管理系統，如Oracle，MySQL等。
ERPs（Enterprise Resource Planning）企業資源規劃（即ERP）系統，如SAP。
CRM（Customer Relationships Management）客戶關係管理系統，如Siebel，Salesforce等
社交媒體Feed和日誌文件。
平面文件，文檔和圖像。

並將其存儲在基於“Hadoop分佈式文件系統”（簡稱HDFS）的數據中心上。可以通過批處理作業（例如每15分鐘運行一次，每晚一次，等），近實時（即100毫秒至2分鐘）流式傳輸和實時流式傳輸（即100毫秒以下）去採集數據。

Hadoop中使用的一個常用術語是“Schema-On-Read”。這意味著未處理（也稱為原始）的數據可以被加載到HDFS，其具有基於處理應用的需求在處理之時應用的結構。這與“Schema-On-Write”不同，後者用於需要在加載數據之前在RDBM中定義模式。

存儲數據

數據可以存儲在HDFS或NoSQL數據庫，如HBase。HDFS針對順序訪問和“一次寫入和多次讀取”的使用模式進行了優化。HDFS具有很高的讀寫速率，因為它可以將I / O並行到多個驅動器。HBase在HDFS之上，並以柱狀方式將數據存儲為鍵/值對。列作為列家族在一起。HBase適合隨機讀/寫訪問。在Hadoop中存儲數據之前，你需要考慮以下幾點：

數據存儲格式：有許多可以應用的文件格式（例如CSV，JSON，序列，AVRO，Parquet等）和數據壓縮算法（例如snappy，LZO，gzip，bzip2等）。每個都有特殊的優勢。像LZO和bzip2的壓縮算法是可拆分的。
數據建模：儘管Hadoop的無模式性質，模式設計依然是一個重要的考慮方面。這包括存儲在HBase，Hive和Impala中的對象的目錄結構和模式。Hadoop通常用作整個組織的數據中心，並且數據旨在共享。因此，結構化和有組織的數據存儲很重要。
元數據管理：與存儲數據相關的元數據。
多用戶：更智能的數據中心託管多個用戶、組和應用程序。這往往導致與統治、標準化和管理相關的挑戰。

處理數據

Hadoop的處理框架使用HDFS。它使用“Shared Nothing”架構，在分佈式系統中，每個節點完全獨立於系統中的其他節點。沒有共享資源，如CPU，內存以及會成為瓶頸的磁盤存儲。Hadoop的處理框架（如Spark，Pig，Hive，Impala等）處理數據的不同子集，並且不需要管理對共享數據的訪問。 “Shared Nothing”架構是非常可擴展的，因為更多的節點可以被添加而沒有更進一步的爭用和容錯，因為每個節點是獨立的，並且沒有單點故障，系統可以從單個節點的故障快速恢復。

6.你會如何選擇不同的文件格式存儲和處理數據？

設計決策的關鍵之一是基於以下方面關注文件格式：

使用模式，例如訪問50列中的5列，而不是訪問大多數列。
可並行處理的可分裂性。
塊壓縮節省存儲空間vs讀/寫/傳輸性能
模式演化以添加字段，修改字段和重命名字段。

CSV文件

CSV文件通常用於在Hadoop和外部系統之間交換數據。CSV是可讀和可解析的。 CSV可以方便地用於從數據庫到Hadoop或到分析數據庫的批量加載。在Hadoop中使用CSV文件時，不包括頁眉或頁腳行。文件的每一行都應包含記錄。CSV文件對模式評估的支持是有限的，因為新字段只能附加到記錄的結尾，並且現有字段不能受到限制。CSV文件不支持塊壓縮，因此壓縮CSV文件會有明顯的讀取性能成本。

JSON文件

JSON記錄與JSON文件不同；每一行都是其JSON記錄。由於JSON將模式和數據一起存儲在每個記錄中，因此它能夠實現完整的模式演進和可拆分性。此外，JSON文件不支持塊級壓縮。

序列文件

序列文件以與CSV文件類似的結構用二進制格式存儲數據。像CSV一樣，序列文件不存儲元數據，因此只有模式進化才將新字段附加到記錄的末尾。與CSV文件不同，序列文件確實支持塊壓縮。序列文件也是可拆分的。序列文件可以用於解決“小文件問題”，方式是通過組合較小的通過存儲文件名作為鍵和文件內容作為值的XML文件。由於讀取序列文件的複雜性，它們更適合用於在飛行中的（即中間的）數據存儲。

注意：序列文件是以Java為中心的，不能跨平臺使用。

Avro文件

適合於有模式的長期存儲。Avro文件存儲具有數據的元數據，但也允許指定用於讀取文件的獨立模式。啟用完全的模式進化支持，允許你通過定義新的獨立模式重命名、添加和刪除字段以及更改字段的數據類型。Avro文件以JSON格式定義模式，數據將採用二進制JSON格式。Avro文件也是可拆分的，並支持塊壓縮。更適合需要行級訪問的使用模式。這意味著查詢該行中的所有列。不適用於行有50+列，但使用模式只需要訪問10個或更少的列。Parquet文件格式更適合這個列訪問使用模式。

Columnar格式，例如RCFile，ORC

RDBM以面向行的方式存儲記錄，因為這對於需要在獲取許多列的記錄的情況下是高效的。如果在向磁盤寫入記錄時已知所有列值，則面向行的寫也是有效的。但是這種方法不能有效地獲取行中的僅10％的列或者在寫入時所有列值都不知道的情況。這是Columnar文件更有意義的地方。所以Columnar格式在以下情況下工作良好

在不屬於查詢的列上跳過I / O和解壓縮
用於僅訪問列的一小部分的查詢。
用於數據倉庫型應用程序，其中用戶想要在大量記錄上聚合某些列。

RC和ORC格式是專門用Hive寫的而不是通用作為Parquet。

Parquet文件

Parquet文件是一個columnar文件，如RC和ORC。Parquet文件支持塊壓縮並針對查詢性能進行了優化，可以從50多個列記錄中選擇10個或更少的列。Parquet文件寫入性能比非columnar文件格式慢。Parquet通過允許在最後添加新列，還支持有限的模式演變。Parquet可以使用Avro API和Avro架構進行讀寫。

所以，總而言之，相對於其他，你應該會更喜歡序列，Avro和Parquet文件格式；序列文件用於原始和中間存儲，Avro和Parquet文件用於處理。

最後，小編這裡整理了更多的大數據相關學習，面試資料，更有 名師解讀的全套hadoop源碼視頻

關注轉發文章；後臺私信：“資料”。快來領取吧

分享到:

閱讀更多 大數據三十四號 的文章

關鍵字: Hadoop HDFS Spark

Hadoop：MapReduce多路徑輸入與多文件輸出詳解

Hadoop 偽分佈式搭建指南

Hadoop 數據科學

Hadoop DataBase學習筆記

一步一步學習大數據：Hadoop 生態系統與場景

Hadoop 安裝教程

php 操作 Hadoop

第四章 Hadoop 集群搭建

第七章 Hadoop 常用的 shell 命令

第二章 Hadoop 發展背景

不看就虧系列！這裡有完整的 Hadoop 集群搭建教程，和最易懂的 Hadoop 概念！

大數據開發學習，Hadoop-HDFS詳細介紹

03.04 大數據開發學習，Hadoop-HDFS詳細介紹

03.02 看完就能獨自把集群搭起來！Hadoop HDFS完全分佈式環境搭建詳解

03.01 Hadoop HDFS詳細操作

Hbase教程菜鳥教程：Hadoop Hbase入門簡介

Hadoop 3的主要優缺點

FastDFS、Hadoop、TiDB共同點與各自特點

Hadoop YARN：調度性能優化實踐

SQL ON HADOOP 技術框架彙總

Hadoop 數據管理平臺 Apache Falcon

深入淺出 Hadoop YARN

Hadoop、Spark等5種大數據框架對比，你的項目該用哪種？

Hadoop 企業級大數據管理平台CDH 安裝Hadoop組件

Hadoop 基本 Shell命令

揭祕Apache Hadoop YARN，第一部分：集群和YARN基礎

08.28 Hadoop 學習一:jdk配置

最全騰訊等BAT大數據面試99題：hadoop、java、spark、機器算法等

ELK hadoop hbase

系統學習大數據兩大框架 hadoop 和spark

如何系統的學習大數據框架 hadoop 和spark？

大數據計算常用的分布式計算組件——Hadoop、Storm以及Spark

Nutch-Hadoop-MongoDB搭建分佈式爬蟲

好程式設計師：hadoop job 日誌的查看

Hadoop 的主節點如何啓動java程序？

hadoop上運行python——hadoop streaming：搭建數據分析體系79篇

Hadoop 面試，來看這篇就夠了

Hadoop MapReduce v1 系統剖析

Hadoop 之上的數據建模-Data Vault 2.

Hadoop 回收站Trash知識點

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"