乾貨:50個大數據面試問題及答案第一篇:大數據面試入門級問題

10個大數據面試入門級問題

由於大數據在IT是比較吃香的,小編整理了一些關於大數據的面試題。

無論您是大數據領域的新手還是經驗豐富,都需要基礎知識。因此,讓我們來介紹一些常見的基本大數據面試問題以及破解大數據面試的答案。

乾貨:50個大數據面試問題及答案第一篇:大數據面試入門級問題

1.您對“大數據”一詞有何瞭解?

答: 大數據是與複雜和大型數據集相關的術語。關係數據庫無法處理大數據,這就是使用特殊工具和方法對大量數據執行操作的原因。大數據使公司能夠更好地瞭解其業務,並幫助他們從定期收集的非結構化和原始數據中獲取有意義的信息。大數據還允許公司採取數據支持的更好的業務決策。

2.大數據的五個V是什麼?

答:大數據的五個V如下:

Volume -Volume表示體積大,即以高速率增長的數據量,即以PB為單位的數據量

Velocity -Velocity是數據增長的速度。社交媒體在數據增長速度方面發揮著重要作用。

Variety -Variety是指不同的數據類型,即各種數據格式,如文本,音頻,視頻等。

Veracity -Veracity是指可用數據的不確定性。由於大量數據帶來不完整性和不一致性,因此產生了準確性。

Value -價值是指將數據轉化為價值。通過將訪問的大數據轉換為價值,企業可以創造收入。

大數據的5V

注意: 這是大數據訪談中提出的基本和重要問題之一。如果您看到面試官有興趣瞭解更多信息,您可以選擇詳細解釋五個V. 但是,如果您被問及“大數據”這一術語,甚至可以提及這些名稱。


乾貨:50個大數據面試問題及答案第一篇:大數據面試入門級問題


3.告訴我們大數據和Hadoop如何相互關聯。

答: 大數據和Hadoop幾乎是同義詞。隨著大數據的興起,專門從事大數據操作的Hadoop框架也開始流行起來。專業人員可以使用該框架來分析大數據並幫助企業做出決策。

注意: 這個問題通常在大數據訪談中提出。 可以進一步去回答這個問題,並試圖解釋的Hadoop的主要組成部分。

4.大數據分析如何有助於增加業務收入?

答:大數據分析對企業來說非常重要。它可以幫助企業將自己與眾不同並增加收入。通過預測分析,大數據分析為企業提供定製的建議和建議。此外,大數據分析使企業能夠根據客戶需求和偏好推出新產品。這些因素使企業獲得更多收入,因此公司正在使用大數據分析。通過實施大數據分析,公司可能會收入大幅增加5-20%的收入。一些使用大數據分析來增加收入的受歡迎公司是 - 沃爾瑪,LinkedIn,Facebook,Twitter,美國銀行等。

5.解釋部署大數據解決方案時應遵循的步驟。

答:以下是部署大數據解決方案所遵循的三個步驟

Ⅰ、數據攝取

部署大數據解決方案的第一步是數據提取,即從各種來源提取數據。數據源可以是像Salesforce這樣的CRM,像SAP這樣的企業資源規劃系統,像MySQL這樣的RDBMS或任何其他日誌文件,文檔,社交媒體源等。數據可以通過批處理作業或實時流來提取。然後將提取的數據存儲在HDFS中。

乾貨:50個大數據面試問題及答案第一篇:大數據面試入門級問題

部署大數據解決方案的步驟

II、數據存儲

在數據攝取之後,下一步是存儲提取的數據。數據存儲在HDFS或NoSQL數據庫(即HBase)中。HDFS存儲適用於順序訪問,而HBase適用於隨機讀/寫訪問。

III、數據處理

部署大數據解決方案的最後一步是數據處理。數據通過Spark,MapReduce,Pig等處理框架之一進行處理。

6.定義HDFS和YARN的相應組件

答: HDFS的兩個主要組成部分:

  • NameNode - 這是用於處理HDFS內數據塊的元數據信息的主節點
  • DataNode / Slave節點 - 這是作為從節點存儲數據的節點,供NameNode處理和使用
  • 除了提供客戶端請求之外,NameNode還執行以下兩個角色之一:
  • CheckpointNode - 它在與NameNode不同的主機上運行
  • BackupNode-它是一個只讀的NameNode,它包含不包括塊位置的文件系統元數據信息
乾貨:50個大數據面試問題及答案第一篇:大數據面試入門級問題

YARN的兩個主要組成部分:

  • ResourceManager-該組件接收處理請求,並根據處理需要相應地分配給各個NodeManager。
  • NodeManager-它在每個單個數據節點上執行任務

7.為什麼Hadoop可用於大數據分析?

答: 由於數據分析已成為業務的關鍵參數之一,因此,企業正在處理大量結構化,非結構化和半結構化數據。在Hadoop主要支持其功能的情況下,分析非結構化數據非常困難

存儲

處理

數據採集

此外,Hadoop是開源的,可在商用硬件上運行。因此,它是企業的成本效益解決方案。

8.什麼是fsck?

答: fsck代表文件系統檢查。它是HDFS使用的命令。此命令用於檢查不一致性以及文件中是否存在任何問題。例如,如果文件有任何丟失的塊,則通過此命令通知HDFS。

9. NAS(網絡附加存儲)和HDFS之間的主要區別是什麼?

答: NAS(網絡附加存儲)和HDFS之間的主要區別 -

HDFS在一組計算機上運行,​​而NAS在單個計算機上運行。因此,數據冗餘是HDFS中的常見問題。相反,複製協議在NAS的情況下是不同的。因此,數據冗餘的可能性要小得多。

在HDFS的情況下,數據作為數據塊存儲在本地驅動器中。在NAS的情況下,它存儲在專用硬件中。

10.格式化NameNode的命令是什麼?

答: $ hdfs namenode -format。

大數據面試資料

小編給大家整理一下關於大數據的相關的面試題,希望大家能夠喜歡。

獲取方式:轉發文章並私信【學習】即可獲取哦~~~


乾貨:50個大數據面試問題及答案第一篇:大數據面試入門級問題

乾貨:50個大數據面試問題及答案第一篇:大數據面試入門級問題

下集預告:乾貨|50個大數據面試問題及答案第二篇:10個大數據面試中級問題


分享到:


相關文章: