大數據開發零基礎學習常見的20個相關概念

很多零基礎轉來學習大數據開發的童鞋,對大數據開發常見的相關概念有哪些,怎麼理解會有不太清楚的地方,今天加米穀就來簡單總結一下大數據開發常見的相關概念。

大數據開發零基礎學習常見的20個相關概念

1、Linux [ˈlinʊks]

一種計算機操作系統,一套免費使用和自由傳播的類Unix操作系統,是一個基於POSIX和UNIX的多用戶、多任務、支持多線程和多CPU的操作系統。從開發之初就不是針對普通大眾的,而是專門從事計算機行業的人員。大數據的發展是基於開源軟件的平臺,Linux佔據優勢, 大數據的分佈式集群( Hadoop,Spark )都是搭建在多臺 Linux 系統上,對集群的執行命令都是在 Linux 終端窗口輸入的。

Linux主要以命令行的方式操作,大部分Linux發行版發中文支持不太好,如果你是和Linux打交道,每天看到的都是英文,中文少之又少,學Linux英語也很重要,需要你來掌握計算機大量的名詞和術語英語。

2、Java ['dʒɑːvə]

一種編程語言,當前軟件開發行業應用最廣、就業量最大的編程語言,在各類編程語言排行榜長期位列第一。是企業軟件開發的首選語言,也是Android系統的開發語言。可以從事網站開發、桌面程序設計、遊戲開發、安卓後臺開發、全棧開發等。

Java可以說是大數據最基礎的編程語言,一是大數據的本質是海量數據的計算,查詢與存儲,後臺開發很容易接觸到大數據量存取的應用場景;二是Java天然的優勢,大數據的組件很多是用Java開發的。

3、Shell [ʃel]

在計算機科學中,Shell俗稱殼(用來區別於核),是指“為使用者提供操作界面”的軟件(命令解析器)。它接收用戶命令,然後調用相應的應用程序。

Shell本身是一個用C語言編寫的程序,是Linux/Unix的一個外殼,理解成衣服也行。它負責外界與Linux內核的交互,接收用戶或其他應用程序的命令,然後把這些命令轉化成內核能理解的語言,傳給內核,內核是真正幹活的,幹完之後再把結果返回用戶或應用程序

4、Maven ['mevn]

一種項目對象模型,可以通過一小段描述信息來管理項目的各種依賴之間的關係,是一個項目管理工具軟件。大數據自動化構建、部署工具,包括安裝部署與配置、Maven倉庫、MavenPOM等。

5、Git [ɡɪt]

Git是一個開源的分佈式版本控制系統,可以有效、高速地實現從很小到非常大的項目版本管理。Git 是 Linus Torvalds 為了幫助管理 Linux 內核開發而開發的一個開放源碼的版本控制軟件。

6、GitHub [ɡthb]

GitHub是一個基於網站和雲的服務,可以幫助開發人員存儲和管理他們的代碼,以及跟蹤和控制對代碼的更改;是一家營利性公司,提供基於雲的Git存儲庫託管服務。使個人和團隊更容易使用Git進行版本控制和協作;是一個開源社區,開發人員可以在這分享自己的項目,去學習、討論和研究其他人放在 GitHub 開源項目。零基礎轉行學習大數據,加米穀大數據培訓,大數據開發零基礎班正在報名中...

大數據開發零基礎學習常見的20個相關概念

7、Hadoop [ha'du:p]

Apache開源組織的一個分佈式基礎框架,提供了一個分佈式文件系統 (HDFS)、分佈式計算(MapReduce)及統一資源管理框架(YARN)的軟件架構。

分佈式系統是指運行在網絡上臺計算機之上的軟件和系統,與我們熟悉的windows只運行在單個計算機上不同。

8、HDFS(Hadoop Distribute File System)

Hadoop體系中數據存儲管理的基礎,是分佈式文件系統,提供對應用程序數據的高吞吐量,高伸縮性,高容錯性的訪問。


  • 將大文件、大批量文件,分佈式存放在大量服務器上,以便於採取分而治之的方式對海量數據進行運算分析;
  • 在大數據系統中作用:為各類分佈式運算框架(如:mapreduce,spark,tez,……)提供數據存儲服務


9、MapReduce [mæp rɪ'dʊs]

MapReduce是一種編程模型,是一個分佈式計算模型,用於大規模數據集(大於1TB)的並行運算,由Map和Reduce組成,用以進行大數據量的計算。

10、YARN(Yet Another Resource Negotiator)

是一個快速、可靠、安全的依賴管理工具,是分佈式資源管理器,用於將資源調度和任務調度分開。

11、Hive [haɪv]

Hive是基於Hadoop的一個數據倉庫工具,可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。

12、HBase [eɪtʃ beɪs]

是一個分佈式的、面向列的開源數據庫,是一個適合於非結構化數據存儲的數據庫。

結構化數據一般是指類似Excel表這樣的結構,比如word文檔,圖片、視頻等就屬於非結構化的數據。

13、Zookeeper ['zu:ki:pər]

一個分佈式的,開放源碼的分佈式應用程序協調服務。提供的功能包括:配置維護、域名服務、分佈式同步、組服務等。最為主要的使用場景,是作為分佈式系統的分佈式協同服務。

大數據開發零基礎學習常見的20個相關概念

14、Spark [spɑːrk]

專為大規模數據處理而設計的快速通用的計算引擎,用來構建大型的、低延遲的數據分析應用程序。可用它來完成各種各樣的運算,包括 SQL 查詢、文本處理、機器學習等。

Spark是與 Hadoop 相似的開源集群計算環境,它擴展了MapReduce計算模型,高效的支撐更多計算模式,包括交互式查詢和流處理。

15、Scala [ˈskɑːlə]

一種類似Java的編程語言,面嚮對象語言,並且具備函數式編程特性,構建在jvm之上的,因此可以和Java進行無縫互操作。Spark 是在 Scala 語言中實現的,將 Scala 用作其應用程序框架。

16、Kafka [ˈkɑfkə]

由Apache軟件基金會開發的一個開源流處理平臺,由Scala和Java編寫,是一種高吞吐量的分佈式發佈訂閱消息系統,它可以處理消費者規模的網站中的所有動作流數據。

17、Flume [fluːm]

是一個分佈式、高可靠的數據採集系統,能夠將不同數據源的海量日誌數據進行高效收集、聚合、移動,最後存儲到一箇中心化數據存儲系統中。

18、Storm[stɔːm]

一個免費並開源的分佈式實時計算系統,用於在分佈式系統上實現實時處理消息並更新數據庫,也可以用於對數據流做連續查詢,一邊計算,一遍把結果輸出給用戶。零基礎轉行學習大數據,加米穀大數據培訓機構,大數據開發零基礎班正在報名中...

大數據開發零基礎學習常見的20個相關概念

19、Flink [fliŋk]

是一個框架和分佈式處理引擎,是一個面向數據流處理和批量數據處理的可分佈式的開源計算框架,能夠支持流處理和批處理兩種應用類型。Flink設計為在所有常見的集群環境中運行,以內存速度和任何規模執行計算。

20、Apache [əˈpætʃi]

使用最廣泛的 Web 服務器軟件。是由 Apache Software Foundation 開發和維護的,是一個免費提供的開源軟件,快速,可靠,安全。

Apache軟件基金會(Apache Software Foundation,簡稱為ASF)是專門為運作一個開源軟件項目的Apache 的團體提供支持的非盈利性組織,這個開源軟件的項目就是 Apache 項目。

Apache開源協議,全名Apache Licence,是著名的非盈利開源組織Apache採用的協議。

大數據時代各種技術日新月異,想要保持競爭力就必須得不斷地學習。寫這些文章的目的是希望能幫到一些人瞭解學習大數據相關知識 。加米穀大數據,大數據人才培養機構,喜歡的同學可關注下,每天花一點時間學習,長期積累總是會有收穫的。


分享到:


相關文章: