前言
作為剛剛入行的IT 的初級程序猿,一開始我也不知道什麼是大數據、java、python。但是有一次聽朋友說他也是程序員月入三萬。what?我為什麼拿著三四千的工資他卻拿著三萬的高薪?直到我見到他的腦門我才明白原來是有原因的!
剛剛學習這行的時候,也是讓人頭大。有時候多了一個空格就要浪費好幾個小時的時間去找出問題。其實我開始我也不知道為啥要入這行呢?每天加班加點的工作,不僅浪費了時間還虧了身體。有次看到一篇文章是由於太喜歡這個代碼的感覺。WC真是有錢人說話都是這麼的囂張,我自己也在想為什麼要學這玩意,現在知道我就是個俗人那就是為了money!
剛入行的時候少不了碰壁和錯的學習線路。下面是小編整理的一些學習路線,具體的快來私信小編獲取吧!希望大家可以找到一個適合自己的學習步伐,早日成為禿頭程序猿!
大數據大綱
Hadoop
- Hadoop是一個能夠對大量數據進行分佈式處理的軟件框架。 Hadoop 以一種可靠、高效、可伸縮的方式進行數據處理。
- Hadoop 是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分佈處理。
- Hadoop 是高效的,因為它以並行的方式工作,通過並行處理加快處理速度。
- Hadoop 還是可伸縮的,能夠處理 PB 級數據。
- 此外,Hadoop 依賴於社區服務,因此它的成本比較低,任何人都可以使用。
下圖是整理的關於Hadoop的大綱
Hive
- 支持索引,加快數據查詢。
- 不同的存儲類型,例如,純文本文件、HBase 中的文件。
- 將元數據保存在關係數據庫中,大大減少了在查詢過程中執行語義檢查的時間。
- 可以直接使用存儲在Hadoop文件系統中的數據。
- 內置大量用戶函數UDF來操作時間、字符串和其他的數據挖掘工具,支持用戶擴展UDF函數來完成內置函數無法實現的操作。
- 類SQL的查詢方式,將SQL查詢轉換為MapReduce的job在Hadoop集群上執行。
下圖是整理的關於Hive的大綱
Redis
Redis 是一個高性能的key-value數據庫。 redis的出現,很大程度補償了memcached這類keyvalue存儲的不足,在部 分場合可以對關係數據庫起到很好的補充作用。它提供了Python,Ruby,Erlang,PHP客戶端,使用很方便。
spark
Spark 主要有三個特點 :
- 首先,高級 API 剝離了對集群本身的關注,Spark 應用開發者可以專注於應用所要做的計算本身。
- 其次,Spark 很快,支持交互式計算和複雜算法。
- 最後,Spark 是一個通用引擎,可用它來完成各種各樣的運算,包括 SQL 查詢、文本處理、機器學習等,而在 Spark 出現之前,我們一般需要學習各種各樣的引擎來分別處理這些需求。
Flink
- Apache Flink的數據流編程模型在有限和無限數據集上提供單次事件(event-at-a-time)處理。在基礎層面,Flink程序由流和轉換組成。
- Apache Flink的API:有界或無界數據流的數據流API、用於有界數據集的數據集API、表API。
以上是小編大概整理了一些Hadoop、Flink、spark、Redis、Hive其他的一些由於文章限制,小編以文檔和視頻的形勢整理
獲取大數據大綱學習的線路方式:轉發文章並私信小編【學習】即可獲取哦~~~~
閱讀更多 Python大數據工程師 的文章