數據分析,需要做什麼準備?

1)只要喜歡,轉行永遠不遲

生命那麼長,怎麼會因為做了幾年某個方向的工作,就把自己的標籤貼牢了呢?就我個人經歷而言,我花了7年學習電路專業知識,花了1.5年從事電路設計工作,到頭來還是扎進了另一個毫不相干的行業。

2)別被高大上的名詞唬住,大數據的逼格沒有你想象的那麼高

即使是偏技術的數據挖掘端,我們平時大多數時間也是在清洗數據,而不是你想象的在鼓搗AI(人工智能)。

就我個人經歷而言,轉行之前我的知識全在硬件方面,軟件一竅不通(excel都用不咋溜),但只要你願意在別人打遊戲追劇逛街的時候,默默學習相關知識,你也可以攻下“大數據”。


數據分析,需要做什麼準備?

2.數據分析行業升級路線是怎樣的?

大部分應屆生,或者轉行的同學,對於數據分析行業的理解有較大偏誤(或者乾脆沒想過……)


所以我單獨提一章出來,從一個從業者的角度說說對數據分析行業的理解,希望能讓“數據分析行業”在你腦海中有一個清晰的地圖,也希望能夠幫助陷入轉行掙扎的你看清方向。

數據分析行業是大數據行業的兒子,它的兄弟姐妹包括:數據採集、數據工程、數據產品等。簡單來說,他們之間是這樣協作的:


數據分析,需要做什麼準備?

數據採集端主要負責採集相關的數據,這些數據既可以來自埋點,也可以來自爬蟲。採集量的話,京東平臺而言,月產品抽樣採集量一般在三千萬左右。

數據工程端簡單來說主要負責結構化存儲海量數據,使得采集到的數據以及歷史數據以最優化的方式被存儲以及調用,涉及到的知識點在於數據庫方面,從最基礎的SQL到Hadoop集群、分佈式存儲、NoSQL等。

數據分析端主要負責將待挖掘的數據清洗、挖掘、分析,給出數據背後的洞察和建議,此方向又可細分為偏業務的數據分析和偏技術的數據挖掘,後面我們細講。

數據產品端也可以理解為懂數據分析的產品經理,此方面我涉獵不多,就不多做評價啦。

下面重點講一講數據分析端。

數據分析較為新興,因此其崗位職責劃分也是各家有各家的說法,不過總體可以概括為以下兩個方向:

1. 偏業務的數據分析方向
2. 偏技術的數據挖掘方向


數據分析,需要做什麼準備?

我們分別說一說上面這個圖裡的職位。

偏業務方向的數據分析:

1)數據分析師(偏分析),此方向更看重邏輯思維,比如你思考框架的完整性、思維的靈活性。相比於比較傳統的商業分析師、行業分析師,除了對業務的深入理解之外,你需要有對數據有更敏銳的嗅覺。此方向是大多數人轉行大數據行業的起點,你需要熟練office軟件、excel等,薪資在大數據行業中處於中下水平。

2)數據分析師(偏數據),此方向更看重數據處理基礎,比如從數據庫中按需求取數、按需求統計數據等,相比偏分析的數據分析師,你需要更加熟練excel、sql等。當然,對業務的理解也非常重要,因為有時候你從數據出發的建議對分析端會有巨大幫助。此方向是從數據分析師向數據挖掘等技術崗升級的路線之一,你需要熟練sql、excel等,薪資相對偏分析的數據分析師有一定提升,但天花板不夠高。

偏技術方向的數據分析:

1)數據挖掘工程師,此方向更看重數據技術,比如統計學基礎、數據庫操作(SQL等)編程基礎(python等)、機器學習基礎(分類模型等),同時你還需要對業務有一定程度的理解(要不怎麼挖掘數據呢?)。

數據挖掘工程師的主要工作是利用已有的算法模型,對業務數據進行清洗、建模、分析(用輪子) 此方向薪資遠大於數據分析師,天花板也較高,不過升級有一定難度。

2)算法工程師,此方向更看重理論基礎,比如機器學習算法原理、相關數學原理等。算法工程師的主要工作一般是研究算法、為公司的相關業務需求優化算法(造輪子、修輪子、優化輪子)。

此方向薪資非常高,天花板也高,不過一是升級難度大,二是市場需求沒有數據挖掘等方向大,一般是大型大數據公司才會需要這個崗位,比如BAT(中小公司由於成本問題,一般用輪子就好,最多稍稍優化一下已有的輪子)

這就是目前數據分析行業的升級地圖,希望能夠幫助迷茫的你看清數據分析行業的樣子,更快找到適合自己的發展方向,少走彎路。

p.s. 以上技能要求我給的是最低要求,實際你應該掌握包括但不限於我給出的技能要求

3.學習路線、方法和資料有哪些?

相信我,只要你願意在別人打遊戲追劇逛街的時候,默默學習,你也可以攻下“大數據”,我的這條路是普適的,你也可以。

之前零基礎轉行數據分析,雖然買了很多課程、看了很多回答,我還是走了很多彎路,回想起來,如果有人能在那時給我一條清晰的升級路線和學習方向,我至少可以節省6個月的學習時間,所以當我有能力為後來者點明方向時,我會盡我所能為後來者理清學習方向。

下面是我的學習路線,為避免你看糊塗,我把我走的彎路去掉了,只留下從0到1這條直直的學習路線,如果你想轉行數據分析,多看幾遍,以後你會來感謝我的。

1.基礎篇(適用於初級數據分析師)

1)excel

關鍵知識點:excel基本函數(sumif,countif,left,rand等)、lookup(vlookup/hlookup),數據透視表

學習時長:一週(一天4小時算)

學習資源:個人不建議一來就搞一本厚厚的大部頭,根據我說的關鍵知識點,自行搜索用法+練習即可

2) sql

關鍵知識點:增刪改查,特別是條件查詢(where, group by, order by等)

學習時長:一週半(一天4小時算)3)python

關鍵知識點:numpy,pandas,matplotib,seaborn包的熟練使用

注意,python可以乾的事兒太多了,從web開發到算法模型,瞄準你的目標-數據分析,專注學我說的這幾個包就可以了

學習時長:6周(一天4小時算)

學習資源:《利用python進行數據分析》,主講numpy和pandas用法,瀏覽一遍,用作工具書

  • 4)統計學

關鍵知識點:概率論、假設檢驗、分佈(泊松、二項、正態等)、統計抽樣等

學習時長:3周(一天4小時)

學習資源:《深入淺出統計學》比較適合小白入門,書很厚,別怕,都是圖

2.進階篇(適用於中級數據分析師、數據挖掘工程師)

1)數學知識

關鍵知識點:線性代數:線性代數:矩陣運算,矩陣特徵(秩、跡、特徵值特徵矩陣、相似矩陣、正定矩陣、逆矩陣、非奇異、行列式)、線性相關,向量空間,向量範數,矩陣範數,最小二乘法,最大似然估計

微分:極限,導數,偏導數,泰勒展開,梯度下降法,牛頓法

凸優化:基本概念(凸集合,凸函數,上境圖,凸組合,凸包),凸優化(拉格朗日對偶性,對偶問題,KKT條件,拉格朗日乘數法)

學習時長:4周(一天4小時算,最好學過高等數學)最全的機器學習入門資料

2)數據挖掘算法

關鍵知識點:分類、迴歸、聚類、關聯規則挖掘、降維等

學習時長:4周先把分類迴歸理論和代碼搞定,剩下4周搞定後面的,理論理解更重要

學習資源:

《統計學習方法》經典,主講分類算法,偏理論推導

《機器學習實戰》過癮,對著《統計學習方法》來一套,保證你對理論明明白白

《機器學習》周志華老師的,也是經典

3)神經網絡

暫略

4.最後說幾個學習過程中的大坑。

想把所有板塊的知識學完再學下一個:錯!舉個例子,python可以做的事情太多了,你要把python學完再進行下一步麼?怎麼辦?學我說的關鍵知識點就夠了。

先學技術,在搞分析:錯!分析比技術門檻低得多,如果你想轉行數據分析,建議從偏分析的數據分析師入手,比如自己寫個分析報告作為敲門磚,技術可以在工作後利用下班時間學習。剩下的坑待補充。

相信我,只要你願意在別人打遊戲追劇逛街的時候,默默學習,你也可以攻下“大數據”。


分享到:


相關文章: