我的數據分析師轉型之路,從零到字節跳動數據分析師

​文章字數約4000字,閱讀時間約10分鐘

從一個什麼都不懂的小白,到現在字節跳動的數據分析師,我用了大概1年的時間,在這裡想給大家分享一下我的轉行經歷,希望能有一些幫助。

我的數據分析師轉型之路,從零到字節跳動數據分析師


出於隱私考慮,我就全部打碼了。。。

先說一下個人背景,本科是工科相關,非計算機非統計學,碩士是金融相關,基本也算是和數據分析沒什麼關係,畢業之前有過迷茫,因為自己其實也不知道到底適不適合金融行業,而且上學的時候沒有認真搞過什麼銀行、券商的實習,基本畢業就是涼涼的節奏。所幸畢業前,在和友人的一次偶然交談中,得知了數據分析這個職業,發現自己似乎比較感興趣,當時也沒有其他路可以選,就決定孤注一擲,all in 數據分析,在此也感謝一下那位友人,人生確實是在於你能否做對幾個關鍵的選擇。

決定轉型後,先是到網上惡補了一下數據分析師這個行業的整體情況,現在數據分析師其實很雜,不同企業對數據分析師有不同的定位,但大概總結一下的話,是可以分為兩種:

偏技術型數據分析師和偏業務性數據分析師

技術型分析師更接近於數據挖掘工程師、算法工程師、大數據工程師這種概念,一般來說是需要比較好的數據結構知識和算法知識,對於非計算機專業的同學,轉型會有一定難度。其實一開始我考慮的是這種分析師,但在後面刷了幾百道leetcode題之後,決定放棄這條路(太難了)。

第二種就是偏業務型的數據分析師,也是市面上崗位最多的數據分析師,這種分析師的門檻會相對比較低一點,但做不好的話,很有可能就變成報表分析師,提數分析師。不過畢竟門檻還是比較低的,對於想轉型的同學,業務型數據分析師會更加友好一些

明確了轉型方向後,對於從零轉型的同學來說,會有兩個比較迫切的問題,我該從什麼地方下手和我簡歷上啥都沒有怎麼辦。對於第一個問題,我的選擇是先列了一個我認為的業務型數據分析師所需要的能力矩陣,再針對性準備,簡單來說主要包括這幾個層面:

我的數據分析師轉型之路,從零到字節跳動數據分析師


基本工具

數據分析師三板斧:Excel、SQL、Python

Excel、SQL、python是數據分析師必知必會的3個基本工具,下面我們一個個來看:

Excel

對於Excel的學習,如果你的意向的崗位不是那種純excel的數據分析師崗位的話,建議大家不需要花費太多時間在excel上,我個人是幾乎沒花什麼時間在excel上,主要的是要掌握vlookup、透視表和一些常用圖表,不會的函數就直接百度。

SQL

核心!sql一定要熟,筆試基本必考,面試時候大概率讓你手撕sql,寫不出的話很容易涼涼。對於sql的學習,完全沒有基礎的同學可以先看這本《sql必知必會》,瞭解sql的一些基本知識,增改刪查,主要看查詢的部分。

我的數據分析師轉型之路,從零到字節跳動數據分析師


看完這本書後你對sql的語法應該有了一些基本的瞭解,但如果不多練習的話,面試手寫sql的那種場景,腦子很容易宕機,在這裡強推幾個練習網站。

1.牛客網編程

牛客網在線編程,強力推薦,可以自動批改sql正誤,純中文,還有題目講解,這個題庫我刷了2遍

我的數據分析師轉型之路,從零到字節跳動數據分析師


2.Leetcode

也是一個比較知名的網站了,學計算機的可能都知道。英文的代碼在線練習網站,但今天看了一下發現有中文了,但是很多題目都變成了收費題目,牛客網刷完感覺不夠的話可以再來這看看

我的數據分析師轉型之路,從零到字節跳動數據分析師


總結一下:對於sql的掌握就是看書瞭解基礎,多刷題鞏固,在面試中一般問題不大,當然也不排除有一些變態sql筆試題,這種就看緣分了。

Python

相對上面兩個工具,python的學習難度會稍微大一些。python能幹很多事,對於數據分析師來說,主要應掌握基礎語法和數據科學的模塊,主要包括pandas numpy 和機器學習庫sklearn等,有同學可能會問業務型數據分析師也需要會算法嗎?答案是雖然不是必須項,但是加分項,尤其是在從零轉型情況下,是增加自己份量的一個籌碼。

對於python的學習,建議大家不要報班交智商稅,在coursera上有大把的資源,我學習的是密歇根大學的python課程《Python for everybody》,看完入門的話不是問題,課程是免費的。

我的數據分析師轉型之路,從零到字節跳動數據分析師


學完這個課程你對python就有基本的瞭解了,但和sql一樣,還是需要多練多運用才能真正融匯貫通。那麼怎麼練習python呢,在這裡推薦一個可能很多人都知道的數據競賽平臺,沒錯就是kaggle,相信不少人都看過泰坦尼克號生存預測這個項目,這個項目的來源就是kaggle。在kaggle上打比賽,既能讓你練習python,又能讓你有一些項目可以放到簡歷上,一舉兩得。

我的數據分析師轉型之路,從零到字節跳動數據分析師


紅圈內就是泰坦尼克項目

入門的話可以先從泰坦尼克或者房價預測入手,但放到簡歷上的話,建議大家挑幾個正式的比賽去做一下,這兩個項目過於氾濫,含金量比較低了。我在kaggle裡面打過很多個項目,最後選擇了一個信用卡違約風險預測的項目,《Home Credit Default Risk》放到了簡歷上,除了kaggle之外,還有其他很不錯的數據比賽平臺,後面在項目篇會給大家再詳細講一下。

數據分析理論知識

統計學和機器學習兩手都要抓、兩手都要硬

理論知識這塊,數據分析師最需要掌握知識是統計學和機器學習,但掌握到什麼程度、掌握哪些領域,還是有些門道。

統計學

如果不是統計學專業的同學,一般面試官心裡都有數,不會問你很難的問題,大學統計學範疇。對於統計學基礎不怎麼好,或者已經忘乾淨的同學,可以看網易公開課裡可汗學院的課程惡補一下,我在準備的時候複習了一遍,感覺效果不錯,撿回了不少遺忘的知識。​如果說沒有時間看完全部課程,應該重點掌握哪塊知識呢?

假設檢驗,假設檢驗,假設檢驗,重要的事情說3遍,假設檢驗絕對是面試中統計學最高頻的問題,和以後的工作也會最息息相關(a/b test)。

我的數據分析師轉型之路,從零到字節跳動數據分析師


機器學習

機器學習相關的知識學習成本會比較高,對某些同學來說可能會有一定難度,但對於業務型數據分析師來說,一般不會要求你去推導算法公式,能做到明白不同算法的適用場景、優缺點、原理大概懂就基本可以了。

在機器學習這一塊,我的學習路徑是這樣的:


視頻課程:

首先入門強推吳恩達大牛的coursera(www.coursera.org)機器學習課!!千萬別花錢報班了,入門看這個就夠了!

我的數據分析師轉型之路,從零到字節跳動數據分析師


看完覺得不過癮想要進階的話,可以繼續看吳恩達大牛斯坦福大學的公開課,難度會比coursera上的課程更高一些,對於可以翻牆的同學,可以去youtube上找臺灣國立大學林軒田老師的《機器學習基石》和《機器學習技法》,難度會再高一些。我當時是連續刷完了這3門課程,雖然刷完之後部分知識還是有理解不夠深入的情況,但應付面試已經差不多了。

我的數據分析師轉型之路,從零到字節跳動數據分析師


youtube機器學習課程

書籍

閱讀書籍可以幫助你更好的把知識沉澱下來,除了上面視頻課程之外,我還刷了2本書籍。第一本是西瓜書,第二本書是李航的統計學習方法,這兩本就不用多說了,經典讀物。內容可以挑著看,主要看一下常用的機器學習模型,svm、隨機森林之類的。

我的數據分析師轉型之路,從零到字節跳動數據分析師


我的數據分析師轉型之路,從零到字節跳動數據分析師


數據分析項目實戰

kaggle打的好,工作也好找

如果你已經學完了上面的python和機器學習課程的話,就可以進入實戰階段了,我的選擇是去打比賽,既可以鞏固學到的知識同時又可以解決簡歷中沒有相關項目的問題。

打比賽和真實的數據分析工作其實非常接近,對於大部分常規數據科學比賽而言(比如泰坦尼克號/房價預測這種),大部分人的模型最後其實都大差不差,lgb/xgb搞一搞,再做個模型融合,決定成績好壞的關鍵往往是在特徵工程上,有時候一個magic feature就能讓你的排名上升數百名。magic feature從何而來?是來自你對比賽業務的理解,只有你真正理解了業務,才能構思出好的特徵,從而取得好的名次,這個業務型數據分析師的本質也是相通的,理解業務,改進業務。

我舉個簡單的例子,以我做的信用卡風險項目為例,比賽目標是根據用戶的個人信息和一些行為數據來判斷用戶是否會違約。其中有一個特徵是用戶的工資,第二個特徵是用戶信用卡已使用的額度,從業務的角度考慮,如果一個用戶使用信用卡的額度遠高於他的工資,那麼這個用戶是不是很有可能就沒有錢還信用卡,違約風險會比較大?基於這個假設,我設計了一個 信用卡使用額度 / 工資的特徵,經過可視化發現,確實是這個比值越大,用戶違約的風險就會越高,把這個特徵放到模型裡面,我的模型分數有了顯著的提高。

這個就是一個基於業務理解做出假設、通過數據驗證假設、改進業務的閉環,這也是你在面試中,應該向面試官表達的。

下面推薦幾個常見的數據科學比賽平臺:

1. Kaggle

首推,強烈推薦!kaggle的優勢不僅在於比賽眾多,更重要的是裡面會有很多選手分享他們的思路和代碼,是分享做的最好的一個平臺,我的python和數據挖掘基本就是從kaggle練起來的。

2. 阿里天池

國內最有牌面的數據比賽平臺,如果你能在阿里天池拿一個不錯的名次,含金量就相當高了,但是難度很大,對於轉型的同學基本不太可能,可以看看新人賽和一些分享之類的。

3.DataFountain

某數據比賽平臺,難度相對天池會低一些,且比賽內容對於國內hr來說,可能會更熟悉一些,在這個平臺上,我打了一個招商銀行的比賽,1867個參賽選手中拿到了第34名,算是成績最好的一次。

我的數據分析師轉型之路,從零到字節跳動數據分析師


數據分析思維

沒有比這個更重要的能力了

分析思維是數據分析師最最核心的競爭力,上面所學習的python、sql、機器學習知識等都是在工具層面,要想使用好他們,還需要分析思維的駕馭。在面試中,對分析思維的考察也是相當重要的一環。

對於分析思維的學習,我建議新人也是從讀書開始,我看過的且比較推薦的書包括:

數據分析類:

《精益數據分析》、《增長黑客》、《數據化管理:洞悉零售及電子商務運營》、《數據挖掘與數據化運營實戰 思路、方法、技巧與應用》

產品思維類,如果是想要從事互聯網行業的數據分析師的話,產品思維也是必須要具備的,面試考察點之一

《從點子到產品:產品經理的價值觀與方法論》、《俞軍產品方法論》、《產品思維》

邏輯思維類:在面試中邏輯清晰的回答面試官的問題,會為你大大的加分

《金字塔原理》、《學會提問》、《麥肯錫思維》

看完這些書,我相信你已經具備了基本的數據分析思維。但書中的知識和實際工作畢竟還是有一些差距,在這裡我結合我的工作經驗,給大家列幾個數據分析師真實工作場景中常遇到的問題,問題會比較偏向互聯網行業,其他行業的同學可以作為參考。

1、假設抖音的人均活躍時長下降了,你該如何分析這個問題?

2、網易雲音樂之前有一個每天給你推10首歌的功能,如果讓你設計指標來衡量這個功能的效果,你會設計哪些指標?

3、很多信息流app在新用戶第一次註冊時,都會讓他們去選擇興趣標籤,如果想讓你做這個功能的專題分析,你會怎麼設計你的報告框架?

最後,希望大家都能找到理想的工作。


分享到:


相關文章: