自學引路:從零開始學數據分析最佳路線,mark一下

讓自己站在巨人的肩膀上去學習,事半功倍.這裡邊羅列了最佳學習路線,供大家參考.

基本上就是這些:

看在線互動教程、打代碼,瞭解R的最基本的東西,大概能做哪些事情(比如計算一些線性迴歸),自己根據這些教程去做各種變化,做許多實驗,探索一下這個語言的基本語法和構造。

看一些入門書籍,比如 Introductory Time Series with R等等,給你展示怎樣用R來比較完整地解決一個問題。可以根據你的領域選擇類似的書籍。

開始用R解決一些統計、計量相關的計算性問題,比如用自己的數據跑一些模型,探索這些數據裡面可能有趣的東西。

在數據較為複雜一些的項目中使用R,發現數據操作能力太弱,開始接觸更深層的R概念,比如可以看 Data Manipulation With R (Phil Spector),形成更加系統的概念,逐漸掌握操作複雜一些的數據和對象的能力。

學習最流行的R擴展包的使用方法,發現整理數據和建模中的許多工作都大幅簡化,工作效率出現質的提升。

逐漸開始做更為複雜的項目,形成一整套數據處理、建模的技術和技巧,形成較為系統、完整的認識和知識結構,有較強的社區檢索能力,遇到問題能夠自行解決或者通過社區解決。

閱讀進階的書籍,例如 Hadley 的 Advanced R Programming,對R的底層和開發有了更加深刻和全面的認識,形成了使用R的基本直覺。

1. EXCEL、PPT(必須精通)

數據工作者的基本姿態,話說本人技術並不是很好,但是起碼會操作;要會大膽秀自己,和業務部門交流需求,展示分析結果。技術上回VBA和數據透視就到頂了。

2. 數據庫類(必須學)

初級只要會RDBMS就行了,看公司用哪個,用哪個學哪個。沒進公司就學MySQL吧。

NoSQL可以在之後和統計學啥的一起學。基本的NoSQL血MongoDB和Redis(緩存,嚴格意義上不算數據庫),然後(選學)可以瞭解各類NoSQL,基於圖的數據庫Neo4j,基於Column的數據庫BigTable,基於key-value的數據庫redis/cassendra,基於collection的數據庫MongoDB。

3. 統計學(必須學)

如果要學統計學,重要概念是會描述性統計、假設檢驗、貝葉斯、極大似然法、迴歸(特別是廣義線性迴歸)、主成分分析。這些個用的比較多。也有學時間序列、bootstrap、非參之類的,這個看自己的意願。

其他數學知識:線性代數常用(是很多後面的基礎),微積分不常用,動力系統、傅里葉分析看自己想進的行業了。

4. 機器學習(數據分析師要求會選、用、調)

常用的是幾個線性分類器、聚類、迴歸、隨機森林、貝葉斯;不常用的也稍微瞭解一下;深度學習視情況學習。

5. 大數據(選學,有公司要求的話會用即可,不要求會搭環境)

hadoop基礎,包括hdfs、map-reduce、hive之類;後面接觸spark和storm再說了。

6. 文本類(選學,有公司要求的話會用即可)

這部分不熟,基本要知道次感化、分詞、情感分析啥的。

7. 工具類

語言:非大數據類R、Python最多(比較geek的也有用julia的,不差錢和某些公司要求的用SAS、Matlab);大數據可能還會用到scala和java。

可視化(選學):tableau、http://plot.ly、d3.js、echarts.js,R裡面的ggplot、ggvis,Python裡的bokeh、matplotlib、seaborn都不錯

數據庫語言:看你自己用啥學啥

其他框架、類庫(選學):爬蟲(requests、beautifulsoup、scrapy),日誌分析(常見elk)

附一張圖

自學引路:從零開始學數據分析最佳路線,mark一下


分享到:


相關文章: