超級菜鳥想學數據分析?掌握這些工具很重要

對於超級菜鳥來說,首要任務是要了解什麼是數據分析?

數據分析是一種從數據中獲取洞見,並驅動商業決策的知識發現行為。

這裡分兩點來講,一是如何從數據中獲取洞見?數據往往是冰冷的,不會說話,作為專業的數據分析人員,無疑是要具備非常豐富的業務知識,才能通過數據知道已經發生了什麼?即將要發生什麼?諸如python、excel、Fine BI是實現數據分析挖掘的重要工具,很多初學者往往重視工具,而忽略作為數據分析人員應該要具備的專業素養。

二是如何驅動商業決策?這可能不是普通數據分析師所能決定的層面,但作為優秀的數據分析人員,需要具備敏銳的商業眼光。單純的數據分析結果是沒有任何助益的,將分析結果與真實場景結合,產生有指導性的結論,才是一個數據分析師的價值所在。

我知道,大家很在意怎麼去學習數據分析過程,對於python、R、sql、tableau、FineBI等等充滿了疑惑和嚮往,這也是我當初接觸數據分析時候的心態。很多東西要學,該學哪一樣?怎麼學習?學到什麼程度?下面就要講到數據分析工具。

分析工具的選擇

一般來說,如果想要成為高階的數據分析師,至少要掌握三類工具——自助式BI工具、取數工具、編程語言。這三類工具的選型標準都是不一樣的,對於超級菜鳥來說,優先級是先學會自助式工具,保證能夠儘快上手數據分析,掌握數據分析的基本知識;其次,再學一種取數工具,接觸數據庫的概念;最後,再高一等級要學會編程,甚至是數據分析庫,具體選型我下面一一介紹。

1、自助式BI工具

什麼叫做自助式分析工具呢?其實很簡單,就是專門面向業務人員的BI分析工具,可以完全擺脫IT人的束縛,對於超級菜鳥來說,學習成本和門檻也比較低,能夠很容易上手,獨立完成數據分析工作。

超級菜鳥想學數據分析?掌握這些工具很重要

這裡我推薦FineBI,它是一種能連接各類數據源,對原始數據(尤其是大數據量)進行快速分析,製作明細報表和酷炫可視化圖表的工具,在IT信息部門分類準備好數據業務包的前提下,給與數據,讓業務人員或領導自行分析,滿足即席數據分析需求,是分析型產品。

其實FineBI的使用感同Tableau類似,都主張可視化的探索性分析,有點像加強版的數據透視表。上手簡單,可視化庫豐富。可以充當數據報表的門戶,也可以充當各業務分析的平臺。

而對於新手來說,FineBI的學習難度比較低,但是分析性能很強大,更重要的是個人版免費,完全可以支持個人進行自助式分析;即使你已經成為了企業的數據分析師,仍然需要FineBI來脫離IT部門,去IT化是一種大趨勢,所以說不得不學。

(下載鏈接見文末)

超級菜鳥想學數據分析?掌握這些工具很重要

2、取數工具

一般企業的數據保存在本地數據庫或者公有云裡,有的會採用mysql、oracle、mongodb等,有的會採用hbase、parquet等。我會建議初學者把sql學精,有餘力者可以看看hbase、parquet等大數據存儲方式。

sql是數據領域最常用的語言,無論是hive、spark、flink都支持sql,以至於機器學習也支持sql,像阿里開源的sqlflow。sql永不落伍。

超級菜鳥想學數據分析?掌握這些工具很重要

3、編程語言

Python和R是數據分析領域的絕代雙驕,我覺得這兩個都適合作為數據分析的核心語言,但最好選擇一個來學。

由於很多諮詢我的人問的都是關於python的問題,我自己也是在用python工作,所以這裡講一下用python來做數據分析的利與弊。

python這幾年的火爆程度堪稱編程界的小鮮肉,雖然它誕生也快30年了,但風頭正勁。作為一門高級編程語言,python除了不善於開發底層應用,幾乎可以做任何事情。拿數據分析來說,從數據庫操作、數據IO、數據清洗、數據可視化,到機器學習、批量處理、腳本編寫、模型優化、深度學習,python都能完美地完成,而且提供了不同的庫供你選擇。

超級菜鳥想學數據分析?掌握這些工具很重要

除此之外,Jupyter notebook是進行數據分析非常優秀的交互式工具,為初學者提供了方便的實驗平臺。

4、數據分析庫

除了上面提高的三類工具,其實還有一類數據分析庫,是比較適合高等數據分析師的,如果你還是一名剛剛入門的新手,可以忽略這一小節的內容。

pandas是一款不斷進步的python數據科學庫,它的數據結構十分適合做數據處理,並且pandas納入了大量分析函數方法,以及常用統計學模型、可視化處理。如果你使用python做數據分析,在數據預處理的過程,幾乎九成的工作需要使用pandas完成。

numpy是python的數值計算庫,包括pandas之類的很多分析庫都建立在numpy基礎上。

numpy的核心功能包括:

  • ndarray,一個具有矢量算術運算和複雜廣播能力的快速且節省空間的多維數組。
  • 用於對整組數據進行快速運算的標準數學函數(無需編寫循環)。
  • 用於讀寫磁盤數據的工具以及用於操作內存映射文件的工具。
  • 線性代數、隨機數生成以及傅里葉變換功能。
  • 用於集成由C、C++、Fortran等語言編寫的代碼的A C API。

numpy之於數值計算特別重要是因為它可以高效處理大數組的數據。這是因為:

  • 比起Python的內置序列,numpy數組使用的內存更少。
  • numpy可以在整個數組上執行復雜的計算,而不需要Python的for循環。

matplotlib和seaborn是python主要的可視化工具,建議大家都去學學,數據的展現和數據分析同樣重要。

sklearn和keras,sklearn是python機器學庫,涵蓋了大部分機器學習模型。keras是深度學習庫,它包含高效的數值庫Theano和TensorFlow。​

最後

FineBI5.0個人免費版下載地址獲取方式,見下方評論區↓↓↓


分享到:


相關文章: