零基礎的人,怎麼自學數據分析?

蝗蟲的大腿噠


怎麼入門數據分析?

1、打好概率與統計的基礎

概率與統計是數據分析的基石,像一些概率分佈、抽樣、線性迴歸、時間序列都是數據分析當中經常會用到的,可以說日常碰到的大部分的分析需求都可以用統計分析來解決。

2、掌握數據庫技能

做數據分析離不開查詢數據庫,這裡主要涉及的是SQL。對於傳統的數據庫如MySQL,SQL Server,Oracle,或者大數據平臺Hadoop,都可以通過SQL查詢的方式來獲取數據。

3、掌握Python或者R

Python和R是數據分析當中最常用的兩門語言。R是為數據分析而生的一門語言,但Python在數據分析方面有後來居上的趨勢。

4、機器學習

數據分析如果繼續深入的話,可以學習機器學習。機器學習涉及的理論主要是分類、迴歸、聚類、決策樹、貝葉斯定理等。

相關:大數據分析學習的詳細解讀

https://www.toutiao.com/i6616593013986558471/

數據科學,數據分析和機器學習之間的差異

https://www.toutiao.com/i6592350285857817102/

https://www.toutiao.com/i6630975917390823943/


Spark大數據開發


講理論的多,我來一些實際經歷

數據分析如何開始?

我最早做數據分析是從網站統計開始的,從CNZZ到Google Analytics都有用過。我們能夠這些地方知道什麼呢?網站流量,用戶情況,行為統計等等。以GoogleAnalytics為例,以下是我一個網站的流量圖:

從這個圖裡面,我們可以看出什麼呢?用戶數有多少,每個用戶訪問幾個網頁,每個用戶停留多長時間,跳出率有多高等等。

如果你是第一次看到這種圖,那你肯定是一頭霧水,WTF?什麼是跳出率?什麼是平均會話時長?

這也是開始學習的過程,接觸到陌生概念,就去了解,不要因為一個概念不懂就停止學習。

經過一段時間的瞭解,我們學會了各個名詞是什麼意思,例如我們發現跳出率太高了,那麼就證明網站存在某些問題,導致了用戶很容易流失。那麼我們就進一步, 查看用戶的行為數據,例如熱點圖,點擊圖等等,分析是什麼地方導致了這個問題。

PS:圖上這個跳出率算是很低了,還不錯。

這個圖是流量獲取概覽圖,我們可以通過這個圖來了解流量是從哪來的,這也能幫助我們做流量的優化甚至引流的工作。

不要嫌網站統計顯得low,基礎數據分析都是從這個開始的。

接下來可以著手去搞一些自己感興趣的數據,當然,這可能需要學習爬蟲知識,一些數據庫的知識。

你可以爬歌詞,看大家在唱什麼,也可以把公司的訂單倒入,看訂單有什麼規律,還可以把女朋友的微博全部拿出來,看她到底對什麼感興趣。

這些,其實都是數據分析的應用,從簡單的,基礎的,自己感興趣的開始,加油吧騷年


超級王登科


優秀的數據分析師並不能速成,但是零經驗也有零經驗的捷徑。

市面上有《七週七數據庫》,《七週七編程語言》。今天我們就《七週七學習成為數據分析師》,沒錯,七週。

第一週:Excel學習掌握

如果Excel玩的順溜,可以略過這一週。但很多人並不會vlookup,所以有必要講下。

瞭解sum,count,sumif,countif,find,if,left/right,時間轉換等。excel的各類函數很多,完全不需要學全。重要的是學會搜索。我學函數是即用即查,將遇到的問題在網上搜索得到所需函數。

重中之重是學會vlookup和數據透視表。這兩個對後續的數據轉換有幫助。

學會vlookup,SQL中的join,Python中的merge能很快掌握。

學會數據透視表,SQL中的group,Python中的groupby也是同理。

這兩個搞定,基本10萬條以內的數據統計沒啥難度,也就速度慢了點。80%的辦公室白領都能秒殺。

網上多找些習題做,Excel是熟能生巧。

養成一個好習慣,不要合併單元格,不要過於花哨。表格按照原始數據、加工數據,圖表的類型管理。

附加學習:

1、瞭解中文編碼utf-8,ascii的含義和區別

2、瞭解單元格格式,幫助你瞭解後期的timestamp,date,string,int,bigint,char,factor等各類格式。

3、如果時間還有剩餘,可以看《大數據時代》,培養職業興趣。

第二週:數據可視化

數據分析界有一句經典名言,字不如表,表不如圖。別說平常人,數據分析師自己看數據也頭大。這時就得靠數據可視化的神奇魔力了。

以上就是所謂的可視化。排除掉數據挖掘這類高級分析,不少數據分析師的平常工作之一就是監控數據觀察數據。

另外數據分析師是需要兜售自己的觀點和結論的。兜售的最好方式就是做出觀點清晰數據詳實的PPT給老闆看。如果沒人認同分析結果,那麼分析也不會被改進和優化,分析師的價值在哪裡?工資也就漲不了對吧。

抽空花一段時間學習可視化的基礎,如《數據之美》

另外你還需要了解BI的概念。知名的BI產品有Tableau,Power BI,還有國產的FineBI等。都有體驗版和免費版能下載,網上找一點數據就能體驗可視化的魅力。比Excel的圖表高級多了。

BI需要了解儀表盤Dashboard的概念,知道維度的聯動和鑽取,知道絕大多數圖表適用的場景和怎麼繪製。比如以下FineBI製作的dashboard。

第三週:分析思維的訓練

這周我們輕鬆一下,學學理論知識。

分析思維首推大名鼎鼎的《金字塔原理》,幫助數據分析師結構化思維。如果金字塔原理讓你醍醐灌頂,那麼就可以學思維導圖,下載一個XMind中文網站,或者在線用百度腦圖。

再瞭解SMART、5W2H、SWOT、4P理論、六頂思考帽等框架。這些框架都是大巧不工的經典。你要快速成為數據分析師,思考方式也得跟著改變。網上搜諮詢公司的面試題,搜Case Book。

題目用新學的思維導圖做,先套那些經典框架,做一遍,然後去看答案對比。因為要鍛鍊數據分析能力。所以得結合數據導向的思維。

這裡送三條金句:

一個業務沒有指標,則不能增長和分析

好的指標應該是比率或比例

好的分析應該對比或關聯。

舉一個例子:我告訴你一家超市今天有1000人的客流量,你會怎麼分析?

這1000人的數量,和附件其他超市比是多是少?(對比)

這1000人的數量比昨天多還是少?(對比)

1000人有多少產生了實際購買?(轉化比例)

路過超市,超市外的人流是多少?(轉化比例)

這是一個快速搭建分析框架的方法。如果只看1000人,是看不出分析不出任何結果。

第四周:數據庫學習

Excel對十萬條以內的數據處理起來一點不虛,但是資深的數據分析師還是笑摸狗頭,Too Young Too Sample,爺搞得都是百萬數據。要百萬數據,就得上數據庫。

SQL是數據分析師的核心技能之一。有些公司並不給數據庫權限,需要分析師寫郵件提需求,這非常不好。數據分析師經常有各類假設需要驗證,很多時候寫十幾行SQL就能得到的答案,還得麻煩其他部門導出數據。

SQL學習不需要買書,W3C學習就行了,SQL 教程。大多數互聯網公司都是MySQL,我也建議學,性價比最高。

作為數據分析師,只要懂Select相關,增刪改、約束、索引、數據庫範式全部略過。你的公司心得多大才會給你寫權限。

瞭解where,group by,order by,having,like,count,sum,min,max,distinct,if,join,left join,limit,and和or的邏輯,時間轉換函數等即可。

你看,和Excel的函數都差不多。如果時間充裕,則學習row_number,substr,convert,contact等。和Excel一樣,學會搜索解決問題。不同引擎的函數也會有差異,例如Presto和phpMyAdmin。

期間你不需要考慮優化和寫法醜陋,查詢幾秒和幾分鐘對數據分析師沒區別,跑數據時喝杯咖啡唄,以後你跑個SVM都能去吃飯了。

網上搜索SQL相關的練習題,刷一遍就行。也能自己下載數據庫管理工具,找些數據練習。我用的是Sequel Pro。

第五週:統計知識學習

統計學是數據分析的基礎之一。

統計知識會要求我們以另一個角度看待數據。當你知道AB兩組的差異用平均值看是多傻的事情,你的分析技巧也會顯著提高。

這一週努力掌握描述性統計,包括均值、中位數、標準差、方差、概率、假設檢驗、顯著性、總體和抽樣等概念。詳細的數學推導不用細看,誰讓我們是速成呢,只要看到數據,知道不能怎麼樣,而是應該這樣分析即可。

Excel中有一個分析工具庫,簡單強大。對列1的各名詞做到了解。如果是多變量多樣本,學會各種檢驗。

《統計數字會撒謊》休閒讀物,有趣的案例可以讓我們避免很多數據陷阱。

深入淺出統計學 (豆瓣)還是經典的HeadFirst系列,適應它一貫的囉嗦吧。

多說一句,老闆和非分析師不會有興趣知道背後的統計學原理,通常要的是分析後的是與否,二元答案。不要告訴他們P值什麼的,告訴他們活動有效果,或者沒效果。

第六週:業務學習(用戶行為、產品、運營)

這一週需要了解業務。對於數據分析師來說,業務的瞭解比數據方法論更重要。當然很遺憾,業務學習沒有捷徑。

我舉一個數據沙龍上的例子,一家O2O配送公司發現在重慶地區,外賣員的送貨效率低於其他城市,導致用戶的好評率降低。總部的數據分析師建立了各個指標去分析原因,都沒有找出來問題。後來在訪談中發覺,因為重慶是山城,路面高低落差比較誇張,很多外賣人員的小電瓶上不了坡…所以導致送貨效率慢。

這個案例中,我們只知道送貨員的送貨水平距離,數據上根本不可能知道垂直距離這個指標。這就是數據的侷限,也是隻會看數據的分析師和接地氣分析師的最大差異。

對於業務市場的瞭解是數據分析師工作經驗上最大優勢之一。既然是零經驗面試,公司肯定也知道剛入門分析師不會有太多業務經驗,不會以這個卡人。所以簡單花一週瞭解行業的各指標。

《增長黑客》

數據驅動業務的典型,裡面包含產品運營最經典的AAARR框架,部分非數據的營銷案例,

《網站分析實戰》

如果應聘的公司涉及Web產品,可以瞭解流量的概念。書中案例以Google Analytics為主。其實現在是APP+Web的複合框架,比如朋友圈的傳播活動肯定需要用到網頁的指標去分析。

《精益數據分析》

互聯網數據分析的入門書籍,歸納總結了幾個常用的分析框架。比較遺憾的是案例都是歐美。

還有一個小建議,現在有不少第三方的數據應用,囊括了不少產品領域的數據分析和統計。自學黨們即使沒有生產環境的數據,也可以看一下應用Demo,有好處的。

除了業務知識,業務層面溝通也需要掌握。另外建議在面試前幾天收集該行業的業務強化一下。

第七週:Python/R學習

終於到第七週,也是最痛苦的一週。這時應該學習編程技巧。是否具備編程能力,是初級數據分析和高級數據分析的風水嶺。數據挖掘,爬蟲,可視化報表都需要用到編程能力。掌握一門優秀的編程語言,可以讓數據分析師事半功倍,升職加薪,迎娶白富美。

這裡有兩條支線,學習R語言或Python。速成只要學習一條,以後再補上另外一門。

R的優點是統計學家編寫的,缺點也是統計學家編寫。如果是各類統計函數的調用,繪圖,分析的前驗性論證,R無疑有優勢。但是大數據量的處理力有不逮,學習曲線比較陡峭。Python則是萬能的膠水語言,適用性強,可以將各類分析的過程腳本化。Pandas,sklearn等各包也已經追平R。

如果學習R,建議看《R語言實戰》,照著書本打一遍代碼,一星期綽綽有餘。另外還有一本《統計學》,偏知識理論,可以複習前面的統計學知識。

R學習和熟悉各種包。知道描述性統計的函數。掌握DataFrame。如果時間有餘。可以再去學習ggplot2。

Python擁有很多分支,我們專注數據分析這塊,入門可以學習《深入淺出Python》。

需要學會條件判斷,字典,切片,循環,迭代,自定義函數等。知道數據領域最經典的包Pandas+Numpy。

在速成後的很長一段時間,我們都要做調包俠。

這兩門語言最好安裝IDE,R語言我建議用RStudio,Python我建議用 Anaconda。都是數據分析的利器。

Mac自帶Python2.7,但現在Python 3已經比幾年前成熟,而且沒有編碼問題。各類教程也足夠多,不要抱成守舊了。Win的電腦,安裝Python會有環境變量的問題,是個大坑(R的中文編碼也是天坑)。

到這裡,剛剛好是七週。如果還需要第八週+,則是把上面的鞏固和融會貫通,畢竟速成是以轉崗或拿offer為目的。有機會,我會專門寫文章講解每一週的具體知識,並且用爬蟲爬一些數據做練習和案例。

文章源自知乎作者秦路


數據分析不是個事兒


以下推薦一些從入門到精通——關於學習數據分析的書籍清單!

入門篇

深入淺出數據分析:大頭書,HeadFirst系列,內容很淺,比較適合沒有基礎的人作為科普讀物,適合快速入門;

統計數字會撒謊:本文不涉及枯燥的數學公式與推理過程,通俗易懂,其實講的都是統計學最基本的常識,可是卻往往容易被人所忽視;

《誰說菜鳥不會數據分析》:不錯的工具類書籍。比較淺顯,適合完全沒有Excel或對Excel似懂非懂的人。 講了一些方法論的東西,但是非常的簡單,不太適合對Excel熟悉的讀者;

《深入淺出統計學》

:幫你快速瞭解統計學相關的知識。


進階篇

《MySQL 必知必會》:不到250頁的小冊子,實踐性很強,基本沒有什麼理論的堆砌,完完全全就是一本實踐指南,教會你怎麼用SQL語句操作MySQL;

《高性能MySQL(第3版)》:跟《MySQL必知必會》相似的書籍,主要講解了MySQL的理論和實踐知識;

《數據化管理:洞悉零售及電子商務運營》:講解在企業中應用數據的例子,讀完受益匪淺,裡面舉的很多例子都很接地氣,很值得數據分析師閱讀學習。

高級篇

統計學》(賈俊平,何曉群,金勇進著)統計比較通用的入門教材了,也算是兼顧數學證明和應用,可讀性沒有上面強,但是也非常的通俗易懂,有很多統計學專業的起始教材也會選擇這本。

《Python數據分析》:作者對於利用Python進行數據分析有著很豐富的經驗,因此寫出的書也是深入淺出,讓人很容易就能看懂。對一個熱愛學習的數據分析師來說學一門數據分析處理的編程語言是一件很有用的事情。

《Python數據挖掘入門與實踐》:作為一個專業的數據分析師,實際上很多時候都需要用到模型。這本書作為數據挖掘入門讀物,介紹了數據挖掘的基礎知識、基本工具和實踐方法,通過循序漸進地講解算法,還是挺不錯的一本書。


如果你對學習人工智能和深度學習感興趣,可以訂閱我的頭條號,我會在這裡發佈所有與算法、機器學習以及深度學習有關的有趣文章。


楊沐白


這是一份數據分析師的入門指南,它包含七週的內容,Excel、數據可視化、數據分析思維、數據庫、統計學、業務、以及Python。

每一週的內容,都有兩到三篇文章細緻講解,幫助新人們快速掌握。這七週的內容剛好涵蓋了一位數據分析師需要掌握的基礎體系,也是一位新人從零邁入數據大門的知識手冊。

第一週:Excel

每一位數據分析師都脫離不開Excel。

它是日常工作中最常用的工具,如果不考慮性能和數據量,它可以應付絕大部分分析工作。雖然現在機器學習滿地走,Excel依舊是無可爭議的第一工具。

Excel的學習分為兩個部分。

掌握各類功能強大的函數,函數是一種負責輸入和輸出的神秘盒子。把各類數據輸入,經過計算和轉換輸出我們想要的結果。

在SQL,Python以及R中,函數依舊是主角。掌握Excel的函數有助於後續的學習,因為你幾乎在編程中能找到名字一樣或者相近的函數。

在「數據分析:常見的Excel函數全部涵蓋在這裡了」中,介紹了常用的Excel函數。

清洗處理類:trim、concatenate、replace、substitute、left/right/mid、len/lenb、find、search、text

關聯匹配類:lookup、vlookup、index、match、row、column、offset

邏輯運算類:if、and、or、is系列

計算統計類:sum/sumif/sumifs、sumproduct、count/countif/countifs、max、min、rank、rand/randbetween、averagea、quartile、stdev、substotal、int/round

時間序列類:year、month、weekday、weeknum、day、date、now、today、datedif

搜索能力是掌握Excel的不二竅門,工作中的任何問題都是可以找到答案。

第二部分是Excel中的工具。

在「數據分析:Excel技巧大揭秘」教程,介紹了Excel最具性價比的幾個技巧。包括數據透視表、格式轉換、數組、條件格式、自定義下拉菜單等。正是這些工具,才讓Excel在分析領域經久不衰。

在大數據量的處理上,微軟提供了Power系列,它和Excel嵌套,能應付百萬級別的數據處理,彌補了Excel的不足。

Excel需要反覆練習,實戰教程「數據分析:手把手教你Excel實戰」,它通過網絡上抓取的數據分析師薪資數據作為練習,總結各類函數的使用。

除了上述要點,下面是附加的知識點,鋪平數據分析師以後的道路。

瞭解單元格格式,數據分析師會和各種數據類型打交道,包括各類timestamp,date,string,int,bigint,char,factor,float等。

瞭解數組,以及相關應用(excel的數組挺難用),Python和R也會涉及到 list,是核心概念之一。

瞭解函數,深入理解各種參數的作用。它會在學習Python中幫助到你。

瞭解中文編碼,UTF8、GBK、ASCII,這是數據分析師的坑點之一。

第二週:數據可視化

數據分析界有一句經典名言,字不如表,表不如圖。

數據可視化是分析的常用技巧之一,不少數據分析師的工作就是通過圖表觀察和監控數據。首先了解常用的圖表:

Excel的圖表可以100%繪製上面的圖形,但這只是基礎。

在「數據可視化:你想知道的經典圖表全在這」中介紹了各類數據分析的經典圖表,除了趨勢圖、直方圖,還包括桑基圖、空間圖、熱力圖等額外的類型。

數據可視化不是圖表的美化,而是呈現數據的邏輯之美,是揭示數據的內在關聯。瞭解圖表的維度和適用場景,比好看更重要。比如桑吉圖就是我一直推崇的圖表,它並不知名,但是它能清晰的揭露數據內在狀態的變化和流向。案例是用戶活躍狀態的趨勢。

Excel的圖表操作很傻瓜化,其依舊能打造出一份功能強大的可視化報表。「數據可視化:教你打造升職加薪的報表」教給大家常用的Excel繪圖技巧,包括配色選取,無用元素的剔除、輔助線的設立、複合圖表等方法。

Excel圖表的創造力是由人決定的,對數據的理解,觀察和認知,以及對可視化的應用,這是一條很長的道路。

圖表是單一的,當面板上繪製了多張圖表,並且互相間有關聯,我們常稱之為Dashboard儀表盤。

上圖就是用分析師薪資數據為數據源繪製的Dashboard,比單元格直觀不少。我們常常把繪製這類Dashboard的工具叫做BI。

BI(商業智能)主要有兩種用途。一種是利用BI製作自動化報表,數據類工作每天都會接觸大量數據,並且需要整理彙總,這是一塊很大的工作量。這部分工作完全可以交給BI自動化完成,從數據規整、建模到下載。

另外一種是使用其可視化功能進行分析,它提供比Excel更豐富的交互功能,操作簡單,而且美觀,如果大家每天作圖需要兩小時,BI能縮短大半。

在「數據可視化:手把手打造BI」教程中,以微軟的PowerBI舉例,教大家如何讀取數據,規整和清洗數據,繪製圖表以及建立Dashboard。最後的成果就是上文列舉的分析師案例。

BI還有幾個核心概念,包括OLAP,數據的聯動,鑽取,切片等,都是多維分析的技巧,也是分析的核心方法之一。

後續的進階可視化,將和編程配合。因為編程能夠提供更高效率和靈活的應用。而BI也是技術方向的工具,瞭解技術知識對應用大有幫助。

第三週:數據分析思維數據分析能力的高低,不以工具和技巧決定,而以分析思維決定。

在一場戰爭中,士兵裝備再好的武裝,進行再嚴苛的訓練,若是衝鋒的方向錯了,那麼迎接他們的唯有一敗塗地。

分析思維決定一場「數據戰爭」中的衝鋒方向。只有先養成正確的分析思維,才能使用好數據。

既然是思維,它就傾向於思考的方式,Excel函數學會了就是學會,分析則不同。大多數人的思維方式都依賴於生活和經驗做出直覺性的判斷,以「我覺得我認為」展開,好的數據分析首先要有結構化的思維。

麥肯錫是其中領域的佼佼者,創建了一系列分析框架和思維工具。最典型地莫過於金字塔思維。

這篇文章簡述了該思維的應用,「快速掌握麥肯錫的分析思維」。你能學會結構化思考,MECE原則,假設先行,關鍵驅動等方法論。

除此以外,還有SMART、5W2H、SWOT、4P4C、六頂思考帽等,這些都是不同領域的框架。框架的經典在於,短時間內指導新人如何去思考,它未必是最好的,但一定是性價比最優的。數據分析思維,是分析思維的引申應用。再優秀的思考方式,都需要佐證和證明,數據就是派這個用處的,「不是我覺得,而是數據證明」。

現代管理學之父彼得·德魯克說過一句很經典的話:如果你不能衡量它,那麼你就不能有效增長它。如果把它應用在數據領域,就是:如果你不能用指標描述業務,那麼你就無法有效增長它。每一位數據分析師都要有指標體系的概念,報表也好,BI也好,即使機器學習,也是圍繞指標體系建立的。

下圖就是一個典型的指標體系,描述了用戶從關注產品、下載、乃至最後離開的整個環節。每一個環節,都有數據及指標以查詢監控。

不同業務背景需要的指標體系不同,但有幾個建立指標的通用準則。這篇文章深入介紹了「如何建立數據分析的思維框架」。你將區分什麼是好指標、什麼是壞指標、比率和比例、指標的結構、指標設立的維度等概念。

數據分析不是一個結果,而是一個過程。幾乎所有的分析,最終目的都是增長業務。所以比分析思維更重要的是驅動思維落地,把它轉化為成果。

數據分析思維是常年累月養成的習慣,一週時間很難訓練出來,但這裡有一個縮短時間的日常習慣。以生活中的問題出發做練習。

這家商場的人流量是多少?怎麼預估?

上海地區的共享單車投放量是多少?怎麼預估?

街邊口的水果店,每天的銷量和利潤是多少?怎麼預估?

這些開放性問題起源於諮詢公司的訓練方法,通過不斷地練習,肯定能有效提高分析思維。另外就是刷各種CaseBook。

優秀的數據分析師會拷問別人的數據,而他本身的分析也經得起拷問。

第四周:數據庫

Excel很容易遇到瓶頸,隨著業務的發展,分析師接觸的數據會越來越多。對大部分人的電腦,超過十萬條數據,已經會影響性能。何況大數據時代就是不缺數據,這時候就需要學習數據庫了。

即使非數據崗位,也有越來越多的產品和運營被要求使用SQL。

很多數據分析師戲稱自己是跑SQL的,這間接說明SQL在數據分析中有多核心。從Excel到SQL絕對是處理效率的一大進步。

教程內容以MySQL為主,這是互聯網行業的通用標準。其實語法差異不大的。

新手首先應該瞭解表的概念,表和Excel中的sheet類似。「寫給新人的數據庫指南」是一篇入門基礎文章,包括表、ID索引、以及數據庫的安裝,數據導入等簡單知識。

SQL的應用場景,均是圍繞select展開。增刪改、約束、索引、數據庫範式均可以跳過。新手在「SQL,從入門到熟練」教程會學習到最常見的幾個語法,select、where、group by、if、count/sum、having、order by、子查詢以及各種常用函數。

數據還是分析師薪資數據,它可以和Excel實戰篇結合看,不少原理都是相通的。

想要快速掌握,無非是大量的練習。大家可以在leetcode上做SQL相關的練習題,難度從簡單到困難都有。「SQL,從熟練到掌握」教程中將會帶領大家去刷一遍。

join對新手是一個很繞的概念,教程會從圖例講解,逐步提高難度。從一開始的join關聯,到條件關聯、空值匹配關聯、子查詢關聯等。最後完成leetcode中的hard模式。

如果想要更進一步,可以學習row_number,substr,convert,contact等函數。不同數據平臺的函數會有差異,例如Presto和phpMyAdmin。再想提高,就去了解Explain優化,瞭解SQL的工作原理,瞭解數據類型,瞭解IO。知道為什麼union比or的效率快,這已經和不少程序員並駕齊驅。

第五週:統計學

很多數據分析師並不注重統計學基礎。

比如產品的AB測試,如果相關人員不清楚置信度的含義和概念,那麼好的效果能意味著好麼?如果看待顯著性?

比如運營一次活動,若不瞭解描述統計相關的概念,那麼如何判別活動在數據上的效果?可別用平均數。

不瞭解統計學的數據分析師,往往是一個粗糙的分析師。如果你想要往機器學習發展,那麼統計學更是需要掌握的基礎。

統計知識會教大家以另一個角度看待數據。如果大家瞭解過《統計數據會撒謊》,那麼就知道很多數據分析的決策並不牢靠。

在第一篇教程「解鎖數據分析的正確姿勢:描述統計」,會教給大家描述統計中的諸多變量,比如平均數、中位數、眾數、分位數、標準差、方差。這些統計標準會讓新手分析師從平均數這個不靠譜的泥潭中出來。

箱線圖就是描述統計的大成者,好的分析師一定是慣用箱線圖的常客。

第二篇「解鎖數據分析的正確姿勢:描述統計(2)」將會結合可視化,對數據的分佈進行一個直觀的概念講解。很多特定的模型都有自有的數據分佈圖,掌握這些分佈圖對分析的益處不可同日而語。

直方圖和箱線圖一樣,將會是長久伴隨分析師的利器。

統計學的一大主要分支是概率論,概率是度量一件事發生的可能性,它是介於0到1之間的數值。很多事情,都可以用概率論解釋,「概率論的入門指南」和「讀了本文,你就懂了概率分佈」都是對其的講解。

包括貝葉斯公式、二項概率、泊松概率、正態分佈等理論。理論不應用現實,那是無根之木,教程中會以運營活動最常見的抽獎概率為講解,告訴大家怎麼玩。

其實數據分析中,概率應用最廣泛和最全面的知識點,就是假設檢驗,大名鼎鼎的AB測試就是基於它的。俗話說得好,再優秀的產品經理也跑不過一半AB測試。

何為假設檢驗?假設檢驗是對預設條件的估計,通過樣本數據對假設的真偽進行判斷。

產品改版了,用戶究竟喜不喜歡?調研的評分下降了,這是用戶的評價降低了,還是正常的數據波動呢?這些都是可以做假設檢驗的。它可以說是兩面兩篇文章的回顧和應用。

「數據分析必須懂的假設檢驗」依舊以互聯網場景講解各種統計技巧的應用。假設檢驗並不難,通過Excel的幾個函數就能完成。它的難點在於諸多知識點和業務的結合使用,實際公式不需要掌握的多透徹,瞭解背後的意義更重要。

統計學是一個很廣闊的領域,包括方差分析,時間序列等,都有各自不同的應用。大家若感興趣,可以去閱讀各類教材,沒錯,教材是學習統計學最優的方式。我這類文章堪堪算入門罷了。

第六週:業務

對於數據分析師來說,業務的瞭解比數據方法論更重要。舉個例子,一家O2O配送公司發現在重慶地區,外賣員的送貨效率低於其他城市,導致用戶的好評率降低。總部的數據分析師建立了各個指標去分析原因,都沒有找出來問題。後來在訪談中發覺,因為重慶是山城,路面高低落差比較誇張,很多外賣人員的小電瓶上不了坡…所以導致送貨效率慢。這個案例中,我們只知道送貨員的送貨水平距離,根本不知道垂直距離。這是數據的侷限,也是隻會看數據的分析師和接地氣分析師的最大差異。業務形態千千萬萬,數據分析師往往難窺一二。我的公眾號業務部分也涉及了不少,大家可以通過這幾篇文章瞭解。

一篇文章讀懂活躍數據;深入淺出,用戶生命週期的運營;獲取新增用戶,運營都應該知道的事;運營的商業邏輯:CAC和CLV;從零開始,構建數據化運營體系;讀懂用戶運營體系:用戶分層和分群,這些都是互聯網運營相關的內容,或多或少涉及了不少業務方面的概念,數據分析人員可以選擇性的挑選部分內容。瞭解業務的數據分析師在職場發展上會更加順利。

而在「最用心的運營數據指標解讀」中,我嘗試總結了幾個泛互聯網領域的指標和業務模型,它們都是通用的框架。

產品運營模型:以移動端APP為主體,圍繞AARRR準則搭建起數據框架。包括Acquisition用戶獲取、Activation用戶活躍、Retention用戶留存、Revenue營收、Refer傳播,以及細分指標。

市場營銷模型:以傳統的市場營銷方法論為基底,圍繞用戶的生命週期建立框架。包括用戶生命週期,生命週期價值、用戶忠誠指數、用戶流失指數、用戶RFM價值等。

流量模型:從早期的網站分析發展而來,以互聯網的流量為核心。包括瀏覽量曝光率、病毒傳播週期、用戶分享率、停留時間、退出率跳出率等。

電商和消費模型:以商品的交易、零售、購買搭建而起。包括GMV、客單價、復購率、回購率、退貨率、購物籃大小、進銷存,也包含SKU、SPU等商品概念。

用戶行為模型:通過用戶在產品功能上的使用,獲得精細的人群維度,以此作為分析模型。包括用戶偏好、用戶興趣、用戶響應率、用戶畫像、用戶分層,還包含點贊評論瀏覽收藏等功能的相關指標。

除了上述的幾個常見模型,數據分析還有其他分支。比如SEO/SEM,雖然可以歸類到流量模型,但它並不簡單。比如財務分析,商業的各種成本支出也需要專人負責。

在業務知識外,業務層面的溝通也很重要。業務線足夠長的時候,溝通往往成為老大難的問題。

業務學習沒有捷徑,哪怕掌握了諸多模型,不同行業間的業務壁壘會是分析師們的門檻。金融的各類專有領域知識,電子商務不同產品的特性,這些都會影響到分析報告的質量。

在早期,新人最好選擇一到兩個領域深入瞭解其業務,然後以此拓展邊界。

第七週:Python/R

第七週是最後的學習環節。

是否具備編程能力,是初級數據分析和高級數據分析的風水嶺。數據挖掘、BI、爬蟲、可視化報表都需要用到編程。掌握一門優秀的編程語言,可以讓數據分析師升職加薪,迎娶白富美。數據分析領域最熱門的兩大語言是R和Python。R的優點是統計學家編寫的,缺點也是統計學家編寫。涉及各類統計函數和工具的調用,R無疑有優勢。但是大數據量的處理力有不逮,學習曲線比較陡峭。

Python則是萬能的膠水語言,適用性強,可以將分析的過程腳本化。Pandas、Numpy、SKLearn等包也是非常豐富。

這裡的教程以Python為主。

「開始Python的新手教程」將會教大家搭建數據分析環境,Anaconda是功能強大的數據科學工具。Python建議安裝Python3+版本,不要選擇Python2了。

Python的語法相當簡潔,大家print出第一個hello world頂多半小時。就像在Excel上進行運算一樣方便。

「開始Python的數據結構」介紹給大家Python的三類數據結構,列表list,元組tuple,以及字典dict。萬變不離其宗,掌握這三種數據結構以及相對應的函數,足夠應付80%的分析場景。函數式編程為Python一大特色,Python自身就提供不少豐富的函數。很多都和Excel的函數相通,掌握起來非常迅速。另外還有控制流,for、while、if,通常配合函數組合使用。

「瞭解和掌握Python的函數」教大家如何自定義函數,豐富的函數雖然能偷懶,但是不少場景下,還是需要自己動手擼一個。

能夠調第三方包解決,就使用第三方的函數。如果是一個頻繁使用的場景,而第三方依靠不了,就自己編一個函數。如果是臨時性的場景,寫得粗糙點也無所謂。畢竟分析師的代碼能力不要求工程師那麼嚴格,所以Python的學習儘量以應用為主,不用像分析師那麼嚴格。

包、模塊和類的概念屬於進階知識,不學也不要緊。

「Python的數據分析: numpy和pandas入門」介紹了數據分析師賴以生存的兩個包,numpy和pandas,其他Python知識可以不紮實,這兩個最好認真掌握。它是往後很多技能樹的前置要求。

array,series,dataframe是numpy和pandas的三個數據結構,掌握它們,便算是入門了。後續的兩篇教程都是實戰。

「用pandas進行數據分析實戰」以分析師的薪資作為實戰數據。Excel、BI、SQL,一路走來,大家想必對它無比熟悉,這也是最後一次使用它了。教程通過Pandas的各類功能,繪製出一副詞雲圖。


江蘇優就業


自學數據分析算是一個系統性的學習工程,很多答主都已推薦了書籍和學習步驟,今天知享君再分享幾個學習網站聊做補充。

數據分析網--afenxi.com

這絕對是一個適合零基礎學習數據分析的最好網站,不僅提供了大數據新聞、人物觀點、數據報告等版塊,還提供了技術類文章,特別是其百寶箱版塊,分門別類地彙總了數據分析學習各方面的資源,還內置了一個數據網站導航。

中國統計網--http://itongji.cn

這也是一個數據諮訊類網站,推薦新手入門和乾貨分享版塊,適合小白瞭解數據分析,這裡還提供了很多的數據諮訊和專欄文章。


PPT資源導航--hippter.com

我們都知道數據分析離不開PPT演示,因此再推薦給PPT資源導航網站,裡面彙總了很多PPT學習資源,感興趣的進去探索,這裡就不贅述了。

以上就是知享君想要介紹的三個數據分析學習網站,希望能對題主有所幫助。

我是“知享君”,專注效率神器推薦和知識乾貨分享,歡迎搭訕調戲,來了就關注點個讚唄!

知享君


課程:

必學且免費的基礎課:統計學 | Udacity(http://cn.udacity.com/course/statistics--st095)

書籍:

必看的入門書:《精益數據分析》[美]埃裡克-萊斯 叢書主編

工具:

把紙上知識實際操練起來的工具:數據觀|新一代商業分析平臺(www.shujuguan.cn/?from=18041101)

推薦這個工具主要是因為它操作起來特別簡單,不需要編程,很適合新手在演練中梳理、內化數據分析的知識與思路。相信如果工具不好用的話,你花在“kao這一步怎麼實現的”上的時間會遠遠大於“這個指標更適合解決我現在的問題”上。

畢竟數據分析師拼的不是編程技術高低,而是用數據解決問題的能力。


下面再分享一個我們內部培訓的數據分析基礎ppt,非常適合入門級選手。如果喜歡就表示一下哦~


數據觀商業管理雲


不管是運營APP,還是運營微信公眾號,頭號號,大魚號,還是百家號,新媒體數據不僅是數據工程師和分析師的事情,在工作中也要求運營從業者有一定的數據分析能力。

新媒體數據分析

公子義認為數據是優化新媒體運營關鍵所在,能更好推動運營策略和工作的開展。

但運營童鞋多是數據小白,沒有編程和技術基礎,該怎麼分析並用好數據呢?

今天從運營常見的數據問題出發,希望讓大家能快速地入門數據分析,讓數據更好地為工作服務,別白白浪費數據的價值。

一、數據分析應該從哪裡入手?

從哪些角度入手?這是運營小夥伴們最頭痛的問題,不知道該關注、分析哪些數據,就算拿到數據後,也不知道到底從哪些方面去分析這些運營數據。

新媒體數據分析

公子義給小夥伴們整理一些運營常見的數據指標,也總結了一些比較適用的分析角度,希望有用~

1、新媒體運營關注的常見數據指標

1)訪問:PV、UV、IP(最常見);跳出率、平均訪問時長、平均訪問頁數等;

2)註冊:關注人數、關注走勢、累計關注人數、轉化率等;

用戶

1)活躍:內容PV、UV;UGC、PGC、文章數、關注數、閱讀數、互動數(評論、點贊等)、傳播數(轉發、分享等);

用戶喜好文章的類型

2)互動人數:每日評論人數、收藏人數、分享人數等

3)頭像:分析用戶屬性,關注年齡、性別、學歷、職業、地域、婚否、收入、興趣等;

2、新媒體運營數據分析要遵循哪些原則?

但是運營畢竟不是專業的數據分析師,主要能用好這些原則就夠了~

對比:分成橫向和縱向對比,比如縱向的同環比分析,橫向的不同產品、不同渠道的對比等;

走勢(變化):指標隨時間的變動,表現為增幅(同比、環比等);

分佈:這個好理解,比如說用戶不同年齡段的分類、不同職業的分佈、不同地域分佈等;

用戶地域分佈圖

細分:從多層級去了解數據,比如分析全國不同省份不同城市的具體訂單數據,從全國—省份—城市一一下鑽深入分析;

如何變身自己的“專屬分析師”呢~數據分析的整個過程:確定指標——數據收集——數據整合、數據處理/建模、數據分析、數據呈現、報表整理

數據收集:可通過公司數據庫埋點獲得,可以通過頭條號、微信公眾號、大魚號、百家號等媒體平臺獲得,也通過一些記錄的數據獲得。

數據整合:運營人要看的數據太多了,有數據庫,有各種第三平臺的數據(新榜、清博指數、公眾號等),每次都需要從不同平臺取數據,太分散了,最好能在一個數據平臺集中管理數據。

爆款文章數據分析

數據分析:可參考分析方法,比如“求和、計數、同環比、多粒度下鑽”等分析,一般在Excel中需通過寫公式搞定。

數據呈現(可視化):

簡單地說,就是如何製圖唄,報表彙報:將數據通過表格、圖表或其他形式向領導彙報。如何不依賴分析師,自己搞定數據分析呢?

1、學習一些數據分析理論。(數據思維)

2、瞭解、熟悉業務,這點很重要。(業務思路)

3、學習一些數據分析工具。(工具輔助)以我的個人經驗來看,真正把握這些真真是夠了

二、如何製作讓老闆滿意的好看圖表?

沒有哪個老闆喜歡雜亂的表格數據,顏值才是王道啊。簡單地說,就是數據如何可視化,讓數據直觀、明瞭。

分析數據佔比:分析單維度的數據佔比可用餅/環圖、分析多維度的數據佔比,可用旭日圖和矩形樹圖。

分析數據走線圖:最常用的是折線圖,柱狀圖也可以表達,直觀度略低於折線圖。分析地區分佈:全國、省份分佈可用行政地圖,更詳細的地域分佈可用經緯。

用戶分析詞頻

分析詞頻:比如用戶的職位分佈,可用詞雲,有3D效果哦~分析轉化效果:那肯定用漏斗圖最最合適。

關於轉化,分享一個自己身邊的真實故事。每個圖表都有適合的使用場景,用好各種圖表很重要,直接影響到數據的直觀和美觀程度。

三、如何快速找到數據背後的問題?

做了那麼多的數據工作,最終無非是為了從數據中去發現問題,不斷優化運營策略。

不論數據是上升了還是下降了,肯定有其變化的原因,這裡以用戶數據變化為例瞭解一下快速找到問題的思路。

看數據—發現問題—解決問題—再看數據—問題解決,或者看數據—發現增長—找到原因—繼續應用。

作者 l 公子義

來源 l 公子義(ID:gongzi348)


公子義


  • 數學基礎(數據分析的原理)
  • 編程基礎(數據分析的實現手段)

  1. 這兩個基礎建議先了解一下基本的數學原理;
  2. 然後根據你需要,選擇一款相關數據分析軟件(Excel、SPSS、Matlab、R、Python),做些針對性的練習;
  3. 後面在不斷的實際應用中學習成長就好。


摘自今日頭條號《算法集市》— 數據分析的數學基礎簡介

1、描述性數據彙總

描述性數據彙總可以識別數據的典型性質,包括數據的中心趨勢和離中趨勢。

1.1、數據中心趨勢

數據中心趨勢度量包括:均值(mean)、中位數(median)、眾數(mode)、中列數(midrange,數據最大和最小值的平均值)、加權平均(weighted average)。

截斷均值(trimmed mean):為了抵消少數極端值的影響,同時避免損失有價值的信息,可以在計算均值前去掉上下各2%~5%的值。

1.2、數據離中趨勢

數據離中趨勢,即數據分散程度,其度量包括:極差(range,數據最大值和最小值之差)、方差(variance)

1.3、數據彙總可視化

數據彙總可視化可用不同的圖形表示:直方圖、餅圖、線圖、散點圖、雷達圖、組合圖等。

2、數據預處理

現實世界的數據通常是不完整、含噪聲、不一致的,對數據進行預處理,可提高數據質量,從而有助於提高其後數據挖掘的精度和性能。

2.1、數據清理

數據清理對象包括缺失值、噪聲數據、離群點。

缺失值:忽略缺失值所在組、人工填寫缺失值、使用全局常量填充、利用均值代替、利用最值代替;

噪聲數據:利用數據鄰近值的均值或中位數光滑(分箱)、利用迴歸函數擬合數據;

離群點:人工去除離群點、設置數據最值邊界去除離群點、通過聚類檢測離群點。

2.2、數據變換

數據變換將數據轉換或統一成適合挖掘的形式。

光滑:去除數據噪聲,包括分箱、迴歸、聚類;

聚集:對數據彙總或聚集,包括總和、均值、方差;

分類:根據數據屬性對其分類;

規範:將數據按比例縮放,包括最小-最大規範化、Z-score規範化、小數點移動規範化;

屬性構造:根據數據給定屬性,通過組合添加構建新屬性。

3、數據處理

1)分類和預測:可用相同的數據處理方法進行,分類是離散的函數模型,預測是連續的函數模型,包括迴歸分析、神經網絡、遺傳算法、模糊分析、決策樹;

2)聚類:劃分方法、層次方法、基於密度的方法、基於網格的方法、基於模型的方法;

3)降維:主成分分析、低方差濾波、高相關濾波。


算法集市



數據分析其實可以分為兩種:一種類似產品經理、一種偏向數據挖掘,類似產品經理向更加註重業務,對業務能力要求比較高;數據挖掘向更加註重技術,對算法代碼能力要求比較高。

首先我說說這兩種方向共同需要的技術面,當然以下只是按照數據分析入門的標準來寫:

1. SQL(數據庫),我們都知道數據分析師每天都會處理海量的數據,這些數據來源於數據庫,那麼怎麼從數據庫取數據?如何建立兩表、三表之間的關係?怎麼取到自己想要的特定的數據?等等這些數據選擇問題就是你首要考慮的問題,而這些問題都是通過SQL解決的,所以SQL是數據分析的最基礎的技能,零基礎學習SQL可以閱讀這裡:SQL教程_w3cschool

2. 統計學基礎,數據分析的前提要對數據有感知,數據如何收集?數據整體分佈是怎樣的?如果有時間維度的話隨著時間的變化是怎樣的?數據的平均值是什麼?數據的最大值最小值指什麼?數據相關與迴歸、時間序列分析和預測等等,這些在網易公開課上倒是有不錯的教程:哈里斯堡社區大學公開課:統計學入門_全24集_網易公開課

3.Python或者R的基礎,這一點是必備項也是加分項,在數據挖掘方向是必備項,語言相比較工具更加靈活也更加實用。至於學習資料:R語言我不太清楚,Python方向可以在廖雪峰廖老師的博客裡看Python教程,面向零基礎。

再說說兩者有區別的技能樹:

1.數據挖掘向

我先打個前哨,想要在一兩個月內快速成為數據挖掘向的數據分析師基本不可能,做數據挖掘必須要底子深基礎牢,編程語言基礎、算法、數據結構、統計學知識樣樣不能少,而這些不是你自習一兩個月就能完全掌握的。

所以想做數據挖掘方向的,一定要花時間把軟件工程專業學習的計算機基礎課程看完,這些課程包括:數據結構、算法,可以在這裡一探究竟:如何學習數據結構?

在此之後你可以動手用Python去嘗試實現數據挖掘的十八大算法:數據挖掘18大算法實現以及其他相關經典DM算法

2.產品經理向

產品經理向需要你對業務感知能力強,對數據十分敏感,掌握常用的一些業務分析模型套路,企業經常招聘的崗位是:商業分析、數據運營、用戶研究、策略分析等等。這方面的學習書籍就很多,看得越多掌握的方法越多,我說幾本我看過的或者很多人推薦的書籍:《增長黑客》、《網站分析實戰》、《精益數據分析》、《深入淺出數據分析》、《啤酒與尿布》、《數據之魅》、《Storytelling with Data》


分享到:


相關文章: