07.28 零基礎數據分析必知的數據分析流程

一個數據分析的項目,你的數據對象是誰?商業目的是什麼?要解決什麼業務問題?數據分析師對這些都要了然於心。基於商業的理解,整理分析框架和分析思路。例如,減少新客戶的流失、優化活動效果、提高客戶響應率等等。不同的項目對數據的要求,使用的分析手段也是不一樣的。

數據分析的目的就是把隱藏在一些看似雜亂無章的數據背後的信息提煉出來,總結出所研究對象的內在規律。在實際工作中,數據分析能夠幫助管理者進行判斷和決策,以便採取適當策略與行動。

零基礎數據分析必知的數據分析流程

簡而言之就是有目的的收集數據、分析數據,使之成為信息的過程。

數據分析過程

1.探索性數據分析

初步獲取的數據是非常亂的。通過圖表的形式對數據進行整合,找到數據之間存在的關係。

2.模型選定分析

通過探索性數據分析,歸納出一類甚至是多類數據模型,通過對模型再次整合,進一步分析出一定的模型。

3.推斷分析

通常使用數理統計方法對所定模型或估計的可靠程度和精確程度作出推斷。

數據分析流程

零基礎數據分析必知的數據分析流程

1.識別信息需求

識別信息需求是確保數據分析過程有效性的首要條件,可以為收集數據、分析數據提供清晰的目標。

2.數據採集

數據採集的意義是真正的瞭解數據的原始面貌,包括數據產生的時間、條件、格式、內容、長度、限制條件等。

這可以幫助數據分析師更加有針對性的控制數據生產和採集過程,避免由於違反數據採集規則導致的數據問題;同時對數據採集邏輯的認識增加了數據分析師對數據的理解程度,尤其是數據中的異常變化。

在數據的採集階段,數據分析師需要更多的瞭解數據生產和採集過程中的異常情況,能很大程度上避免“垃圾數據進導致垃圾數據出”的問題。

3.數據存儲

在數據存儲階段,數據分析師需要了解數據存儲內部的工作機制和流程,最核心的因素是在原始數據基礎上經過哪些加工處理,最後得到了怎樣的數據。由於數據在存儲階段是不斷動態變化和迭代更新的,其及時性、完整性、有效性、一致性、準確性很多時候由於軟硬件、內外部環境問題無法保證,這些都會導致後期數據應用問題。

4.數據提取

數據提取就是將數據取出的過程,最核心環節是從哪取、何時取、如何取。

在數據提取階段,數據分析師必須具備數據提取能力。常用的Select from語句是SQL查詢和提取的必備技能,但即使是簡單的取數工作也有不同層次。

第一層是從單張數據庫中按條件提取數據的能力,where是基本的條件語句;

第二層是掌握跨庫表提取數據的能力,不同的join有不同的用法;

第三層是優化SQL語句,通過優化嵌套、篩選的邏輯層次和遍歷次數等,減少個人時間浪費和系統資源消耗。

零基礎數據分析必知的數據分析流程

5.數據挖掘

數據挖掘是在面對海量數據時進行數據價值提煉的關鍵,以下是算法選擇的基本原則:

沒有最好的算法,只有最適合的算法,算法選擇的原則是兼具準確性、可操作性、可理解性、可應用性。

沒有一種算法能解決所有問題,但精通一門算法可以解決很多問題。

挖掘算法最難的是算法調優,同一種算法在不同場景下的參數設定相同,實踐是獲得調優經驗的重要途徑。

在數據挖掘階段,數據分析師要掌握數據挖掘相關能力:一是數據挖掘、統計學、數學基本原理和常識;二是熟練使用一門數據挖掘工具,Clementine、SAS或R都是可選項,如果是程序出身也可以選擇編程實現;三是需要了解常用的數據挖掘算法以及每種算法的應用場景和優劣差異點。

6.數據分析

數據分析是將收集的數據通過加工、整理和分析、使其轉化為信息,通常所用的方法有:

老七種工具分別是:排列圖、因果圖、分層法、調查表、散步圖、直方圖、控制圖;

新七種工具分別是:關聯圖、系統圖、矩陣圖、KJ法、計劃評審技術、PDPC法、矩陣數據圖;

數據分析相對於數據挖掘更多的是偏向業務應用和解讀,當數據挖掘算法得出結論後,如何解釋算法在結果、可信度、顯著程度等方面對於業務的實際意義,如何將挖掘結果反饋到業務操作過程中便於業務理解和實施是關鍵。

7.數據可視化

數據分析的業界內有一句非常經典的名言,字不如表,表不如圖。別說平常人,就是數據分析師自己看數據也頭大。這時就得靠數據可視化的神奇魔力了。除掉數據挖掘這類高級分析,不少的數據分析師平常工作之一就是監控數據觀察數據。

8.數據的應用

數據的應用是數據具有使用價值的直接體現,這個過程需要數據分析師具備數據溝通能力、業務推動能力和項目工作能力。

數據溝通能力。深入淺出的數據報告、言簡意賅的數據結論更利於業務理解和接受。

業務推動能力。在業務理解數據的基礎上,推動業務落地實現數據建議。

項目工作能力。數據項目工作是循序漸進的過程,無論是一個數據分析項目還是數據產品項目,都需要數據分析師具備計劃、領導、組織、控制的項目工作能力。

零基礎數據分析必知的數據分析流程

附:數據分析常用方法

1.描述性統計分析

包括樣本基本資料的描述,作各變量的次數分配及百分比分析,以瞭解樣本的分佈情況。

此外,以平均數和標準差來描述市場導向、競爭優勢、組織績效等各個構面,以瞭解樣本企業的管理人員對這些相關變量的感知,並利用t檢驗及相關分析對背景變量所造成的影響做檢驗。

2.Cronbach’a信度係數分析

信度是指測驗結果的一致性、穩定性及可靠性,一般多以內部一致性(consistency)來加以表示該測驗信度的高低,信度係數愈高即表示該測驗的結果愈一致、穩定與可靠。

針對各研究變量的衡量題項進行Cronbach’a信度分析,以瞭解衡量構面的內部一致性。一般來說,Cronbach’a僅大於0.7為高信度,低於0.35為低信度(Cuieford,1965),0.5為最低可以接受的信度水準(Nunnally,1978)。

3.探索性因素分析(exploratory factor analysis)和驗證性因素分析(confirmatory factor analysis)

用以測試各構面衡量題項的聚合效度(convergent validity)與區別效度(discriminant validity),因為僅有信度是不夠的,可信度高的測量,可能是完全無效或是某些程度上無效,所以我們必須對效度進行檢驗。

效度是指工具是否能測出在設計時想測出的結果,收斂效度的檢驗根據各個項目和所衡量的概念的因素的負荷量來決定,而區別效度的檢驗是根據檢驗性因素分析計算理論上相關概念的相關係數,檢定相關係數的95%信賴區間是否包含1.0,若不包含1.0,則可確認為具有區別效度(Anderson,1987)。

4.結構方程模型分析(structural equations modeling)

由於結構方程模型結合了因素分析(factor analysis)和路徑分析(path analysis),並納入計量經濟學的聯立方程式,可同時處理多個因變量,容許自變量和因變量含測量誤差,可同時估計因子結構和因子關係,容許更大彈性的測量模型,可估計整個模型的擬合程度(Bollen和Long,1993),因而適用於整體模型的因果關係。

在模型參數的估計上,採用最大似然估計法(Maximum Likelihood,ML);在模型的適合度檢驗上,以基本的擬合標準(preliminary fit criteria)、整體模型擬合優度(overall model fit)以及模型內在結構擬合優度(fit of internal structure of model)(Bagozzi和Yi,1988)三個方面的各項指標作為判定的標準。

在評價整體模式適配標準方面,本研究採用x2(卡方)/df(自由度)值、擬合優度指數(goodness.of.f:iJt.in.dex,GFI)、平均殘差平方根(root—mean.square:residual,RMSR)、近似誤差均方根(root-mean—square-error-of-approximation,RMSEA)等指標;模型內在結構擬合優度則參考Bagozzi和Yi(1988)的標準,考察所估計的參數是否都到達顯著水平。

為了幫助小夥伴們更好的學習數據分析,技術學派整理了數據分析入門學習的相關視頻及學習路線圖。

領取方式

關注“技術學派”後,評論轉發文章,私信回覆:數據分析資料


分享到:


相關文章: