簡單討論下數據分析的原理

數據分析是一個巨大的項目,有時過於抽象,通常依賴於經驗。本文是作者對學習和實踐數據科學的分析的總結,希望提供一般的數據分析思路,並在分析的每個步驟中介紹相關的分析算法及其應用場景。對於算法,僅使用比較淺層的。

簡單討論下數據分析的原理

在進行任何數據分析之前,您應該首先準備以下內容:

1.熟悉業務,瞭解數據來源

這是數據分析的前提。除了我們面臨的數據之外,數據分析更多的是隱藏在這些數據背後的各種服務。例如,當我們看到用戶的消費記錄時,它不僅可以是在收銀系統中購買商品,還可以是會員系統減免的訂單、活動管理系統的折扣產品或推薦系統的推薦產品。深入瞭解業務有助於更好地識別分析的維度,並快速查明問題和原因。

簡單討論下數據分析的原理

2.明確分析的目的

數據分析不是模型算法和可視化的積累,而是有目的地發現支撐某些決策的現象。因此,在分析之前,我們必須明確定義我們分析的目的,避免複製其他項目的分析內容,或隨機組合手頭的分析模型算法,這會影響對結果的分析。

簡單討論下數據分析的原理

3.多角度觀察

要實現某種分析,您需要從多個角度觀察數據,這樣不僅可以全面瞭解整個數據,還可以幫助發現潛在的規律。例如,當我們需要找到潛在的會員時,最直接的方法當然是看看許多不是會員的消費者。但從促銷活動的角度來看,那些熱衷於購買打折商品的人也是潛在會員,因為他們加入會員後會獲得更多折扣。同時,從推薦系統的角度來看,對推薦系統推薦的產品滿意的人更有可能加入會員計劃。

簡單討論下數據分析的原理

1.什麼是數據分析?

數據分析必須針對某些對象,首先要做的是通過數據描述這個對象。

統計

統計是最直接的方法,應用起來也很簡單。常用方法包括總和、平均值、最大值、最小值、中值、方差、增長率、類型比率、分佈,頻率等。

聚類

聚類是無監督學習。群集可以將一組數據劃分為多個類別。每個類別中的數據類似,但類別之間又不盡不同。群集有助於發現數據分佈的特徵,並可以大大減少分析的數據量。例如,在軌跡分析和預測中,通過聚類,我們會發現一個人主要出現在宿舍周圍、食堂周圍、教學樓周圍的三個地方,所以當我們預測他在哪裡時,你可以通過左邊來對這三個位置分析。

簡單討論下數據分析的原理

特徵分析

特徵工程非常龐大。如上所述,數據和特徵決定了機器學習的上限,模型和算法只能接近這個上限。特徵工程包括特徵提取和特徵選擇。由於其眾多且複雜的算法,因此這裡不再介紹。特徵分析首先明確分析單位,包括時間、空間和類型。就像在軌跡預測中一樣,分析每十分鐘的位置比分析每秒緯度和經度的座標更加實際,並且分析時間的位置太粗糙。然後是特徵提取。有許多算法可用於特徵提取,線性PCA(主成分分析)、LDA(線性判別分析)、ICA(獨立成分分析)、文本F-IDE等。

簡單討論下數據分析的原理

2.數據發生了什麼?

我們通常更關注異常,所以也會關注異常分析。數據發生的情況與用於分析的想法和方法一致,但僅適用於不同階段。對於異常分析,有兩個主要部分,異常和警告。只要你注意警告的級別和推動它的人,推動警告就相對簡單了。除了可以直接觀察到的異常之外,異常發現可能需要更多關注他們的“暗物質”。所謂的暗物質是一種無法直接觀察到的現象和相關性。

簡單討論下數據分析的原理

3.為什麼會發生這種情況?

每當事情發生時,我們都會問為什麼。深度挖掘和數據診斷是我們如何探究問題的原因,準確的問題診斷有利於做出正確的決策。通常,可以使用以下方法:

年度趨勢分析

這是一個非常簡單的方法,可以觀察數據的過去和其他週期。

簡單討論下數據分析的原理

深入研究

研究絕對是找到因果關係的最常見和最有效的方法,包括分層和拉動,直到找到根本原因。比如說,我們發現咖啡銷量減少,我們應該問為什麼咖啡的銷量會減少。我們需要改變我們的策略並尋找過去銷售良好的產品,深入分析多個級別。

簡單討論下數據分析的原理

相關分析

相關性分析是分析不同特徵或數據之間的關係,以發現關鍵影響和業務驅動因素。常用的相關分析方法是協方差、相關係數、迴歸和信息熵。相關係數和迴歸也可以用於將在下面討論的預測。相關性是迴歸的前提,相關係數表明兩個變量之間存在關係,而回歸則表明兩個變量之間的關係。相關係數和迴歸也可以擴展到典型的相關分析(多變量)和多元迴歸。

簡單討論下數據分析的原理

4.還有什麼會對數據產生影響?

有許多算法用於進行預測,但並非所有預測分析都需要用難以理解的算法來解決。例如,行業趨勢、增長率、同比率、基本概率等有時也可以解釋問題。但在這裡,我將介紹一些常見的預測方法:

特別要點

對於低實時性和連續性要求的預測,這絕對是最無憂的方法,但這與特定業務有關,因此必須熟悉業務和多視角觀察。

簡單討論下數據分析的原理

分類和迴歸

分類和迴歸都構造並驗證來自已知數據的函數,使得y = f(x)。對於未知的x,用f預測y。不同之處在於迴歸的輸出是連續的,並且分類的輸出是離散的。例如,我們預測明天的溫度將與今天的溫度相同,並且預測明天是下雨還是晴天是一種分類。分類方法包括邏輯迴歸、決策樹和支持向量機、而回歸分析通常使用線性迴歸。

簡單討論下數據分析的原理

當然,仍然存在許多預測算法,例如隱馬爾可夫(HMM)等。需要基於預測數據的細節選擇正確的方法。

5.該怎麼辦?

該怎麼做才是數據分析的最終目標。讓我們介紹一些可以使用的方法:

擬合與圖論

這是規劃路線規劃時最常用的。可以通過構建圖形並使用找到最短路徑的算法(Dijkstra,Floyd等)來構建路徑。

簡單討論下數據分析的原理

協同過濾

協同過濾是一種使用集體智慧的方式。就像經典的面試問題一樣,當你遇到一個從未遇到過的問題時,你應該怎麼做?答案是問那些比你經歷過更多經驗的人。協作過濾在推薦引擎中使用最多。

簡單討論下數據分析的原理

數據分析師也有一種非常普遍的情況。這是在您獲取數據時,但沒有固定目的。這稱為探索性分析。在這種情況下,藉助數據分析工具,我們可以做一些一般的探索性分析,查看數據趨勢,並逐步加深我們的見解。

簡單討論下數據分析的原理

對於公司而言,探索性分析的工具主要是報告和BI。一個完美的例子是FineReport ,它可以生成各種複雜的報告,以及用於數據可視化的大屏幕。在報告和商業智能的基礎上,可以增加預警系統,如提醒異常指標,使領導者只需關注這些指標,而不必查看所有指標,以節省時間,提高效率。


分享到:


相關文章: