你真的懂數據分析嗎？一文讀懂數據分析的流程、基本方法和實踐

2018-10-11 20:55:00 華章科技

導讀：無論你的工作內容是什麼，掌握一定的數據分析能力，都可以幫你更好的認識世界，更好的提升工作效率。數據分析除了包含傳統意義上的統計分析之外，也包含尋找有效特徵、進行機器學習建模的過程，以及探索數據價值、找尋數據本根的過程。

本文摘編自《Spark機器學習進階實戰》，如需轉載請聯繫我們

01 數據分析流程

數據分析可以幫助我們從數據中發現有用信息，找出有建設性的結論，並基於分析結論輔助決策。如圖1所示，數據分析流程主要包括業務調研、明確目標、數據準備、特徵處理、模型訓練與評估、輸出結論等六個關鍵環節。

▲圖1 數據分析流程

數據分析能力並非一朝一夕養成的，需要長期紮根業務進行積累，需要長期根據數據分析流程一步一個腳印分析問題，培養自己對數據的敏感度，從而養成用數據分析、用數據說話的習慣。當你可以基於一些數據，根據自己的經驗做出初步的判斷和預測，你就基本擁有數據思維了。

02 數據分析基本方法

數據分析是以目標為導向的，通過目標實現選擇數據分析的方法，常用的分析方法是統計分析，數據挖掘則需要使用機器學習構建模型。接下來介紹一些簡單的數據分析方法。

1. 彙總統計

統計是指用單個數或者數的小集合捕獲很大值集的特徵，通過少量數值來了解大量數據中的主要信息，常見統計指標包括：

分佈度量：概率分佈表、頻率表、直方圖
頻率度量：眾數
位置度量：均值、中位數
散度度量：極差、方差、標準差
多元比較：相關係數
模型評估：準確率、召回率

彙總統計對一個彈性分佈式數據集RDD進行概括統計，它通過調用Statistics的colStats方法實現。colStats方法可以返回RDD的最大值、最小值、均值、方差等，代碼實現如下：

import org.apache.spark.MLlib.linalg.Vector

import org.apache.spark.MLlib.stat.{MultivariateStatisticalSummary, Statistics}

// 向量[Vector]數據集

val data: RDD[Vector] = ...

// 彙總統計信息

val summary: statisticalSummary = Statistics.colStats(data)

// 平均值和方差

println(summary.mean)

println(summary.variance)

2. 相關性分析

相關性分析是指通過分析尋找不用商品或不同行為之間的關係，發現用戶的習慣，計算兩個數據集的相關性是統計中的常用操作。

在MLlib中提供了計算多個數據集兩兩相關的方法。目前支持的相關性方法有皮爾遜（Pearson）相關和斯皮爾曼（Spearman）相關。一般對於符合正態分佈的數據使用皮爾遜相關係數，對於不符合正態分佈的數據使用斯皮爾曼相關係數。

皮爾遜相關係數是用來反映兩個變量相似程度的統計量，它常用於計算兩個向量的相似度，皮爾遜相關係數計算公式如下：

其中X, Y表示兩組變量，X', Y'表示兩個變量的平均值，皮爾遜相關係數可以理解為對兩個向量進行歸一化以後，計算其餘弦距離（即使用餘弦函數cos計算相似度，用向量空間中兩個向量的夾角的餘弦值來衡量兩個文本間的相似度），皮爾遜相關大於0表示兩個變量正相關，小於0表示兩個變量負相關，皮爾遜相關係數為0時，表示兩個變量沒有相關性。

調用MLlib計算兩個RDD皮爾遜相關性的代碼如下，輸入的數據可以是RDD[Double]也可以是RDD[Vector]，輸出是一個Double值或者相關性矩陣。

import org.apache.spark.SparkContext

import org.apache.spark.MLlib.linalg._

import org.apache.spark.MLlib.stat.Statistics

// 創建應用入口

val sc: SparkContext = ...

// X變量

val seriesX: RDD[Double] = ...

// Y變量，分區和基數同seriesX

val seriesY: RDD[Double] = ...

// 使用Pearson方法計算相關性，斯皮爾曼的方法輸入“spearman”

val correlation: Double = Statistics.corr(seriesX, seriesY, "pearson")

// 向量數據集

val data: RDD[Vector] = ...

val correlMatrix: Matrix = Statistics.corr(data, "pearson")

皮爾遜相關係數在機器學習的效果評估中經常使用，如使用皮爾遜相關係數衡量推薦系統推薦結果的效果。

3. 分層抽樣

分層抽樣先將數據分為若干層，然後再從每一層內進行隨機抽樣組成一個樣本。MLlib提供了對數據的抽樣操作，分層抽樣常用的函數是sampleByKey和sampleByKeyExact，這兩個函數是在key-value對的RDD上操作，用key來進行分層。

其中，sampleByKey方法通過擲硬幣的方式進行抽樣，它需要指定需要的數據大小；sampleByKeyExact抽取fkey·nkey個樣本，fkey表示期望獲取鍵為key的樣本比例，nkey表示鍵為key的鍵值對的數量。sampleByKeyExact能夠獲取更準確的抽樣結果，可以選擇重複抽樣和不重複抽樣，當withReplacement為true時是重複抽樣，false時為不重複抽樣。重複抽樣使用泊松抽樣器，不重複抽樣使用伯努利抽樣器。

分層抽樣的代碼如下：

import org.apache.spark.SparkContext

import org.apache.spark.SparkContext._

import org.apache.spark.rdd.PairRDDFunctions

val sc: SparkContext = ...

// RDD[(K, V)]形式的鍵值對

val data = ...

//指定每個鍵所需的份數

val fractions: Map[K, Double] = ...

//從每個層次獲取確切的樣本

val approxSample = data.sampleByKey(withReplacement = false, fractions)

val exactSample = data.sampleByKeyExact(withReplacement = false, fractions)

通過用戶特徵、用戶行為對用戶進行分類分層，形成精細化運營、精準化業務推薦，進一步提升運營效率和轉化率。

4. 假設檢驗

假設檢驗是統計中常用的工具，它用於判斷一個結果是否在統計上是顯著的、這個結果是否有機會發生。通過數據分析發現異常情況，找到解決異常問題的方法。

MLlib目前支持皮爾森卡方檢驗，對應的函數是Statistics類的chiSqTest，chiSqTest支持多種輸入數據類型，對不同的輸入數據類型進行不同的處理，對於Vector進行擬合優度檢驗，對於Matrix進行獨立性檢驗，對於RDD用於特徵選擇，使用chiSqTest方法進行假設檢驗的代碼如下：

import org.apache.spark.SparkContext

import org.apache.spark.MLlib.linalg._

import org.apache.spark.MLlib.regression.LabeledPoint

import org.apache.spark.MLlib.stat.Statistics._

val sc: SparkContext = ...

// 定義一個由事件頻率組成的向量

val vec: Vector = ...

// 作皮爾森擬合優度檢驗

val goodnessOfFitTestResult = Statistics.chiSqTest(vec)

println(goodnessOfFitTestResult)

// 定義一個檢驗矩陣

val mat: Matrix = ...

// 作皮爾森獨立性檢測

val independenceTestResult = Statistics.chiSqTest(mat)

// 檢驗總結：包括假定值（p-value）、自由度（degrees of freedom）

println(independenceTestResult)

// pairs(feature, label).

val obs: RDD[LabeledPoint] = ...

// 獨立性檢測用於特徵選擇

val featureTestResults: Array[ChiSqTestResult] = Statistics.chiSqTest(obs)

var i = 1

featureTestResults.foreach { result =>

println(s"Column $i:\n$result")

i += 1

}

03 簡單的數據分析實踐

為了更清楚的說明簡單的數據分析實現，搭建Spark開發環境，並使用gowalla數據集進行簡單的數據分析，該數據集較小，可在Spark本地模式下，快速運行實踐。

實踐步驟如下：

1）環境準備：準備開發環境並加載項目代碼；

2）數據準備：數據預處理及one-hot編碼；

3）數據分析：使用均值、方差、皮爾遜相關性計算等進行數據分析。

簡單數據分析實踐的詳細代碼參考：ch02\GowallaDatasetExploration.scala，本地測試參數和值如表1所示。

▲表1 本地測試參數和值

1. 環境準備

Spark程常用IntelliJ IDEA工具進行開發，下載地址：www.jetbrains.com/idea/，一般選擇Community版，當前版本：ideaIC-2017.3.4，支持Windows、Mac OS X、Linux，可以根據自己的情況選擇適合的操作系統進行安裝。

（1）安裝scala-intellij插件

啟動IDEA程序，進入“Configure”界面，選擇“Plugins”，點擊安裝界面左下角的“Install JetBrains plugin”選項，進入JetBrains插件選擇頁面，輸入“Scala”來查找Scala插件，點擊“Install plugin”按鈕進行安裝。（如果網絡不穩定，可以根據頁面提示的地址下載，然後選擇“Install plugin from disk”本地加載插件），插件安裝完畢，重啟IDEA。

（2）創建項目開發環境

啟動IDEA程序，選擇“Create New Project”，進入創建程序界面，選擇Scala對應的sbt選項，設置Scala工程名稱和本地目錄（以book2-master為例），選擇SDK、SBT、Scala版本（作者的開發環境：Jdk->1.8.0_162、sbt->1.1.2、scala->2.11.12），點擊“Finish”按鈕完成工程的創建。

導入Spark開發包，具體步驟為：File->Project Structure->Libraries->+New Project Library（Java），選擇spark jars（如：spark-2.3.0-bin-hadoop2.6/jars）和本地libs（如：\book2-master\libs，包括：nak_2.11-1.3、scala-logging-api_2.11-2.1.2、scala-logging-slf4j_2.11-2.1.2）。

（3）拷貝項目代碼

拷貝源代碼中的2rd_data、libs、output、src覆蓋本地開發項目目錄，即可完成開發環境搭建。

除此之外，也可以通過Maven方式Import Project。

2. 準備數據

我們提供的數據格式：

用戶[user] 簽到時間[check-in time] 維度[latitude] 精度[longitude] 位置標識[location id]

數據樣例如下：

準備數據的步驟如下。

（1）數據清洗

在數據清洗階段過濾掉不符合規範的數據，並將數據進行格式轉換，保證數據的完整性、唯一性、合法性、一致性，並按照CheckIn類填充數據，具體實現方法如下：

// 定義數據類CheckIn

case class CheckIn(user: String, time: String, latitude: Double, longitude: Double, location: String)

// 實例化應用程序入口

val conf = new SparkConf().setAppName(this.getClass.getSimpleName).setMaster(mode)

val sc = new SparkContext(conf)

val gowalla = sc.textFile(input).map(_.split("\t")).mapPartitions{

case iter =>

val format = DateTimeFormat.forPattern("yyyy-MM-dd\'T\'HH:mm:ss\'Z\'")

iter.map {

// 填充數據類

case terms => CheckIn(terms(0), terms(1).substring(0, 10), terms(2).toDouble, terms(3).toDouble,terms(4))

}

（2）數據轉換

在數據轉化階段，將數據轉換成Vectors的形式，供後面數據分析使用。

// 字段：user, checkins, checkin days, locations

val data = gowalla.map{

case check: CheckIn => (check.user, (1L, Set(check.time), Set(check.location)))

}.reduceByKey {

// 並集 union

case (left, right) =>(left._1 + right._1,left._2.union(right._2),left._3.union(right._3))

}.map {

case (user, (checkins, days:Set[String], locations:Set[String])) =>

Vectors.dense(checkins.toDouble,days.size.toDouble,

locations.size.toDouble)

}

3. 數據分析

通過簡單的數據分析流程，實現均值、方差、非零元素的目錄的統計，以及皮爾遜相關性計算，來實現對數據分析的流程和方法的理解。

簡單的數據分析代碼示例如下：

// 統計分析

val summary: MultivariateStatisticalSummary = Statistics.colStats(data)

// 均值、方差、非零元素的目錄

println("Mean"+summary.mean)

println("Variance"+summary.variance)

println("NumNonzeros"+summary.numNonzeros)

// 皮爾遜

val correlMatrix: Matrix = Statistics.corr(data, "pearson")

println("correlMatrix"+correlMatrix.toString)

簡單數據分析應用運行結果如下：

均值：[60.16221566503564,25.30645613117692,37.17676390393301]

方差:[18547.42981193066,1198.630729157736,7350.7365871949905]

非零元素:[107092.0,107092.0,107092.0]

皮爾遜相關性矩陣:

1.0 0.7329442022276709 0.9324997691135504

0.7329442022276709 1.0 0.5920355112372706

0.9324997691135504 0.5920355112372706 1.0

本文摘編自《Spark機器學習進階實戰》，經出版方授權發佈。

延伸閱讀《Spark機器學習進階實戰》

分享到:

閱讀更多 華章科技 的文章

關鍵字: Spark 技術數據分析

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"

你真的懂數據分析嗎？一文讀懂數據分析的流程、基本方法和實踐

相關文章:

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

Hive分桶表

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

第一章 Spring Framework概述

opencv人工智能深度學習這樣實現人臉的年齡檢測

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

Redis內存分析工具--rdr安裝與使用

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

一行代碼提升遷移性能

利用相似幾何信息，做可泛化3D形狀分割模型

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

分佈式緩存，真香

特徵工程的力量

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

SpringBoot如何優雅的使用RocketMQ

css代碼規範工具stylelint

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪