散點圖與動態4象限散點圖(含視頻教程)

散點圖是一種用於展示兩個(或多個)變量在一個直角座標系的平面上分佈狀況的一組數據的圖形。

數據顯示為一組點,其一般性的外觀通常如下:

散點圖與動態4象限散點圖(含視頻教程)

散點圖一般用來做相關性分析,直觀地顯示變量之間的相關強度、相關方向以及是否存在異常值。

當兩個或多個變量之間存在線性相關時,可以根據其兩個變量數據分佈的最佳擬合線和相關係數,通過一個變量去預測合理數據範圍內的另一個變量的值。

另外,相關性是變量之間的數學關係,兩個變量間存在相關關係並不意味著一個變量必定會影響另一個變量,也不意味著兩者間存在因果關係。

所以,當一副散點圖放在我們面前,即使數據點完美的分佈在一條直線上,我們也只能稱之為線性相關,但是不能據此判斷出有實際關係,更不能據此推斷該兩個變量間有因果關係。

瞭解以上基礎知識,有助於更好的閱讀和理解散點圖,也有助於正確的使用散點圖。

統計學知識是數據可視化知識體系的重要組成部分。即使是日常工作中的數據可視化,瞭解一點基本的統計學知識,也是很有必要的。我所知道的比較淺顯的統計學入門教材是head first系列的《深入淺出統計學》,感興趣的讀者朋友可以找來看看。

實際應用中,探尋一個變量變化時,另一個變量是如何變化的,比如入室盜竊率高的城市暴力犯罪率是否也高?房價和住房建築面積之間的關係是怎樣的?每天喝可樂的人是否會更胖?等。

我手頭恰好有一份美國8659個城鎮2006-2008各類別犯罪的統計數據,為了尋找上面第一個問題的答案,我以入室盜竊和暴力犯罪的案件數作為兩個變量,畫了如下散點圖:

散點圖與動態4象限散點圖(含視頻教程)

一共8659個數據點,一個數據點代表一個城市,x值為2007年的入室盜竊案件數,y值為當年暴力犯罪的案件數,在圖形化之前,你可能很難觀察出兩者間的相關關係,但是,通過散點圖的展現,答案就很明顯了:兩者呈現高度正相關,也就是一個變量的值變大時,另一個變量的數值也相應上升。

有時候,需要分別對比一個變量和多個變量間的相關關係,就可以作一組散點圖來進行對比,如下圖:

散點圖與動態4象限散點圖(含視頻教程)

或者:

散點圖與動態4象限散點圖(含視頻教程)

在實際工作中,這種成組的、用來分別表示一個變量和多個變量之間相關性的散點圖,可以有很多的應用場景,比如,我們知道一個公司的產品銷量這個固定的變量,分別和價格水平、折扣、服務滿意度、產品耐用性、宏觀經濟形勢等變量相關,那麼,在某種條件或某個時段內,和哪一個變量相關性最強,和哪一個變量相關性最弱,就可以據此輔助決策工作的重心應該朝向哪個方面,或者發現導致銷量疲軟的主要因素是哪些。

圖形中間的直線叫做最佳擬合線(line of best fit),它和相關係數一起,用來表示相關性的強度和方向,本篇僅淺談一下,後面篇章作深入講解。

有時候需要對散點圖的數據對象做一個細分類別的處理,以觀察到各類別的數據點分佈情況,除了使用上面的多組散點圖的樣式,也可以用不同的標記點顏色來區分:

散點圖與動態4象限散點圖(含視頻教程)

散點圖與動態4象限散點圖(含視頻教程)

以上的細分類別是根據數據對象的地理分佈,或者說是數據對象的一種屬性來劃分。有時候需要對比數據對象的多個時間階段或時間點的數據分佈,也可以採用類似的方式處理:

散點圖與動態4象限散點圖(含視頻教程)

對於不同數值區間的數據呈現,也可以用這種分階段散點圖來呈現:

散點圖與動態4象限散點圖(含視頻教程)

以上例圖呈現的都是兩個變量,當一個圖形需要展現三個變量的相關性,則需要引入更多的視覺暗示,比如顏色和麵積:

散點圖與動態4象限散點圖(含視頻教程)

散點圖與動態4象限散點圖(含視頻教程)

散點圖與動態4象限散點圖(含視頻教程)

散點圖作為體現圖表發掘和探索功能的一種典型圖表,功能很強大,應用很廣泛,樣式也非常多樣化,是很值得仔細研究和學習的一大類圖表類型。

下面介紹動態4象限散點圖的做法,用超級表及切片器作為輔助工具來完成,製作的過程請見如下視頻:

獲取視頻信息失敗

獲取本視頻的範例文件,請後臺私信留言,“動態散點圖”

我是作者蘇有熊,謝謝觀看,再見。


分享到:


相關文章: