爬取鏈家數據,用散點圖分析武漢市二手房價格

本文是Excel散點圖應用的實踐案例,通過散點圖對房地產數據分析的應用,讓大家瞭解散點圖的適用場景,以及發現一些數據的特徵。

收集鏈家二手房數據

利用gooseeker的在線快捷爬數據應用——數據DIY,抓取鏈家上武漢的二手房列表數據,一共爬到300條數據,把它作為樣本,簡單分析一下房產價格的影響因素。

爬取鏈家數據,用散點圖分析武漢市二手房價格

數據DIY地址:

https://www.gooseeker.com/res/datadiy.html?category=%E6%88%BF%E5%9C%B0%E4%BA%A7&web=%E9%93%BE%E5%AE%B6&rule=%E9%93%BE%E5%AE%B6%E4%BA%8C%E6%89%8B%E6%88%BF%E5%9C%A8%E5%94%AE%E6%88%BF%E6%BA%90%E5%88%97%E8%A1%A8

數據處理

對房屋信息一列用Excel的分列功能,清洗出戶型、面積、朝向、裝修、電梯情況這4類信息。

爬取鏈家數據,用散點圖分析武漢市二手房價格

對位置信息這列用分列功能,把建築年代單獨作為一列,再用mid函數提取出年代數值,最後用減法算出樓齡。

爬取鏈家數據,用散點圖分析武漢市二手房價格

最後要把文本格式的數據轉為數值格式,後面畫圖需要用到。

爬取鏈家數據,用散點圖分析武漢市二手房價格

如何用Excel畫散點圖

Excel是自帶散點圖功能的,所以用Excel製作散點圖十分的簡單,只需要準備好數據,選擇數據後插入自帶的散點圖就可以生成。不過散點圖對數據源是有要求的,都是以兩列數據為一組,一列數據為橫座標,另一列數據為縱座標,以此為基礎來製作散點圖。用Excel生成散點圖時,默認是以第一列數據為橫座標,第二列數據為縱座標,我們在製作散點圖時注意一下就好了。

爬取鏈家數據,用散點圖分析武漢市二手房價格

用C列的價格和D列的面積來製作散點圖,從而分析房價與面積之間的關係。選中C列和D列,然後點擊工具欄的插入,選中查看所有圖表,再選擇XY散點圖,點擊確定即可,操作步驟可對照參考下圖。

爬取鏈家數據,用散點圖分析武漢市二手房價格

生成的散點圖效果如下:

爬取鏈家數據,用散點圖分析武漢市二手房價格

以上介紹的是用一組數據製作散點圖的教程,Excel散點圖與其它圖表類型稍有不同,一組數據直接選中插入後既可生成散點圖,但如果同時選擇多組數據,並不能生成多組數據的散點圖,那如果是兩組或兩組以上的數據該怎麼製作散點圖呢?我們再添加一組數據試試,就把房價和樓層作為另一組數據添加到散點圖中,具體操作如下:

在繪圖區域中右鍵鼠標選擇:選擇數據,並在彈出的對話框中選擇:添加,

爬取鏈家數據,用散點圖分析武漢市二手房價格

爬取鏈家數據,用散點圖分析武漢市二手房價格

在系列名稱中輸入價格與樓齡,用於分佈不同組的數據,然後分別將價格數據C列數據添加到X軸系列值,將樓齡數據E列數據添加了Y軸系列值,並單擊確定即可。

爬取鏈家數據,用散點圖分析武漢市二手房價格

因為樓齡的單位與面積單位相差太大,用一個Y座標顯示,散點的Y軸區域就顯得太窄不好分析,所以這裡把樓齡設置為次座標軸,座標生成在散點圖的右側,兩個系列數據的散點圖表效果如下圖,不同城市的數據以不同的顏色標出,可以根據以上方法添加多組數據。

爬取鏈家數據,用散點圖分析武漢市二手房價格

數據分析

從散點圖上主要是通過散點的分佈情況來分析數據之間的線性關係和異常值存在情況。

爬取鏈家數據,用散點圖分析武漢市二手房價格一、從散點圖上看出價格與面積的關係,可以明顯的觀察出價格與面積是呈現正線性相關,房源的面積越大,價格越高。

三、從圖上的散點也可以明顯的看出在X為1000和1200之間,兩組數據分別存在一個異常值點,脫離了散點群,但實際上房產作為大宗商品,其價格是由市場供求關係決定的,波動範圍很大,不能說是錯誤值。

上面是分別對價格與面積的關係、價格與樓齡的關係做分析,如果想要看到面積、樓齡兩者的關係或者是結合兩者來分析價格變化,可以用氣泡圖來分析,後面我會在文章《爬取鏈家數據,用氣泡圖分析武漢市二手房價格》裡做介紹。

關於散點圖

散點圖又稱散點分佈圖,在座標系中以橫座標表示自變量x,以縱座標表示因變量y,而變量組(x,y)則用座標系中的點表示,不同的變量組在座標系中形成不同的散點,這些座標系中的散點形成的二維圖就是散點圖,它是利用散點的分佈形態來反映變量統計關係的一種圖形。

散點圖有什麼作用

1、散點圖是描述變量關係的一種直觀方法,可以從散點圖中直觀的看出兩個變量之間是否存在線性相關關係、是正線分佈還是負線性分佈。

線性分佈大致可以分為以下六種模式,如圖所示。

a) 如果變量Y隨著X的增大而有明顯的增大趨勢,則稱兩個變量強正線性相關。

b) 如果變量Y隨著X的增大而有明顯的減小趨勢,則稱兩個變量強負線性相關。

c) 如果變量Y隨著X的增大而有一定的增大趨勢,則稱兩個變量弱正線性相關。

d) 如果變量Y隨著X的增大而有一定的減小趨勢,則稱兩個變量弱負線性相關。

e) 如果變量Y隨著X的變化而有明顯的非線性趨勢,則稱兩個變量非線性相關(曲線相關)。

f) 如果變量Y隨著X的變化雜亂無章地變化,則稱兩個變量不相關。

爬取鏈家數據,用散點圖分析武漢市二手房價格

2、可以用來繪製各種函數趨勢線,從簡單的三角函數、指數函數、對數函數到更復雜的混合型函數,都可以利用它快速準確地繪製出曲線,所以在教學、科學計算中會經常用到。如在Excel散點圖中要得到各數據點趨勢線的公式、表示趨勢線可靠程度的R平方值,只需右鍵,添加趨勢線,然雙擊選擇趨勢線,將"顯示公式"和"顯示R平方值"勾選上,就可得到趨勢線的公式,得到趨勢線公式是如此的簡單。

爬取鏈家數據,用散點圖分析武漢市二手房價格

3、可以通過散點圖來檢查數據是否存在異常值。通過散點圖也可以檢查出數據的異常,當某數據過於大或者過於小的時候,變量組形成的散點會遠離散點群,處於散點圖的某個角落,一眼便能看出。

爬取鏈家數據,用散點圖分析武漢市二手房價格

散點圖還可以製作誤差線,擴展成四象限圖等等。總之,散點圖的作用遠不止以上幾點,在這就不一一介紹了。


分享到:


相關文章: