批量爬取安居客二手房的房源信息

一、下載安裝gooseeker爬蟲

爬數據要用配套的gooseeker爬蟲軟件,所以第一步是要訪問官網https://www.gooseeker.com/pro/product.html

下載軟件,然後雙擊安裝,後面的步驟都要在軟件裡操作。

批量爬取安居客二手房的房源信息

二、訪問數據DIY找到入口

打開gooseeker軟件,訪問https://www.gooseeker.com/res/datadiy.html,進入到數據DIY裡,在頂部的目錄上點擊"房地產->安居客->安居客二手房房源列表",這樣就選定了入口;

批量爬取安居客二手房的房源信息

目錄的第三級是頁面,它代表了支持爬取的網頁結構,在中部有示例頁面的網址,點開看到的是廣州-天河二手房的列表頁面,滿足這個列表結構的安居客網頁,都可以用上面的入口來爬數據。

批量爬取安居客二手房的房源信息

比如,要爬取上海的二手房列表,可以點擊示例網頁頂部的廣州,切換到上海,但是,安居客限制了最多顯示50頁,如果要爬取比較完整的數據,最好是再點擊一下目錄的各級分類,把一個網址下的頁碼數控制在50頁以內,再把各級分類的網址拷貝整理出來。

批量爬取安居客二手房的房源信息

三、添加網址爬數據

只有一個網址的話,可以直接粘貼到輸入框裡,然後選擇要爬取的頁數,最後點擊獲取數據;

批量爬取安居客二手房的房源信息

有多條網址的話,先選擇爬取頁數,再點擊"輸入多條網址"按鈕,把多條網址拷貝粘貼進去,最後確定;

批量爬取安居客二手房的房源信息

添加網址成功後,會提示啟動兩個爬蟲窗口,點啟動,就會看到有兩個爬蟲窗口和一個管理窗口打開;批量爬取安居客二手房的房源信息

爬蟲窗口就是一個瀏覽器窗口,它會自動訪問要採集的網址,然後把數據存下來。

批量爬取安居客二手房的房源信息

四、下載數據

爬蟲窗口沒有再訪問網頁,說明爬取完成了,到管理窗口把數據打包和下載下來。

批量爬取安居客二手房的房源信息

然後在軟件右上角的下載歷史按鈕裡,可以查到存儲路徑,根據路徑找到數據包,查看數據表。

批量爬取安居客二手房的房源信息

五、進一步爬取二手房詳情頁數據

前面下載的數據表裡的鏈接是詳情頁面的網址,這時,可以切換到"安居客二手房房源詳情信息",把表裡的鏈接拷貝添加進去,再啟動採集。

批量爬取安居客二手房的房源信息

批量爬取安居客二手房的房源信息

最後,爬到的詳情數據表裡,多了下面這些字段數據,比列表數據更加全面。

批量爬取安居客二手房的房源信息


分享到:


相關文章: