今天我就來給大家分享一個不用技術,不需要編程開發,可直接使用的一個快捷採集的軟件,只用添加需要採集的網頁鏈接就可以將網頁上的數據採集到本地放到Excel表格當中給我們做數據分析。鏈家作為一個全國二手房市場的代表企業,二手房數據也是比較全的,下面我們就用GooSeeker網絡爬蟲來採集鏈接的二手房信息。
下面就給大家分享下快速有效地將鏈家的二手房信息採集下來的步驟。
1,準備工具—GooSeeker網絡爬蟲
下載,安裝,打開,登錄賬號,這裡就不廢話了,直接上乾貨
2,使用鏈家二手房數據DIY,快速採集
數據DIY是一個快捷採集工具,不用編程,直接用
1)進入數據DIY,從GooSeeker網站的頂部菜單進入路線是:資源——>數據DIY
2)在數據DIY網頁上,依次選擇 類別 — 網站 — 網頁
鏈家的具體類型是:
類別:房地產,
網站:鏈家,
網頁:鏈家二手房在售房源列表
參考下圖
3)對比樣本頁面,觀察頁面的結構,輸入的網址一定要具有相同的頁面結構,否則會採集失敗。
鏈家的樣本頁面是這個樣子的
你可能看到的需要採集的頁面是這樣的,可以對比一下,他們是一樣的。
可以看出兩個頁面幾乎一樣,只是商品和地區不同而已
4)輸入要採集的網址,需要採集多少頁就選擇多少頁,如果需要採集完全部數據都話,就直接選擇全部就好了
會看到一個提示,要求啟動爬蟲窗口。而且會啟動2個窗口,一個用來採集數據,一個用來打包數據。運行期間不要關閉他們,也不要最小化。但是這些窗口上面可以覆蓋其他窗口
5)等待採集完成,打包下載數據
注意:提示採集完成後不要立馬關閉窗口哦,需等待打包按鈕變成綠色,採集狀態變成已採集,請看下圖
6)打包數據
7)下載數據
8)到這裡我們的數據就採集下來了,讓我們來看下我們採集到的數據吧
9)採集完列表信息之後可以直接將這個詳情鏈接添加到鏈家二手房在售房源詳情信息來採集房源詳情的信息
閱讀更多 語義網絡爬蟲 的文章