除了網絡爬蟲,還有哪些方法可以採集數據?

每日一發小視頻


這裡介紹2個免費的爬蟲工具—Excel和八爪魚,不需要寫任何代碼,就能實現對網絡數據的爬取,下面我簡單介紹一下這2個工具是如何爬取網絡數據的,主要內容如下:

1.Excel爬取數據:Excel這個辦公工具大部分人都應該聽說過,日常的表格製作、數據統計,經常會用到,但是說起利用Excel爬取網絡數據,這個使用的人應該不多,下面我簡單介紹一下Excel是如何爬取數據的,主要步驟如下,這裡以office2016為例:

  • 這裡以抓取http://www.pm25.in/rank上的pm2.5數據為例,如下:

  • 首先,新建一個Excel表格,如下,依次點擊“數據”->“自網站”,如下:

  • 接著在彈出的窗口中輸入要爬取的網站鏈接地址,點擊“跳轉”,就會自動跳轉到對應頁面,接著點擊“導入”,就會自動導入網頁數據,如下:

成功導入後的數據如下,也就是我們需要爬取的網絡數據:

這裡也可以設置定時刷新的頻率,定時刷新數據,如下,點擊“屬性”,就會彈出如下對話框,直接設置刷新頻率就行:

2.八爪魚爬取數據:這是一個免費的網絡採集工具,不需要寫任何代碼,完全可視化操作,使用簡單,文檔豐富,用戶只需簡單的點擊、選中,就能實現對絕大多數網站數據的爬取,下面我簡單介紹一下這個工具的安裝和使用:

  • 安裝八爪魚,這個直接到官方下載就成,免費,很快就能下載完成,完成後,直接雙擊安裝就行:

  • 這裡以爬取58上的招聘數據為例,如下:

  • 首先,打開八爪魚軟件,點擊“任務”,輸入網址,就會打開爬取的頁面,如下:

  • 接著我們選中需要採集的條目,如下,隨便點擊一個就行:

  • 然後在右上角的“操作提示”中依次點擊“選中子元素”->“選中全部”->“採集以下數據”->“保存並開始採集”,如下,程序就會自動開始採集數據:

成功採集後的數據如下,也就是我們需要爬取的數據:

這裡我們也可以點擊右下角的“導出數據”,導出為excel,csv,數據庫等都行:

至此,我們就完成了利用excel和八爪魚對網絡數據的採集。總的來說,這2個工具使用起來都非常方便、快捷,只需要簡單的點擊按鈕,就可以完成對網絡數據的採集,不需要寫任何代碼,網上的教程也很豐富,感興趣的可以嘗試一下,當然,你也可以利用python等爬蟲來完成對數據的採集,都可以,希望以上分享的內容能對你有所幫助吧,也歡迎大家評論、留言。


小小猿愛嘻嘻


採集數據主要有兩個方向,一是自己編爬蟲程序去採集,二是使用別人政府或者企業公司等公開的數據。

1. 編爬蟲程序去採集數據(比較有針對性,比較適合我們的需求就是我想要什麼數據就採集什麼數據,可以使用Python爬蟲去採集,不是很難。但有一點就像樓主說的一樣,有點麻煩。)

2.使用公開的數據(針對性不強,可能公開的數據樣本不符合我們的需求,這樣就不利於工作的開展了,但特點就是方便)

由上面兩種方式的解說,我們可以根據具體情況來選擇不同的方式來採集數據。如果“公開的數據”比較符合我們的需求,就用“公開數據”做樣本數據。如果“公開數據”很大程度不符合我們的需求,就“使用Python爬蟲”去採集數據。

以上是我的看法,希望對你有幫助。


Python是一個時代


然後我再說說優缺點:Excel無法實現反反爬,網站稍微做下處理就失效了。八爪魚和神箭手稍微傻瓜式一點,但是並也需要些基礎知識(Re和xpath或者css選擇器)。但是兩個都價格不菲,也是最簡單的(連招人都免了)


火星異端


除了一樓說的Excel和八爪魚之外,還有WebScrape爬蟲插件,也是可以幫助我們自助採集數據的,不用寫代碼


分享到:


相關文章: