用GooSeeker爬蟲實現自動點擊抓取淘寶sku庫存和價格信息

我們在像淘寶京東這種電商網站購物時,通常有很多款式可以選擇,比如圖案、尺碼、顏色等等,選了任意一種組合,這個商品對應的sku庫存值就會跟著改變,價格有時候也會變,比如手機和電腦選擇不同配置規格,價格就會不一樣;


如果你是在研究商品的組合、價格、sku等信息,用手工點擊和拷貝的方法來收集這些信息,就顯得太浪費時間和人力了,知道數據採集的人都已經用上GooSeeker爬蟲了,它具有獨特的連續動作功能,可以模擬人在瀏覽網頁時的操作行為,只需要指定要點擊的屬性對象,就可以讓爬蟲自動點擊各種屬性組合,實現機器自動點擊,從而爬取各種商品組合下對應的信息。下面就來教大家用GooSeeker爬蟲的連續動作來做規則,實現自動點擊抓取sku庫存和價格信息。

用GooSeeker爬蟲實現自動點擊抓取淘寶sku庫存和價格信息

操作流程

要實現自動點擊抓取sku庫存,爬蟲需要分兩級規則來實現,第一級規則是用來點擊尺碼和顏色,第二級規則是採集sku庫存。

用GooSeeker爬蟲實現自動點擊抓取淘寶sku庫存和價格信息

一、第一級規則,設置連續動作

1、首先建立第一級主題的規則,這裡我們設置一級規則的主題名為''淘寶sku採集1",第一級規則可以只做連續動作不抓信息,但是為了讓爬蟲能判斷是否執行過採集,我們通常會在網頁上任意標註一個信息作為抓取目標。

2、然後開始設置連續動作,點擊切換到連續動作窗口下,我們需要爬蟲依次點擊尺碼和顏色,也就是說,對應尺碼和顏色分別要有一個點擊動作,所以一共要做兩個點擊動作。

3、首先在目標主題名輸入框輸入第二級規則的主題名,就表明這個連續動作是指向第二級規則。比如我們這裡的第二級規則主題名是''淘寶sku採集2",那麼就在這個目標主題名中輸入''淘寶sku採集2"。

用GooSeeker爬蟲實現自動點擊抓取淘寶sku庫存和價格信息

4、然後點擊新建按鈕來創建第一個動作,動作類型選擇點擊,這是用來點尺碼的,接下來要用xpath來指定爬蟲的點擊對象,xpath可以自己寫,也可以點擊尺碼屬性,通過左側的顯示xpath功能,生成能定位到所有尺碼屬性的xpath,再點擊中間的搜索按鈕,檢驗這個xpath能否定位到每一個尺碼,然後把xpath填入到定位表達式中,最後再給動作命名一個名稱,說明這一步動作是用來幹嘛的,方便以後修改,不填也沒有關係。

用GooSeeker爬蟲實現自動點擊抓取淘寶sku庫存和價格信息

5、由於每一個新建的動作默認都是勾上必做的,顧名思義,必做是指每次循環都要執行的動作。如果設置的兩個點擊動作都是默認必做,它的執行流程就是如圖(1)所示,每次都會先點擊尺碼,再點擊顏色,重複點擊尺碼會畫多點時間;而我們想要的是圖(2)的執行流程,點擊一次尺碼後,先把所有顏色都點一遍,再點下一個尺碼,這樣可以更快遍歷完所有組合。 用GooSeeker爬蟲實現自動點擊抓取淘寶sku庫存和價格信息

6、要實現圖2的點擊流程,只要對尺碼的點擊動作不勾必做,就是在高級設置裡取消勾必做,就會執行圖(2)的點擊流程。

用GooSeeker爬蟲實現自動點擊抓取淘寶sku庫存和價格信息

7、設置好之後,第一個點擊動作就製作好了。接下來就來創建第二個點擊動作,大致的步驟前面一樣,最後,點擊右上角存規則按鈕保存,第一級規則也就製作完成了。

用GooSeeker爬蟲實現自動點擊抓取淘寶sku庫存和價格信息

二、製作第二級規則,抓取目標信息

1、第一級規則保存好之後就可以開始創建第二級規則,點擊菜單欄中的規則-》新建,彈出提示"工作臺上有內容,清空嗎?",點擊確定,就可以做新規則。

2、然後取消勾選內容定位,在瀏覽器窗口中選中第一個尺碼和第一個顏色,讓網頁是處在執行點擊動作後的狀態,再勾上內容定位,然後點擊菜單欄中的規則-》刷新頁面結構來刷新網頁結構,接下來就可以開製作第二級規則了。

Ps:(如果是在定義規則模式下製作規則也可以這麼做,點擊"定義規則"恢復到普通網頁模式,再選中第一個尺碼和第一個顏色後,然後再次點擊"定義規則"切換到做規則模式)

用GooSeeker爬蟲實現自動點擊抓取淘寶sku庫存和價格信息

3、輸入第二級規則主題名''淘寶sku採集2"(這個規則主題名要與第一級規則的目標主題名一致),再標註需要採集的信息,這裡標註了5個字段,分別是標題,價格,尺碼,顏色,庫存。

4、為了能精確採集到對應的尺碼和顏色,這裡需要給尺碼和顏色這兩個字段自定義xpath來實現精確定位,在高級設置的自定義xpath中,選擇文本內容,在抓取內容表達式中輸入能定位到相應採集對象的xpath,這裡尺碼的xpath是://*[@class='tm-clear J_TSaleProp ']//*[@class='tb-selected']/a/span,顏色的xpath是://*[@class='tm-clear J_TSaleProp tb-img ']//*[@class='tb-selected']/a/span,在定位標誌表達式裡填點就行。

用GooSeeker爬蟲實現自動點擊抓取淘寶sku庫存和價格信息

5、定義好後點擊測試,沒問題就可以保存規則了。

用GooSeeker爬蟲實現自動點擊抓取淘寶sku庫存和價格信息

三、運行爬蟲抓取數據

因為連續動作是有連貫性的,運行規則時只需要啟動運行第一級規則就可以了。運行採集完之後就可以把數據導入到會員中心轉成Excel再導出。

用GooSeeker爬蟲實現自動點擊抓取淘寶sku庫存和價格信息


分享到:


相關文章: