02.25 爬蟲學習九之選擇器組合和封裝HttpClient練習

Selector選擇器組合使用

準備運行類

爬蟲學習九之選擇器組合和封裝HttpClient練習

老樣子,解析文件獲取document對象

爬蟲學習九之選擇器組合和封裝HttpClient練習

el#id: 元素+ID,比如: th#descinfo

爬蟲學習九之選擇器組合和封裝HttpClient練習

代碼及結果

爬蟲學習九之選擇器組合和封裝HttpClient練習

el.class: 元素+class,比如: td. Clsc

爬蟲學習九之選擇器組合和封裝HttpClient練習

代碼及結果

爬蟲學習九之選擇器組合和封裝HttpClient練習

el[attr]: 元素+class,比如: th[bgcolor]

爬蟲學習九之選擇器組合和封裝HttpClient練習

代碼及結果

爬蟲學習九之選擇器組合和封裝HttpClient練習

任意組合,比如:th#descinfo. Clsa

爬蟲學習九之選擇器組合和封裝HttpClient練習

代碼及結果

爬蟲學習九之選擇器組合和封裝HttpClient練習

ancestor child: 查找某個元素下子元素,比如:可以用. tra th 查找在class為tra下的所有 th元素

爬蟲學習九之選擇器組合和封裝HttpClient練習

代碼及結果

爬蟲學習九之選擇器組合和封裝HttpClient練習

parent > child: 查找某個父元素下的直接子元素,比如

tr#tra > th

爬蟲學習九之選擇器組合和封裝HttpClient練習

代碼及結果

爬蟲學習九之選擇器組合和封裝HttpClient練習

封裝HttpClient

創建一個工具類

爬蟲學習九之選擇器組合和封裝HttpClient練習

爬蟲學習九之選擇器組合和封裝HttpClient練習

配置連接數和每個主機的最大連接數

爬蟲學習九之選擇器組合和封裝HttpClient練習

根據地址下載頁面數據和圖片名稱

爬蟲學習九之選擇器組合和封裝HttpClient練習

先來完成doGetHtml方法

1.首先獲取HttpClient對象

2.創建HttpGet請求對象,設置Url地址

3.使用HttpClient發起請求,獲取響應

4.解析響應,返回結果

獲取HttpClient對象

爬蟲學習九之選擇器組合和封裝HttpClient練習

創建HttpGet請求對象,設置Url地址

爬蟲學習九之選擇器組合和封裝HttpClient練習

使用HttpClient發起請求,獲取響應

爬蟲學習九之選擇器組合和封裝HttpClient練習

解析響應,返回結果

爬蟲學習九之選擇器組合和封裝HttpClient練習

創建一個獲取請求配置信息的方法

爬蟲學習九之選擇器組合和封裝HttpClient練習

在doGetHtml中配置請求信息

爬蟲學習九之選擇器組合和封裝HttpClient練習

完成doGetImage方法,和doGetHtml類似,先將代碼全部拷貝

爬蟲學習九之選擇器組合和封裝HttpClient練習

修改的地方

爬蟲學習九之選擇器組合和封裝HttpClient練習

步驟是

1. 獲取圖片後綴

2. 創建重命名圖片

3. 下載圖片

4. 返回圖片名稱

獲取圖片後綴

爬蟲學習九之選擇器組合和封裝HttpClient練習

創建重命名圖片

爬蟲學習九之選擇器組合和封裝HttpClient練習

下載圖片

爬蟲學習九之選擇器組合和封裝HttpClient練習

返回圖片名稱

爬蟲學習九之選擇器組合和封裝HttpClient練習


分享到:


相關文章: