爬蟲學習之Jsoup練習

Jsoup

抓取網頁後,需要對網頁解析,可以使用字符串處理工具解析頁面,也可以使用正則表達式

jsoup 的作用:是一款 Java 的HTML 解析器,可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API,可通過DOM,CSS以及類似於JQuery的操作方法來取出和操作數據

jsoup的主要功能如下:

1.從一個URL,文件或字符串中解析HTML;

2.使用DOM或CSS選擇器來查找、取出數據;

3.可操作HTML元素、屬性、文本;

創建練習類

爬蟲學習之Jsoup練習

解析URL

第一個參數是訪問的url,第二個參數是訪問的超時時間

爬蟲學習之Jsoup練習

使用標籤選擇器,獲取title標籤中的內容

爬蟲學習之Jsoup練習

輸出結果

爬蟲學習之Jsoup練習

讀取文件

準備一個簡易的HTML文件

爬蟲學習之Jsoup練習

獲取這個

爬蟲學習之Jsoup練習

讀取文件,獲取字符串,代碼及結果

爬蟲學習之Jsoup練習

使用dom方式遍歷文檔

解析文件獲取document對象

爬蟲學習之Jsoup練習

依據id獲取,這個是id的內容,我們獲取這個內容

爬蟲學習之Jsoup練習

編寫代碼,顯示結果

爬蟲學習之Jsoup練習

依據標籤獲取,我們獲取這個標籤的內容

爬蟲學習之Jsoup練習

代碼及結果

爬蟲學習之Jsoup練習

依據class獲取,獲取內容

爬蟲學習之Jsoup練習

代碼和結果

爬蟲學習之Jsoup練習

依據屬性,屬性內容

爬蟲學習之Jsoup練習

代碼和結果

爬蟲學習之Jsoup練習

接下來從元素中獲取數據

首先從元素中獲取ID

爬蟲學習之Jsoup練習

從元素中獲取className

文本

爬蟲學習之Jsoup練習

代碼及結果

爬蟲學習之Jsoup練習

如果內容是兩個class

爬蟲學習之Jsoup練習

那麼代碼及結果

爬蟲學習之Jsoup練習

從元素中獲取屬性

爬蟲學習之Jsoup練習

代碼及結果

爬蟲學習之Jsoup練習

獲取元素的所有屬性

爬蟲學習之Jsoup練習

代碼及結果

爬蟲學習之Jsoup練習

從元素中獲取文本內容,這個之前有,代碼和結果

爬蟲學習之Jsoup練習

爬蟲學習之Jsoup練習


分享到:


相關文章: