Jsoup
抓取網頁後,需要對網頁解析,可以使用字符串處理工具解析頁面,也可以使用正則表達式
jsoup 的作用:是一款 Java 的HTML 解析器,可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API,可通過DOM,CSS以及類似於JQuery的操作方法來取出和操作數據
jsoup的主要功能如下:
1.從一個URL,文件或字符串中解析HTML;
2.使用DOM或CSS選擇器來查找、取出數據;
3.可操作HTML元素、屬性、文本;
創建練習類
![爬蟲學習之Jsoup練習](http://p2.ttnews.xyz/loading.gif)
解析URL
第一個參數是訪問的url,第二個參數是訪問的超時時間
![爬蟲學習之Jsoup練習](http://p2.ttnews.xyz/loading.gif)
使用標籤選擇器,獲取title標籤中的內容
輸出結果
讀取文件
準備一個簡易的HTML文件
獲取這個
讀取文件,獲取字符串,代碼及結果
使用dom方式遍歷文檔
解析文件獲取document對象
依據id獲取,這個是id的內容,我們獲取這個內容
編寫代碼,顯示結果
依據標籤獲取,我們獲取這個標籤的內容
代碼及結果
依據class獲取,獲取內容
代碼和結果
依據屬性,屬性內容
代碼和結果
接下來從元素中獲取數據
首先從元素中獲取ID
從元素中獲取className
文本
代碼及結果
如果內容是兩個class
那麼代碼及結果
從元素中獲取屬性
代碼及結果
獲取元素的所有屬性
代碼及結果
從元素中獲取文本內容,這個之前有,代碼和結果
閱讀更多 分享電腦學習 的文章