爬虫学习之Jsoup练习

Jsoup

抓取网页后,需要对网页解析,可以使用字符串处理工具解析页面,也可以使用正则表达式

jsoup 的作用:是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据

jsoup的主要功能如下:

1.从一个URL,文件或字符串中解析HTML;

2.使用DOM或CSS选择器来查找、取出数据;

3.可操作HTML元素、属性、文本;

创建练习类

爬虫学习之Jsoup练习

解析URL

第一个参数是访问的url,第二个参数是访问的超时时间

爬虫学习之Jsoup练习

使用标签选择器,获取title标签中的内容

爬虫学习之Jsoup练习

输出结果

爬虫学习之Jsoup练习

读取文件

准备一个简易的HTML文件

爬虫学习之Jsoup练习

获取这个

爬虫学习之Jsoup练习

读取文件,获取字符串,代码及结果

爬虫学习之Jsoup练习

使用dom方式遍历文档

解析文件获取document对象

爬虫学习之Jsoup练习

依据id获取,这个是id的内容,我们获取这个内容

爬虫学习之Jsoup练习

编写代码,显示结果

爬虫学习之Jsoup练习

依据标签获取,我们获取这个标签的内容

爬虫学习之Jsoup练习

代码及结果

爬虫学习之Jsoup练习

依据class获取,获取内容

爬虫学习之Jsoup练习

代码和结果

爬虫学习之Jsoup练习

依据属性,属性内容

爬虫学习之Jsoup练习

代码和结果

爬虫学习之Jsoup练习

接下来从元素中获取数据

首先从元素中获取ID

爬虫学习之Jsoup练习

从元素中获取className

文本

爬虫学习之Jsoup练习

代码及结果

爬虫学习之Jsoup练习

如果内容是两个class

爬虫学习之Jsoup练习

那么代码及结果

爬虫学习之Jsoup练习

从元素中获取属性

爬虫学习之Jsoup练习

代码及结果

爬虫学习之Jsoup练习

获取元素的所有属性

爬虫学习之Jsoup练习

代码及结果

爬虫学习之Jsoup练习

从元素中获取文本内容,这个之前有,代码和结果

爬虫学习之Jsoup练习

爬虫学习之Jsoup练习


分享到:


相關文章: