爬虫:BeautifulSoup解析库

一 什么是BeautifulSoup

  简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。

官方解释如下:

  Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

  Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。所以需要配合解析器一起使用!

  Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautiful Soup 3 目前已经停止开发,官网推荐在现在的项目中使用Beautiful Soup 4。

解析器:

  Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快,推荐安装另一个可供选择的解析器是纯Python实现的 html5lib , html5lib的解析方式与浏览器相同。

解析器对比:   官方文档

爬虫:BeautifulSoup解析库

二 为什么要用BeautifulSoup?

  BeautifulSoup能给我们提供一些列查找文档树的方法,使我们能快速定位到我们想要爬取的数据。我们再回想一下之前学的一个re模块,它可以全局查找我们想要的文本,从文本开头到结束开始匹配,然后通过贪婪匹配,再通过非贪婪匹配拿到需要的数据,整个过程是不是非常繁琐,而却搜索效率极低!

  BeautifulSoup内既封装了re,还为我们提供了一些更加强大、高效的功能,使我们可以快速匹配到我们想要的数据,提高爬取效率和开发效率。

三 安装

1、安装

四 怎么使用

1、基本使用

2、遍历文档树

3、搜索文档树

  BeautifulSoup定义了很多搜索方法,这里着重介绍2个:find()find_all() 。其它方法的参数和用法类似!


分享到:


相關文章: