一 什么是BeautifulSoup
简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。
官方解释如下:
Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。所以需要配合解析器一起使用!
Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautiful Soup 3 目前已经停止开发,官网推荐在现在的项目中使用Beautiful Soup 4。
解析器:
Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快,推荐安装另一个可供选择的解析器是纯Python实现的 html5lib , html5lib的解析方式与浏览器相同。
解析器对比: 官方文档
二 为什么要用BeautifulSoup?
BeautifulSoup能给我们提供一些列查找文档树的方法,使我们能快速定位到我们想要爬取的数据。我们再回想一下之前学的一个re模块,它可以全局查找我们想要的文本,从文本开头到结束开始匹配,然后通过贪婪匹配,再通过非贪婪匹配拿到需要的数据,整个过程是不是非常繁琐,而却搜索效率极低!
BeautifulSoup内既封装了re,还为我们提供了一些更加强大、高效的功能,使我们可以快速匹配到我们想要的数据,提高爬取效率和开发效率。
三 安装
1、安装
四 怎么使用
1、基本使用
2、遍历文档树
3、搜索文档树
BeautifulSoup定义了很多搜索方法,这里着重介绍2个:find() 和 find_all() 。其它方法的参数和用法类似!
閱讀更多 新猿IT人 的文章