Python爬虫神器:PyQuery,解析网页更简单,小白也能学会

我们做python爬虫,通过requests抓取到内容就需要正则匹配,或者其他解析库解析内容。很多可能和我一样的人,都使用jquery的,那用的还是非常爽的。而pyquery库就是jQuery的Python实现,能够以jQuery的语法来操作解析 HTML 文档,易用性和解析速度都不错。

虽然,Beautiful Soup 中可以使用 CSS 选择器,但是好像他的 CSS 选择器并没有想像中的强大,PyQuery反而更优一些,因此,我们来说说,Python爬虫神器:PyQuery。

Python爬虫神器:PyQuery,解析网页更简单,小白也能学会


PyQuery库官方文档

官方文档:https://pyquery.readthedocs.io/en/latest/

PyPI:https://pypi.org/project/pyquery/

Github:https://github.com/gawel/pyquery

1、PyQuery初始化内容

PyQuery初始化有3种形式:

1.1、直接初始化requests返回的html内容

<code>from pyquery import PyQuery as pq
#初始化为PyQuery对象
doc = pq(html)
print(type(doc))
print(doc)/<code>

1.2、直接读取文件的形式

<code>#filename参数为html文件路径
doc = pq(filename = 'test.html')
print(type(doc))
print(doc)/<code>

1.3、读取网址的形式

<code>doc = pq(url = 'https://www.toutiao.com')
print(type(doc))
print(doc)/<code>

2、常用CSS选择器:

pyquery强大的地方,就是在于使用了类似jquery一样的选择,进行网页节点解析。

<code>html = """

  • Python

  • 大法



"""/<code>

获取id为object-1的标签

<code>print(doc('#object-1'))
#返回:

  • #还可以:
    print(doc('#container #object-1'))/<code>

    获取class为object-1的标签

    <code>print(doc('.object-1'))
    #返回:
  • Python
  • /<code>

    获取ul标签:

    <code>print(doc('ul'))
    #返回

      \t\t
    • Python

    • \t\t
    • 大法

    • \t\t

    /<code>

    如果获取多个li,可以遍历:

    <code>a = doc('li')
    for item in a.items():
    print(item)/<code>

    其他的我们还可以查找节点

    我们接着介绍一下常用的查找函数,这些查找函数最赞的地方就是它们和 JQuery 的用法完全一致。

    find() : 查找节点的所有子孙节点。

    children() : 只查找子节点。

    parent() : 查找父节点。

    parents() : 查找祖先节点。

    siblings() : 查找兄弟节点。

    3、获取标签的信息

    我们在定位到目标之后,就需要获取标签的内容信息,常用的有:

    3.1、attr() 获取属性,返回属性值

    <code>object_2 = doc.find('.object-2')
    print(object_2.attr('class'))
    #返回

    object-2/<code>

    3.2、text() 标签的文本

    <code>object_1 = docs.find('.object-1')
    print(object_1.text())
    #返回
    Python/<code>

    当然pyquery还有很多,比如remove去掉节点内容,获取url网址的,还可以自定义cookie和header等。

    Beautiful Soup 对新手比较友好,pyquery对用过jquery的来说,更简单更方便,是一个非常不错的选择。

    好了,就这么多啦,我是迷神,更多精彩python内容,可以关注我哦,有问题也可以评论哦。


    分享到:


    相關文章: