爬虫解析利器 PyQuery 的使用_ _ 頭條網

@Author: Runsen

每个网页，都有一定的特殊结构和层级关系，而且很多节点都有 id 或 class 作为区分，我们可以借助它们的结构和属性来提取信息。

如果你用惯了xpath和bs4，学习Pyquery是一个不错的选择。

pyquery 是 Python 的第三方库，我们可以借助于 pip3 来安装，安装命令如下：

<code>pip install pyquery /<code>

下面，我以CSDN首页为例。

<code>import requests from pyquery import PyQuery as pq headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36" } res = requests.get("https://www.csdn.net/",headers = headers) res.encoding = 'utf-8' doc = pq(res.text) print(doc("title")) print(doc("title").text()) /<code>

输出如下

<code> CSDN-专业IT技术社区 CSDN-专业IT技术社区 /<code>

下面，我需要拿到文章分类的标签。

<code>print(doc(".nav_com ul li").text()) /<code>

输出如下

<code>推荐动态程序人生 Python Java 百万人学AI 前端架构区块链数据库 5G 游戏开发移动开发运维安全云计算/大数据研发管理物联网计算机基础音视频开发其他 /<code>

在上面的例子中，我们初始化 pyquery 对象之后，传入 CSS 选择器 .nav_com ul li，它的意思是先选取 class 为 nav_com 的节点，然后再选取其内部 ul ，在选择内部节点的li 节点，最后打印输出。

下面，我们拿文章。查找子节点需要用到 find 方法，传入的参数是 CSS 选择器

<code> for item in doc("#feedlist_id li").items(): print(item.find(".title h2 a").text()) /<code>

输出如下

<code>应聘3万的职位，有必要这么刁难我么。。。沙雕。。。荐阿里面试，问了B+树，这个回答让我通过了 14个提高代码质量的好问题你好，我们可以认识一下吗？荐面试了一个 31 岁程序员，让我有所触动，30岁以上的程序员该何去何从？ /<code>

因为每次访问都是不一样的推荐内容，所有输出的文章标题不相同。

提取到节点之后，我们的最终目的当然是提取节点所包含的信息了。比较重要的信息有两类，一是获取属性，二是获取文本。

获取文本就是text()方法，获取属性是attr方法，比如attr('href')

<code>for item in doc("#feedlist_id li").items(): print(item.find(".list_con .title h2 a").attr('href')) /<code>

输出如下

<code> https://blog.csdn.net/likun557/article/details/105608851 /<code>

下面，我用自己的博客来使用pyquery

代码如下

<code>import requests from pyquery import PyQuery as pq headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36" } res = requests.get("https://blog.csdn.net/weixin_44510615",headers = headers) res.encoding = 'utf-8' doc = pq(res.text) print(doc("title")) print(doc("title").text()) for item in doc(".article-list div").items(): print(item.find("h4 a").text(),item.find("h4 a").attr('href')) /<code>

输出如下

<code>记录润森奋斗的点点滴滴_润森_CSDN博客-从零学Python数据分析,零基础学习Python的机器学习,零基础学Python爬虫领域博主记录润森奋斗的点点滴滴_润森_CSDN博客-从零学Python数据分析,零基础学习Python的机器学习,零基础学Python爬虫领域博主原创我的回忆录 https://blog.csdn.net/weixin_44510615/article/details/103949794 原创我 https://blog.csdn.net/weixin_44510615/article/details/90384881 原创自我感触 https://blog.csdn.net/weixin_44510615/article/details/90302069 原创什么是人工智能，还有如何学习人工智能，看我这篇的吹水文 https://blog.csdn.net/weixin_44510615/article/details/105620125 /<code>

对于PyQuery可以参考官方文档：https://pyquery.readthedocs.io/en/latest/

相關文章:

县域治理再现“利器”江苏首个县镇一体化综合指挥平台在如东上线

疫苗是人类主动防御传染病的“利器”

传递质量信任，浪潮集团质量码成企业数字化转型“利器”

NVIDIARTX和机器学习：数字王国创建逼真虚拟人“利器”

独家私董会纪要｜战“疫”利器——理性看市场变化+全面数字化

可视化调度、跨市联动，和对讲成应急指挥管理中的必备“利器”

京企温室大棚订单开门红，扶贫“利器”在疆全面开花

二战初期日军作战利器——微型掷弹筒

互融云电子投标保函系统：打造电子保函行业“利器”

房屋买卖网签即时备案 落实"房住不炒"政策再添"利器"

房屋买卖网签即时备案 落实“房住不炒”政策再添“利器”

手握“独播”利器，西瓜视频能杀入第一梯队吗

聊城：发挥督察“利器”作用，助推法治政府建设上水平

欧洲试水复工复课 口罩渐成抗疫利器

“煤代油”脚步更近了：我国煤化工再添“利器”

我军高原补给“利器”曝光！酷似美军支奴干，不光运货还能救人

免代码开发平台之“简道云”

疫情防控“利器”：红外热成像测温，助力学生集中复课

西工大研制抗击“新冠”利器，已临床应用！

牙齿矫正的“利器”——支抗钉（骨钉）

日产又一家用“利器”，比A4L漂亮，2.0T，关门静如图书馆

金羊网评：磨好“团结合作”这把全球战疫“利器”

执委会周记｜“利器”与“磨刀石”

把汽车变得更“聪明”，重庆高新区国家质检基地再添“利器”

两大控制高房价的“利器”已全面出手，楼市告别爆涨时代

这个高分“利器”，90%的家长还不知道！

“沧海”号拍照有“利器”：蓝宝石玻璃窗

无边脾繁蜂技术，蜂群繁蜂的“利器”，养蜂人值得学习的知识！

房屋买卖网签即时备案 落实房住不炒政策添“利器”

有同款笔，《书谱》利器

智能化门禁成防疫“利器”龙元建设积极参与城市运营

海上风电走向深海的“利器”

dnf搬砖最强的“利器”降价了，计算一下，回血周期太不理想

绿水青山就是金山银山，海为治水“利器“来助力

创作者如何打造自己的吸粉“利器”？丨9月抖音涨粉榜分析

律师调取证据的两大“利器”的要点与运用

疫情下执行“利器”再显威力，48万元案款“分分钟”到账

楼市观察｜济南长清区楼市竞争激烈 教育等配套成卖房“利器”

莫用“责任状”代替责任-今日头条-手机光明网

战“疫”利器 | 实时动态分析，基层有效防控

松下紫外线灭菌灯获iF设计奖 适合家用的"战疫"利器

聊城发挥督察’利器’作用 助推法治政府建设上水平

全球最快核弹已完成部署, 20超倍音速无懈可击, 美国: 要冷静!

防疫新“利器”- 信通防疫出入实名登记系统

【魅力英雄城 省会显担当】大江时评：彰显担当要用好用活解放思想“利器”

“城市明星”再添健康“利器”，福田欧辉打造典范级公交车

《利器》：最尖锐又无形的伤害是爱

"扮猪吃老虎"利器 全新高尔夫R无伪谍照 7月发布

良工+利器，让软件研发真正敏捷！

潜逃压力过大暴瘦40多斤，一涉黑A级通缉犯在河北投案自首

当我们在谈 SaaS 的时候，在谈什么？

合同诈骗的类型有哪些？企业无力偿还借款是否构成合同诈骗罪？

5月西安招聘会时间安排来了！找工作的别错过

刚刚工作的毕业生，一个月只有2000多，是不是太少了？

全球闹「美元荒」带动稳定币需求暴增！以太坊交易量创近两年新高

“帮助当地居民解决用水难题”-今日头条-手机光明网

灌篮高手无水印壁纸，每一张都是回忆

通辽蓝天救援队成功解救辽河公园水上被困群众

5月6日·武汉要闻及抗击肺炎快报

肖副省长等省市领导到孝感市楚澴中学调研九年级复学暨疫情防控常态化工作

相声界的颜值担当张云雷称号大揭秘

美国百年薅羊毛攻略

《全职高手》：一口气刷了10集，对杨洋路转粉了

共同承担责任！Rookie谈BP问题：输了是我们打得太臭

LOL"中韩对抗赛"遭选手反对？Zoom直言不想打，Doinb的回答太真实

李亚鹏携李嫣出席慈善晚会，李嫣手上钻戒抢镜，1个动作获夸赞！

53岁郭富城再度升级当爸，方媛怀二胎，Chant要做姐姐了

那些拼命的演员：王宝强喝了一大桶牛奶，孙俪吃10斤瓜子

贾乃亮用上了“一米阳光”这个词，他依然渴望拥有美丽的爱情！

搞笑GIF开心一刻：我的老家农村，有妹子愿意嫁给我吗？

为什么只有edg赚钱？

程潇身材多好？双腿劈叉才明白，这才是“腿精”

张柏芝承认三胎产子，否认小伙的老爸是孙东海，看来她选择保密

T1战队抢注Faker商标，“囊括多个领域产品，商业潜力媲美乔丹”

云顶之弈“最不平衡的版本”诞生，全员抢一费卡，运气成吃鸡关键

LPL春季赛"6宗最"：Uzi最遗憾，阿水最惊喜，V5最离谱

雷佳音被问：跟佟丽娅拍那么多亲热戏是啥感受？他的回答笑翻众人

JDG成最“惨”冠军战队？拿到LPL冠军人气依旧低迷，TES成赢家！

#战疫必胜#“症和状”都有了，我与新冠擦肩而过

房屋买卖网签即时备案落实"房住不炒"政策再添"利器"

房屋买卖网签即时备案落实“房住不炒”政策再添“利器”

欧洲试水复工复课口罩渐成抗疫利器

房屋买卖网签即时备案落实房住不炒政策添“利器”

楼市观察｜济南长清区楼市竞争激烈教育等配套成卖房“利器”

松下紫外线灭菌灯获iF设计奖适合家用的"战疫"利器

聊城发挥督察’利器’作用助推法治政府建设上水平

【魅力英雄城省会显担当】大江时评：彰显担当要用好用活解放思想“利器”

"扮猪吃老虎"利器全新高尔夫R无伪谍照 7月发布

应急科普丨“五一” 期间气温回升谨防森林火灾隐患