Python爬虫基础教学(写给入门的新手)_ _ 頭條網

私信我，回复：学习，获取免费学习资源包。

环境安装

python3.7.1

pip install requests

pip install beautifulsoup4

pip install lxml

技术讲解

requests库

requests一般用于发起http请求，并且拿到请求的结果。http常用的请求有两种，GET和POST，爬虫主要用的是GET请求。

在不懂http,https和dns,TCP/IP等协议的情况下，我直接打个比方来解释一下什么是GET请求，以360浏览器为例，人在360浏览器输入www.baidu.com，然后敲击enter键，直到页面出现，整个过程，我们可以抽象为我们向百度服务器发起的一次GET请求。

更专业，更详细的解释，自己去百度学习吧。

如何使用requests库来模拟浏览器的行为来获取页面内容呢？

示例代码如下

import requests web = requests.get('https://www.baidu.com') #向百度发起一次get请求，返回请求结果的实体类 print(web.status_code) #请求返回的状态码，200是OK，404是页面不存在，500是错误，更多自己百度搜索 print(type(web.content)) #页面内容的数据类型是bytes，因此需要解码 print(type(web.content.decode())) print(web.content.decode()) #解码之后，得到的页面内容是结构化的字符串

这样看起来，我们获取到的页面内容不是我们在浏览器看到的图形化界面，而是字符串，更像是一些代码。如果你学过html和css那就不用多说了。没学过也不要紧，现在可以简单学一下，也就花几分钟了解一下就够用了。

html是一种标记语言，可以被浏览器执行，然后呈现出可视化的图形界面。如果你把web.content.decode()这一串字符串保存在test.html里，然后双击打开，你会看到图形化界面的，只不过有些图片可能显示不了，这里就不细说了。

html其实很好理解，不要想得太复杂，就是一段有规律的格式化的文本。

其基本格式就是

... ...

html文本的标签一般都是成双成对，有始有终的，比如

和是一队，千万不能拆散，拆散就乱套了。少数除外比如
是换行用的,可以不用配对。

和是一队，千万不能拆散，拆散就乱套了。少数除外比如是换行用的,可以不用配对。

这里我们主要讲body标签，网页的主要内容都是在这个标签里显示的，比如标题，段落，图片等

在test.html里我们写入一下代码并且保存。

我的网站

这是我的网站

html更多标签所代表的意义可以去这里学习 http://www.runoob.com/html/ht...

beautifulsoup4库

bs4(简称)库是用于解析格式化文本，提取数据用的库。

我们利用requests库的get函数拿到网页的内容是一段格式化的字符串，接下来就可以用bs4来解析它。

解析的示例代码如下

from bs4 import BeautifulSoup html = '''

我的网站

这是我的网站

''' #从网页拿到html的格式化的字符串，保存到html里 soup = BeautifulSoup(html, 'lxml') #使用lxml解析器来解析文本，html和xml格式是类似的 print(soup.find_all('h1')) #使用find_all函数来找所有的h1标签，返回的结果是数组 print(soup.find_all('p')) #找所有的p标签，返回的结果是数组更复杂一点的，比如 from bs4 import BeautifulSoup html = '''

我的网站

这是我的网站

测试1

测试2

''' soup = BeautifulSoup(html, 'lxml') div_tags = soup.find_all(name='div', attrs={'class': 'test-item'}) for tag in div_tags: print(type(tag)) print(tag) print(tag.string) print(tag.attrs, '\n')

注意，tag保存的不是字符串，而是bs4模块中的一个标签实体类，我们主要需要知道它的attrs属性和string属性，方便我们拿到一些我们想要的文本和信息，比如a标签的href属性就保存在attrs里。

总结

本文主要讲了如何使用requests获取网页文本内容，以及如何解析html文本，更多更好用的爬虫库

来源网络侵权联系删除

私信我，回复：学习，获取免费学习资源包。

我的网站

我的网站

我的网站

相關文章:

潜逃压力过大暴瘦40多斤，一涉黑A级通缉犯在河北投案自首

当我们在谈 SaaS 的时候，在谈什么？

合同诈骗的类型有哪些？企业无力偿还借款是否构成合同诈骗罪？

5月西安招聘会时间安排来了！找工作的别错过

刚刚工作的毕业生，一个月只有2000多，是不是太少了？

全球闹「美元荒」带动稳定币需求暴增！以太坊交易量创近两年新高

“帮助当地居民解决用水难题”-今日头条-手机光明网

灌篮高手无水印壁纸，每一张都是回忆

通辽蓝天救援队成功解救辽河公园水上被困群众

5月6日·武汉要闻及抗击肺炎快报

肖副省长等省市领导到孝感市楚澴中学调研九年级复学暨疫情防控常态化工作

相声界的颜值担当张云雷称号大揭秘

美国百年薅羊毛攻略

《全职高手》：一口气刷了10集，对杨洋路转粉了

共同承担责任！Rookie谈BP问题：输了是我们打得太臭

LOL"中韩对抗赛"遭选手反对？Zoom直言不想打，Doinb的回答太真实

李亚鹏携李嫣出席慈善晚会，李嫣手上钻戒抢镜，1个动作获夸赞！

53岁郭富城再度升级当爸，方媛怀二胎，Chant要做姐姐了

那些拼命的演员：王宝强喝了一大桶牛奶，孙俪吃10斤瓜子

贾乃亮用上了“一米阳光”这个词，他依然渴望拥有美丽的爱情！

搞笑GIF开心一刻：我的老家农村，有妹子愿意嫁给我吗？

为什么只有edg赚钱？

程潇身材多好？双腿劈叉才明白，这才是“腿精”

张柏芝承认三胎产子，否认小伙的老爸是孙东海，看来她选择保密

T1战队抢注Faker商标，“囊括多个领域产品，商业潜力媲美乔丹”

云顶之弈“最不平衡的版本”诞生，全员抢一费卡，运气成吃鸡关键

LPL春季赛"6宗最"：Uzi最遗憾，阿水最惊喜，V5最离谱

雷佳音被问：跟佟丽娅拍那么多亲热戏是啥感受？他的回答笑翻众人

JDG成最“惨”冠军战队？拿到LPL冠军人气依旧低迷，TES成赢家！

#战疫必胜#“症和状”都有了，我与新冠擦肩而过

T1提议中韩友谊赛，但LPL队伍都不想参加？理由其实很简单

网友投稿：光山县泼陂河镇至白雀园镇的X015县道德两座坏桥经过5个月的等待终于开修啦#光山 #信阳

2020最佳韩剧追起来~《爱的迫降》仅排名第二，TOP 1绝对实至名归

搞笑GIF开心一刻：我正在睡觉，谁敢打扰我

备考消防的几大错觉，你有这个情况吗？

“顶流”李敏镐哑火，渣男出轨剧出圈，韩剧观众也长大了？

网上罗马仕充电宝20000毫安的，参数怎么很多样？哪个是真的？

应急科普丨“五一” 期间气温回升 谨防森林火灾隐患

搞笑GIF开心一刻：拍照啦，赶紧看镜头

工程发承包、工程造价条款，或迎来大调整

应急科普丨“五一” 期间气温回升谨防森林火灾隐患