python10行代码,让你成功伪装,逃过反爬虫程序

本篇文章主要介绍了python网络爬虫之如何伪装逃过反爬虫程序的方法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。

有的时候,我们本来写得好好的爬虫代码,之前还运行得Ok, 一下子突然报错了。

报错信息如下:

Http 800 Internal internet error

这是因为你的对象网站设置了反爬虫程序,如果用现有的爬虫代码,会被拒绝。


python10行代码,让你成功伪装,逃过反爬虫程序

之前正常的爬虫代码如下:

-------欢迎加入python学习交流扣扣裙851211580-------

1 from urllib.request import urlopen

2 ...

3 html = urlopen(scrapeUrl)

4 bsObj = BeautifulSoup(html.read(), "html.parser")

这个时候,需要我们给我们的爬虫代码做下伪装,给它添加表头伪装成是来自浏览器的请求

修改后的代码如下:

1 import urllib.parse

2 import urllib.request

3 from bs4 import BeautifulSoup

4 ...

5 req = urllib.request.Request(scrapeUrl)

6 req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)')

7 response = urllib.request.urlopen(req)

8 html = response.read()

9

10 bsObj = BeautifulSoup(html, "html.parser")

python10行代码,让你成功伪装,逃过反爬虫程序

最后

小编近几年在学习Python!对于想学习Python的朋友们,我想说:很多人学了一个星期就放弃了,为什么呢?其实没有好的学习资料给你去学习,你们是很难坚持的,这是小编收集的Python入门学习资料!如下图回复01即可获得!

python10行代码,让你成功伪装,逃过反爬虫程序



分享到:


相關文章: