python10行代碼,讓你成功偽裝,逃過反爬蟲程序

本篇文章主要介紹了python網絡爬蟲之如何偽裝逃過反爬蟲程序的方法,小編覺得挺不錯的,現在分享給大家,也給大家做個參考。

有的時候,我們本來寫得好好的爬蟲代碼,之前還運行得Ok, 一下子突然報錯了。

報錯信息如下:

Http 800 Internal internet error

這是因為你的對象網站設置了反爬蟲程序,如果用現有的爬蟲代碼,會被拒絕。


python10行代碼,讓你成功偽裝,逃過反爬蟲程序

之前正常的爬蟲代碼如下:

-------歡迎加入python學習交流扣扣裙851211580-------

1 from urllib.request import urlopen

2 ...

3 html = urlopen(scrapeUrl)

4 bsObj = BeautifulSoup(html.read(), "html.parser")

這個時候,需要我們給我們的爬蟲代碼做下偽裝,給它添加表頭偽裝成是來自瀏覽器的請求

修改後的代碼如下:

1 import urllib.parse

2 import urllib.request

3 from bs4 import BeautifulSoup

4 ...

5 req = urllib.request.Request(scrapeUrl)

6 req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)')

7 response = urllib.request.urlopen(req)

8 html = response.read()

9

10 bsObj = BeautifulSoup(html, "html.parser")

python10行代碼,讓你成功偽裝,逃過反爬蟲程序

最後

小編近幾年在學習Python!對於想學習Python的朋友們,我想說:很多人學了一個星期就放棄了,為什麼呢?其實沒有好的學習資料給你去學習,你們是很難堅持的,這是小編收集的Python入門學習資料!如下圖回覆01即可獲得!

python10行代碼,讓你成功偽裝,逃過反爬蟲程序



分享到:


相關文章: