本篇文章主要介紹了python網絡爬蟲之如何偽裝逃過反爬蟲程序的方法,小編覺得挺不錯的,現在分享給大家,也給大家做個參考。
有的時候,我們本來寫得好好的爬蟲代碼,之前還運行得Ok, 一下子突然報錯了。
報錯信息如下:
Http 800 Internal internet error
這是因為你的對象網站設置了反爬蟲程序,如果用現有的爬蟲代碼,會被拒絕。
之前正常的爬蟲代碼如下:
-------歡迎加入python學習交流扣扣裙851211580-------
1 from urllib.request import urlopen
2 ...
3 html = urlopen(scrapeUrl)
4 bsObj = BeautifulSoup(html.read(), "html.parser")
這個時候,需要我們給我們的爬蟲代碼做下偽裝,給它添加表頭偽裝成是來自瀏覽器的請求
修改後的代碼如下:
1 import urllib.parse
2 import urllib.request
3 from bs4 import BeautifulSoup
4 ...
5 req = urllib.request.Request(scrapeUrl)
6 req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)')
7 response = urllib.request.urlopen(req)
8 html = response.read()
9
10 bsObj = BeautifulSoup(html, "html.parser")
最後
小編近幾年在學習Python!對於想學習Python的朋友們,我想說:很多人學了一個星期就放棄了,為什麼呢?其實沒有好的學習資料給你去學習,你們是很難堅持的,這是小編收集的Python入門學習資料!如下圖回覆01即可獲得!
關鍵字: 小編 urlopen BeautifulSoup