python3網絡爬蟲課程 9.1代理的簡單使用

我們在做爬蟲的過程中經常遇到:爬蟲運行的好好的,結果一會兒出現了錯誤,如 403 等。出現這個問題的原因是網站採取了一些反爬蟲措施,服務器會檢查 ip 在單位時間內的請求次數,如果超過了某個閾值,那麼就會直接拒絕服務。怎麼解決這個問題呢?就是這節課的代理的使用。

代理的設置

前面介紹了很多請求庫,如 urllib、requests、selenium 等,下面介紹一下這些庫怎麼使用代理。

獲取代理

我們需要一個可用的代理,百度搜索“代理”,有很多免費的代理網站,比如西刺,當然,免費的代理一般都不好用,所以有條件的同學可以買付費代理。

urllib

python3網絡爬蟲課程 9.1代理的簡單使用

requests

python3網絡爬蟲課程 9.1代理的簡單使用

Selenium

python3網絡爬蟲課程 9.1代理的簡單使用


分享到:


相關文章: