我們在做爬蟲的過程中經常遇到:爬蟲運行的好好的,結果一會兒出現了錯誤,如 403 等。出現這個問題的原因是網站採取了一些反爬蟲措施,服務器會檢查 ip 在單位時間內的請求次數,如果超過了某個閾值,那麼就會直接拒絕服務。怎麼解決這個問題呢?就是這節課的代理的使用。
代理的設置
前面介紹了很多請求庫,如 urllib、requests、selenium 等,下面介紹一下這些庫怎麼使用代理。
獲取代理
我們需要一個可用的代理,百度搜索“代理”,有很多免費的代理網站,比如西刺,當然,免費的代理一般都不好用,所以有條件的同學可以買付費代理。
urllib
requests
Selenium
閱讀更多 機器人在追你 的文章