Python網絡爬蟲之遇到需要登錄的網站怎麼辦？

2020-03-03 21:42:28 程序猿架構

當我們在爬取某些網站的時候，

需要登錄才可以獲取數據，

怎麼辦？

登錄的常見方法無非是這兩種：

讓你輸入帳號和密碼登錄；
讓你輸入帳號密碼+驗證碼登錄。

我們先來說說第一種帳號和密碼登錄，驗證碼的下篇文章再說。

第一招：Cookie大法！

你平常在上某個不為人知的網站的時候，

是不是發現你只要登錄一次，

就可以一直看到你想要的內容，

過了一陣子才需要再次登錄，

這就是因為 Cookie 在做怪。

簡單來說，

就是每一個使用這個網站的人，

服務器都會給他一個 Cookie，

那麼下次你再請求數據的時候，

你順帶把這個 Cookie 傳過去。

服務器一看，

誒，老客戶啊，

登錄過，

直接返回數據給他吧。

該服務中還可以設置 Cookie 的有效時間，

也就是說，

當你下次攜帶一個過期了的 Cookie 給服務器的時候，

服務器雖然知道你是老客戶，

但是還是需要你重新再登錄一次，

然後再給你一個有效的 Cookie，

Cookie 的時長週期是服務器那邊定的。

瞭解了這一點之後，

我們就來玩一下吧。

我們以「逼乎」為例，

https://biihu.cc/account/login/

輸入地址之後，

按一下 F12，

點擊 network 標籤，

然後登錄你的帳號，

然後點擊其中一個，

你就可以看到在 Request Headers 有你的 Cookie。

有了 Cookie 之後，

我們在代碼中直接獲取我的個人信息。

運行後可以發現不用登錄就可以直接拿到自己的個人信息了。

第二招：表單請求大法

很簡單，

就是通過抓包，

獲取請求登錄的時候需要用到的用戶名密碼參數，

然後以表單的形式請求服務器，

小編前面的文章已經講過怎麼用python偽裝成瀏覽器，以表單提交數據，

有興趣的可以看看前面的文章。

第三招：Selenium 自動登錄法

大家應該已經看過了，

相信你們已經學會了Selenium的使用了！

用Selenium，我們可以：

獲取到兩個輸入框的元素，

再獲取到登錄按鈕，

往輸入框寫你的帳號密碼，

然後自動點擊一下登錄。

登錄完之後拿到 Cookie：

<code>cookies = webdriver.get_cookies()/<code>

有了 Cookie 你就可以拿到你想要的數據了。

下篇文章我們學習一下賬號密碼+驗證碼搞定網站登錄問題！

分享到:

閱讀更多 程序猿架構 的文章

關鍵字: 網絡爬蟲 Bilibili 逼乎

03.07 2020年傳智黑馬python、人工智能、網絡爬蟲、視頻教程

漏洞掃描工具 -- awvs13

02.25 爬蟲學習九之選擇器組合和封裝HttpClient練習

爬蟲學習之HttpClient簡單練習

爬蟲學習之HttpClient練習

python批量爬取網絡圖片

利用Python語言功能對網站電影短評的爬取：網絡爬蟲

網站關鍵詞的密度該如何把控

Python3 Requests 模塊請求內容包含中文報錯的解決辦法

到底是存在還是不存在之 BloomFilter

常見的錯誤代碼及錯誤原因

網絡爬蟲：簡單獲取數據

Python爬蟲數據去空格‘\xa0’

如何使用開源webmagic框架，進行定向的爬蟲重試機制

python3網絡爬蟲課程 9.1代理的簡單使用

Python爬蟲基礎知識：異常的處理

Nuxt 自適應 SSR 方案：SEO 和首屏最小化優化

Web Scraper 翻頁——點擊「更多按鈕」翻頁

Web Scraper 抓取多條內容

人生苦短，我用python「time庫」

Python爬蟲入門（6）：Cookie的使用

Python爬蟲入門（5）：URLError異常處理

Robots中Meta標籤簡介

python爬蟲學習（文字、圖片、視頻）

玩轉 Python 網絡爬蟲：QQ 音樂全站爬蟲開發

一文搞懂分佈式進程爬蟲

網絡爬蟲：入門之HTML文本解析庫BeautifulSoup庫

網絡爬蟲：入門之用 requests 構建知乎 API

網絡爬蟲：入門之優雅的HTTP庫requests

網絡爬蟲：入門之快速理解HTTP協議

頁面日誌採集(埋點)思路及其實現

Python 網絡爬蟲之 Xpath 基本語法和使用方法以及安裝Xpath

Disruptor實踐整合到現有的爬蟲框架

seo優化技巧培訓淺析優化之重點核心的網站關鍵詞佈局策略

python3.x 網絡爬蟲之 urllib 庫下 parse 模塊

3個SEO網頁優化小步驟，快速提升網站搜尋體驗

網絡爬蟲基本原理（一）

「Python」網絡爬蟲：抓取網頁的含義和URL基本構成

網絡爬蟲：基於對象持久化實現爬蟲現場快速還原