Python 爬蟲 – 使用requests抓取網頁

Python中,requests庫可用於向web服務器發出http請求,http請求有多種方式,例如,GET/POST/PUT/DELETE 等等。

這裡將使用GET請求抓取頁面:

<code>import requests
page = requests.get("https://kevinhwu.github.io/demo/python-scraping/simple.html")
page
/<code>

複製

輸出

<code><response>
/<response>/<code>

複製

發出請求之後,會返回一個響應對象。該對象包含一個status_code屬性,表示頁面訪問是否成功:

<code>page.status_code
/<code>

複製

輸出

<code>200
/<code>

複製

status_code為200,表示成功。關於http狀態碼,以2開頭的狀態代碼通常表示成功,以4或5開頭的代碼表示錯誤,如需進一步瞭解,可參考相關資料。

可以使用content屬性,打印出頁面的HTML內容:

<code>page.content
/<code>

複製

輸出

<code>b'\\n\\n\\n<title>\\nA simple example page\\n/<title>\\n\\n\\n

\\nHere is some simple content for this page.\\n

\\n\\n\\n'/<code>


Python 爬蟲 – 使用requests抓取網頁


分享到:


相關文章: