Python中,requests庫可用於向web服務器發出http請求,http請求有多種方式,例如,GET/POST/PUT/DELETE 等等。
這裡將使用GET請求抓取頁面:
<code>import requests
page = requests.get("https://kevinhwu.github.io/demo/python-scraping/simple.html")
page
/<code>
複製
輸出
<code><response>
/<response>/<code>
複製
發出請求之後,會返回一個響應對象。該對象包含一個status_code屬性,表示頁面訪問是否成功:
<code>page.status_code
/<code>
複製
輸出
<code>200
/<code>
複製
status_code為200,表示成功。關於http狀態碼,以2開頭的狀態代碼通常表示成功,以4或5開頭的代碼表示錯誤,如需進一步瞭解,可參考相關資料。
可以使用content屬性,打印出頁面的HTML內容:
<code>page.content
/<code>
複製
輸出
<code>b'\\n\\n\\n<title>\\nA simple example page\\n/<title>\\n\\n\\n\\nHere is some simple content for this page.\\n
\\n\\n\\n'/<code>
閱讀更多 見血飛程序人生 的文章