告訴你python小白如何零基礎製作一個Python 爬蟲

告訴你python小白如何零基礎製作一個Python 爬蟲

一、前言

1、相關介紹:

採用Python 來進行爬蟲的主要原因是: Python語言簡潔,使用方便,擁有許多方便進行爬蟲的庫,如Urllib。

Python除了爬蟲獲取數據外,還可以圖像處理,數據處理,導出Execl表格等。更多可以看:Python可以用來幹嘛?

2、安裝Python

蘋果系統上一般默認都裝有Python編譯器,為Python2.x版本。本文出現的代碼都是以Python2.7版本為準。

如果需要Python3.x或者在windows上運行,就需要自己去安裝Python,具體見:安裝Python

二、爬蟲

本文中以實現一個爬取網頁中的圖片的爬蟲為例子。

預備知識

Python基礎知識

Python中urllib庫的用法

Python正則表達式

Python中re庫的用法

1、Python基礎知識

1、Python腳本文件後綴名為.py

2、#為註釋符號

3、Python中沒有花括號{},用:代替

告訴你python小白如何零基礎製作一個Python 爬蟲

4、函數的調用寫法與JS相似

告訴你python小白如何零基礎製作一個Python 爬蟲

5、運行Python

在終端輸入:

告訴你python小白如何零基礎製作一個Python 爬蟲

如果是Python3.x版本輸入:

告訴你python小白如何零基礎製作一個Python 爬蟲

2、Python中urllib庫的用法

urlopen 和read

urlopen:通過一個URL打開一個網頁。

read:讀取這個網頁。

告訴你python小白如何零基礎製作一個Python 爬蟲

告訴你python小白如何零基礎製作一個Python 爬蟲

本文爬蟲的核心為:通過正則表達式在源碼中獲取圖片鏈接。

urlretrieve

urlretrieve:根據一個URL,下載相關文件

告訴你python小白如何零基礎製作一個Python 爬蟲

3、Python正則表達式

用\d匹配數字

用.匹配任意字符

用\s匹配一個空格

用*表示任意個數字符

用+表示至少一個字符

具體可以看:Python正則表達式

4、Python中re庫的用法

split

用正則表達式進行字符串切分,獲得一個list(可變數組)

告訴你python小白如何零基礎製作一個Python 爬蟲

match

用正則表達式進行匹配,如果匹配成功,返回一個Match

對象,否則返回None

告訴你python小白如何零基礎製作一個Python 爬蟲

完整代碼

告訴你python小白如何零基礎製作一個Python 爬蟲

為了讓大家有一個良好的學習python的環境,小編特意創了一個QQ群813622576,群裡有小編自己整理的教程資料供大家一起學習,有興趣的朋友可以加群大家一起學習。

告訴你python小白如何零基礎製作一個Python 爬蟲


分享到:


相關文章: