![告訴你python小白如何零基礎製作一個Python 爬蟲](http://p2.ttnews.xyz/loading.gif)
一、前言
1、相關介紹:
採用Python 來進行爬蟲的主要原因是: Python語言簡潔,使用方便,擁有許多方便進行爬蟲的庫,如Urllib。
Python除了爬蟲獲取數據外,還可以圖像處理,數據處理,導出Execl表格等。更多可以看:Python可以用來幹嘛?
2、安裝Python
蘋果系統上一般默認都裝有Python編譯器,為Python2.x版本。本文出現的代碼都是以Python2.7版本為準。
如果需要Python3.x或者在windows上運行,就需要自己去安裝Python,具體見:安裝Python
二、爬蟲
本文中以實現一個爬取網頁中的圖片的爬蟲為例子。
預備知識
Python基礎知識
Python中urllib庫的用法
Python正則表達式
Python中re庫的用法
1、Python基礎知識
1、Python腳本文件後綴名為.py
2、#為註釋符號
3、Python中沒有花括號{},用:代替
![告訴你python小白如何零基礎製作一個Python 爬蟲](http://p2.ttnews.xyz/loading.gif)
4、函數的調用寫法與JS相似
5、運行Python
在終端輸入:
如果是Python3.x版本輸入:
2、Python中urllib庫的用法
urlopen 和read
urlopen:通過一個URL打開一個網頁。
read:讀取這個網頁。
本文爬蟲的核心為:通過正則表達式在源碼中獲取圖片鏈接。
urlretrieve
urlretrieve:根據一個URL,下載相關文件
3、Python正則表達式
用\d匹配數字
用.匹配任意字符
用\s匹配一個空格
用*表示任意個數字符
用+表示至少一個字符
具體可以看:Python正則表達式
4、Python中re庫的用法
split
用正則表達式進行字符串切分,獲得一個list(可變數組)
match
用正則表達式進行匹配,如果匹配成功,返回一個Match
對象,否則返回None
完整代碼
為了讓大家有一個良好的學習python的環境,小編特意創了一個QQ群813622576,群裡有小編自己整理的教程資料供大家一起學習,有興趣的朋友可以加群大家一起學習。
閱讀更多 sxyyw 的文章