寫在前面的話:
從事大數據分析工作已有一段時間了,期間經常需要自己去爬取一些數據。身患懶癌的小編雖然靠著每次查閱文檔,勉強可以使用Scrapy爬取數據,但從來沒有系統地學習和整理過Scrapy框架相關知識。新年伊始,下定決心用兩個月的時間系統學習Scrapy框架。此係列文章主要是記錄自己學習過程和督促自己堅持學習。因小編能力和知識水平限制,難免會有錯誤。歡迎大家批評指正。
網絡爬蟲與Scrapy簡介
網絡爬蟲是指在互聯網上自動爬取網站內容信息的程序,也被稱為網絡蜘蛛或網絡機器人。網絡爬蟲被廣泛應用於搜索引擎、數據挖掘以及大數據分析等領域。
Scrapy是一個使用Python語言(基於Twisted框架)編寫的開源爬蟲框架,它簡單易用、靈活易擴展、開發社區活躍,而且跨平臺,可運行於Linux、Windows、Mac OSX、 BSD等。Scrapy應用程序採用Python語言開發,支持Python2.7和Python 3.4+。
傳送門:Scarpy源碼項目(https://github.com/scrapy/scrapy)
Scrapy環境安裝
Scrapy安裝比較簡單,推薦在基於Anaconda環境安裝Scrapy。安裝好Anaconda之後,運行下面命令即可自動完成安裝:
conda install -c conda-forge scrapy
如果需要使用特定版本,請在Scrapy後面加上 ==XXXX,XXXX代表你需要的版本號。
Scrapy包依賴
Scrapy採用純Python編寫,主要依賴一下幾個Python包:
lxml:一個高效的XML/HTML解析庫
parsel:基於lxml構建的HTML/XML數據提取工具
w3lib: 一個多功能URLs和網頁編碼工具
twisted:一個網絡異步通信框架
cryptography & pyOpenSSL:用於解決不同層次網絡安全問題
閱讀更多 初沏的茶 的文章