Scrapy網絡爬蟲:1. Scrapy簡介與Anaconda環境下的安裝

寫在前面的話:

從事大數據分析工作已有一段時間了,期間經常需要自己去爬取一些數據。身患懶癌的小編雖然靠著每次查閱文檔,勉強可以使用Scrapy爬取數據,但從來沒有系統地學習和整理過Scrapy框架相關知識。新年伊始,下定決心用兩個月的時間系統學習Scrapy框架。此係列文章主要是記錄自己學習過程和督促自己堅持學習。因小編能力和知識水平限制,難免會有錯誤。歡迎大家批評指正。

Scrapy網絡爬蟲:1. Scrapy簡介與Anaconda環境下的安裝

網絡爬蟲

網絡爬蟲與Scrapy簡介

網絡爬蟲是指在互聯網上自動爬取網站內容信息的程序,也被稱為網絡蜘蛛或網絡機器人。網絡爬蟲被廣泛應用於搜索引擎、數據挖掘以及大數據分析等領域。

Scrapy是一個使用Python語言(基於Twisted框架)編寫的開源爬蟲框架,它簡單易用、靈活易擴展、開發社區活躍,而且跨平臺,可運行於Linux、Windows、Mac OSX、 BSD等。Scrapy應用程序採用Python語言開發,支持Python2.7和Python 3.4+。

傳送門:Scarpy源碼項目(https://github.com/scrapy/scrapy)

Scrapy環境安裝

Scrapy安裝比較簡單,推薦在基於Anaconda環境安裝Scrapy。安裝好Anaconda之後,運行下面命令即可自動完成安裝:

conda install -c conda-forge scrapy

如果需要使用特定版本,請在Scrapy後面加上 ==XXXX,XXXX代表你需要的版本號。

Scrapy網絡爬蟲:1. Scrapy簡介與Anaconda環境下的安裝

Scrapy安裝

Scrapy包依賴

Scrapy採用純Python編寫,主要依賴一下幾個Python包:

  • lxml:一個高效的XML/HTML解析庫

  • parsel:基於lxml構建的HTML/XML數據提取工具

  • w3lib: 一個多功能URLs和網頁編碼工具

  • twisted:一個網絡異步通信框架

  • cryptography & pyOpenSSL:用於解決不同層次網絡安全問題


分享到:


相關文章: