前面的幾篇文章講解了爬蟲的基本原理,並使用了一些代碼來做演示。這是爬蟲系列的最後一篇,這篇文章會對前面的內容總結一下,沒有新的內容。
Python基本環境的搭建,爬蟲的基本原理以及爬蟲的原型
如何使用BeautifulSoup對網頁內容進行提取
爬蟲運行時數據的存儲數據,以SQLite和MySQL作為示例
使用selenium webdriver對動態網頁進行抓取
討論瞭如何處理網站的反爬蟲策略
對Python的Scrapy爬蟲框架做了介紹,並簡單的演示瞭如何在Scrapy下進行開發
限於篇幅的長度和作為爬蟲入門文章,前面每一篇文章都只是對相關的內容作了一個簡單的介紹。如果深入下去,每一部分都會有很多的內容,後面有機會在單獨討論。當然,如果對爬蟲感興趣和有工作的需要,可以用這些文章作為入門教程。
閱讀更多 我和小冬瓜 的文章