Python爬蟲入門,快速抓取大規模數據(完結篇)

Python爬蟲入門,快速抓取大規模數據(完結篇)

前面的幾篇文章講解了爬蟲的基本原理,並使用了一些代碼來做演示。這是爬蟲系列的最後一篇,這篇文章會對前面的內容總結一下,沒有新的內容。

Python基本環境的搭建,爬蟲的基本原理以及爬蟲的原型

如何使用BeautifulSoup對網頁內容進行提取

爬蟲運行時數據的存儲數據,以SQLite和MySQL作為示例

使用selenium webdriver對動態網頁進行抓取

討論瞭如何處理網站的反爬蟲策略

對Python的Scrapy爬蟲框架做了介紹,並簡單的演示瞭如何在Scrapy下進行開發

限於篇幅的長度和作為爬蟲入門文章,前面每一篇文章都只是對相關的內容作了一個簡單的介紹。如果深入下去,每一部分都會有很多的內容,後面有機會在單獨討論。當然,如果對爬蟲感興趣和有工作的需要,可以用這些文章作為入門教程。


分享到:


相關文章: