學習python的爬蟲用先學習html嗎?

白船


最好學習一下,不要求熟悉,但必須要會,我們爬蟲所爬取的網頁數據大部分都會直接或間接嵌套在html標籤或屬性中,如果你對html一點都不瞭解,也就無從談及數據的解析和提取,下面我簡單介紹一下python爬蟲的學習過程,感興趣的朋友可以嘗試一下:

基礎html知識

這個是最基本也是必須的,首先,學習網絡爬蟲,你就需要學習html知識,網頁是用html寫的,數據自然也會嵌套在其中,無非就是某一個標籤或屬性,如果你對html一點都不瞭解,也就無從談及解析規則的編寫,數據也就無從提取,不要求多麼熟悉、精通html,但基本的標籤、屬性必須要能看懂,如果你沒有這方面基礎的話,建議學習一下,初學入門html,也主要以記憶為主,很快就能掌握:

基本爬蟲庫

基礎的html知識掌握後,就是網絡爬蟲的編寫,這裡可以從一些簡單易用、容易上手的爬蟲庫開始,比較常見的就是urllib、requests、beautifulsoup、lxml,官方教程非常詳細,先獲取網頁數據,然後再編寫解析規則提取即可,對於大部分靜態網頁來說,都可以輕鬆爬取,動態網頁數據的提取可能需要抓包分析(數據不會直接在網頁源碼中看到),但基本原理類似,也是先獲取數據,然後再解析提取:

專業爬蟲框架

基本爬蟲庫熟悉後,大部分網頁數據都可以爬取,但需要反覆造輪子,效率不高,也不易於後期維護和擴展,這裡可以學習一下專業強大的爬蟲框架,python來說,比較受歡迎、也比較流行的就是scrapy,框架成熟、穩定,可擴展性強,只需編寫少量代碼即可快速開啟一個爬蟲程序,初學入門來說也非常友好,官方文檔豐富,社區活躍,資料齊全,各個模塊組件都是獨立開源的,後期研究學習也非常不錯:

總之,python爬蟲對html要求不高,但必須要了解,能看懂基本的網頁結構、標籤和屬性,後期才能編寫具體的解析規則提取數據,建議多看多練,熟悉一下scrapy框架的使用,網上也有相關教程和資料,介紹的非常詳細,感興趣的話,可以搜一下,希望以上分享的內容能對你有所幫助吧,也歡迎大家評論、留言進行補充。


小小猿愛嘻嘻


首先以我個人學習爬蟲親身體經歷說下我的個人觀點,學習Python爬蟲是需要一定程度上了解html語言的,但還遠不夠,具體針對html語言,無需學到能夠獨立開發網站網頁的技術程度,而是要了解其原理和常用語法。

網頁與html語言

爬蟲是模擬用戶訪問網絡的行為,對網絡中服務器信息進行蒐集並存儲的一種數據採集技術。爬蟲一般可以分為通用網絡爬蟲(General Purpose Web Crawler)、聚焦網絡爬蟲(Focused Web Crawler)、增量式網絡爬蟲(Incremental Web Crawler)、深層網絡爬蟲(Deep Web Crawler),但實際上多為上面幾種爬蟲技術的結合體。網絡爬蟲爬取的對象就是網頁,早期的網站前端多是採用html語言開發的靜態網頁。

HTML(Hyper Text Markup Language,超文本標記語言)是用於在Internet上顯示Web頁面的主要標記語言。網頁由HTML組成,用於通過Web瀏覽器顯示文本,圖像或其他資源。HTML文件的文件擴展名為.htm或.html。

爬蟲必備的知識基礎

  • 需要學習html 相關知識,還有http 協議知識
  • 爬蟲基礎知識,包括爬蟲理論基礎、爬蟲實現原理和技術、爬蟲請求requests庫、網頁解析庫、headers屬性和代理服務器設置。

下面是爬蟲的工作過程

希望我的回答對您有幫助!剛加入頭條號,後面本人會陸續發佈算法編程、大數據和AI等相關文章和免費教程,敬請關注!


華仔伴你學AI


用到了再去學。


沒碰到難題,你就不會知道你究竟要學習某種領域知識多深。


回到你說的爬蟲,首先你要會用爬蟲工具,然後你就會發覺你HTML需要掌握,因為你會用到獲取元素id、元素的class、元素的xpath,一般基礎的HTML知識足夠應付簡單的網頁處理需求。


分享到:


相關文章: