在學python,可是都是基礎的東西,學完想做個爬蟲都做不好,哪裡出了問題呢?

你是我的星辰


問題就是“最基礎的東西”。

1、python和其他編程語言一樣,該有的變量,語法,循環等都有,不同的是可能"名字"不一樣,比如字典,集合等。也是“五臟俱全”的,重要的是數據結構和算法。

2、python的"簡單",不要誤認為是好學,應理解為在處理同樣問題的時候,python所需要的代碼要比其他的編程語言要少,同樣的面向對象編程,python解釋型的語法更容易理解,這也是“好學”的原因之一。

3、樓主所說的做爬蟲是很需要“基礎”的,要知道python是模塊化編程,就象堆積木一樣,雖然模塊不用自己去做,但要知道如何去用。另外,做爬蟲還需要HTML,CSS,JavaScript等WEB前端多方面的知識。

4、最主要的,學習任何一門編程語言,沒學會“走”,就想跑,甚至要飛,這是編程大忌,根據例程,用手敲而不是複製粘帖錄入幾萬行代碼,然後回頭再看看,python還是很容易的。


雁過無聲song


Python做爬蟲來說,其實非常容易,零基礎也完全可以,有大量第三方包和框架可以直接使用(像urllib、requests、BeautifulSoup、scrapy等),輕鬆易學,非常容易掌握,下面我簡單介紹一下,感興趣的朋友可以嘗試一下:

網頁基礎

這個是最為基礎的,爬蟲爬取的數據大都嵌套在網頁標籤中(以靜態網頁為主,動態網頁則需要抓包分析),首先,你得會基本的網頁知識,包括html、css、js等,不要求多麼的精通,最起碼能看懂網頁結構,知道我們爬取的數據在哪裡,哪個標籤哪個屬性,如果你從來沒有這方面基礎的話,建議學習一下網頁知識(未來也一定會用得著),兩三天時間足矣入門:

爬蟲入門

網頁基礎掌握差不多後,就是Python爬蟲入門(假設你已熟悉Python基礎),這裡可以從基礎、非常容易學習的爬蟲庫開始,像urllib、requests、bs4、lxml、re等,對於爬取日常大部分網頁來說,完全夠用了,基本思想先根據url獲取網頁源碼(字符串),然後再匹配解析出你需要的數據(基於正則表達式或BeautifulSoup),注意,動態網頁的數據一般不會嵌套在網頁源碼中,一般是一個json文件,需要抓包分析:

爬蟲框架

爬蟲入門後,為了提高開發效率、避免反覆造輪子,也為了後期易於維護和擴展,建議學習一下爬蟲框架(推薦使用),Python來說,比較著名的就是scrapy,一個快速、高層次的爬蟲框架,免費、開源、跨平臺,在業界非常受歡迎,可定製化程度高,易於擴展,只需簡單幾行代碼即可開啟一個爬蟲程序,入門學習來說,也非常容易,官方和網上資料非常多:

目前,就分享這麼多吧,爬蟲入門來說,其實非常容易,只要你有一定的網頁和Python基礎,熟悉一下相關爬蟲庫的使用,很快就能掌握的,對於日常大部分網頁爬取來說足矣,後期建議多做項目,熟悉一下scrapy框架的使用,以積累經驗為主,網上也有相關教程和資料,介紹的非常詳細,感興趣的話,可以搜一下,希望以上分享的內容能對你有所幫助吧,也歡迎大家評論、留言進行補充。


小小猿愛嘻嘻


爬蟲只是為了練手,讓你熟練語法,背一些基本概念。熟了基本都是github找輪子,很少自己造了。odoo12做erp,嵌入式開發寫寫自動化腳本還是挺好玩的。做網頁我都是用golang了。django太重了。flask也可以。





任T堂達人


爬蟲最難的是正則表達式,你把正則搞清楚了,你想獲取什麼就通過正則匹配標籤獲取什麼!

其次就是爬取網站時自動登錄問題了,這裡涉及到加密解密算法,不管服務端用了什麼算法,我們只要找到其加密規則就可以一步步破解了。

慢慢來,學完還有框架多線程爬蟲等等一系列的問題等著你呢!

其實自己爬爬圖片、段子、種子什麼的還好啦,難就難於爬取商業信息,這個需要去公司上手體驗學習的!祝你好運!加油^0^~ 奧利給!!!



RONE


編程語言有很多的,你不會是因為基礎沒有打好,任何語言都是相通的,不要認為某種語言是容易的或者認為某種語言是特別難。

一、計算機基礎知識一定要學好。

二、入門語言c語言一定要學好。

三、數據結構一定學,不說學的非常好,但是一定要懂。

四、在這基礎上才能學好別的語言如python、java等,基礎知識不牢固想學好編程語言很難,反之你的基礎知識很紮實學習任何一種編程語言都是很容易的。

希望能幫助你!



石頭大V


我學了好幾年,才會自己寫爬蟲[淚奔]

你以為你是葫蘆娃還是孫悟空,一出生就能大妖怪了?


陪孩子玩的碼農


爬蟲其實問題問題不少,首先需要理解http協議,接著需要掌握正則表達式,線程,數據庫存儲,攔截器...等等。循序漸進吧。


黃敏67007964


多多學習,多多操練,多多總結


分享到:


相關文章: