學的Python,爬蟲沒學好,數據分析還得用爬蟲,怎麼辦?

啊哈哈哈


爬蟲是python學習中比較簡單的一環。

以個的學習經驗來看,爬蟲的邏輯十分簡單。也不需要太高深的算法。

python以個人經驗來看根據head主要分為二個方面:

一、自帶的請求庫。如,urllib。

二、基於瀏覽器。如,selenium。

由於不同網站對爬蟲的容忍度不同,所以對head不同,這就要區別對待,同樣網站對同IP的請求容忍也不同,這就要有換IP的策略。

爬蟲可以說是爬蟲和數據源之間的對抗,除非你有現成的接口。所以要寫一個穩健的爬蟲更多數據源的測試是必不可少的。

採集下來的數據庫下面就是對數據的清洗了,這樣的庫有很多有xml,beautifulsoup.

結構話的數據以後還要進行數據的去重,我個人用的是Simhash,當然你個人應用場景不同,去重的策略也不同。

除了自己寫的爬蟲以外,當然也可以學習現成的庫,我自己用比較順手的是scrapy。目前還在運行中。

個人感覺爬蟲還是比較簡單的,邏輯簡單,算法明晰,學習成本並不高。祝你好運。


OB實驗室


1.首先要有信心,任何技術都是由入門到精通的,爬蟲是和應用層面的技術,前提需要把基礎層面的技術學好,爬蟲學好就是水到渠成的事兒

2.基礎層面的知識包括:數據結構、網絡技術、操作系統、算法研究、離散數學、線性代數、微積分等,數學方面的基礎知識如果時間不允許,瞭解一下就行,但一定要全面。

3.應用層面的技術是海量的,如python本身就是,大數據,爬蟲,各種web開發語言等等,可謂 吾生也有涯,而知也無涯

4.星星之火可以燎原,如果入門了,就不用擔心學不好,我自己有個例子:上學的時候我始終沒有明白 漢諾塔 算法,可是到了工作以後,隨著知識儲備和經驗積累,回頭再看時,一下就明白了。

5.沒學好和不會是有區別的,相信自己





肥貓技術生活


數據分析一定要會爬蟲嗎

題主應該是想找或者想做大數據方向的工作,我們先來分析下,數據分析到底要不要用爬蟲?

通常大數據團隊中,有數據分析和數據挖掘、應用開發、數據採集等方向,他們的分工是很明確的,而爬蟲是應用開發和數據採集的基礎功。

恭喜你,數據分析其實可以不會爬蟲

但是,沒錯,又是但是,這個前提是你已經在分工比較明確的大數據團隊中,而在這樣的大團隊的前提是,你已經有很強的數據分析能力,而你有很強的數據分析能力,你就已經用了很多大數據來進行數據分析實驗或實踐,而你用了很多的大數據,那你的大數據是哪裡來的呢?

而且,沒錯,傷害再加1,而且數據分析師基本都是使用Python的,爬蟲是Python中比較基礎也是比較簡單的內容,如果連爬蟲都沒學好,說明你基礎不紮實,又怎麼相信自己能把數據分析學好呢?

還有,對的,還有,很多團隊可不會有這麼細的分工,通常任務下來,就一兩個人趕鴨子上架,就不管你是數據分析還是數據採集,老闆通常這樣認為:來來來,不都是程序員嗎?完成需求就可以了,至於你做分析還是採集,我不在乎,如果不行,就換人吧。

上面是現狀,你不接受也得接受。

怎麼辦呢?

重新學習下爬蟲唄,先被抗拒,我覺得是不是你學習的方式有問題,導致爬蟲沒學好,建議你梳理下爬蟲的知識點,然後再看下,自己是哪塊比較薄弱。

爬蟲基礎知識點不多,來,我上一張腦圖,你按這個,自己整理下,應該就可以把基礎打實了


分享到:


相關文章: