Python爬蟲對數學的要求有多高?

吳帥澎


爬蟲對數學的要求不高,最基礎的是要對網頁有基本瞭解,包括網頁的基本元素、網頁的結構、數據的加載方式等,下面我介紹一下學習python爬蟲的基本過程:

1.掌握基礎的網頁知識,這個是爬蟲的前提,我們爬取的數據大部分都會在嵌套在網頁中,如果對網頁基本元素都不認識,怎麼解析網頁,提取數據呢?所以,如果對網頁基礎知識不瞭解的話,建議花上個幾天時間學習一下,很快就能學會,這裡直接看w3cschool的教程就行,地址https://www.w3cschool.cn/,如下:

2.對網頁基礎知識瞭解後,可以試著爬取一些簡單地靜態頁面,這裡入門的話,可以選擇requests和bs4這2個包,requests負責請求頁面,返回網頁源碼,bs4(Beautiful)負責解析網頁,提取數據,這2個包是一個很不錯的的搭檔,簡單易學,容易上手,地址http://cn.python-requests.org/zh_CN/latest/:

3.掌握基本靜態網頁爬取後,你會發現有些數據明明可以在網頁中看到,但是請求後的頁面數據不存在,或者網頁源碼中是不存在的,這就是動態加載的數據,這個時候你就需要分析,學會使用瀏覽器開發者工具,學會抓包分析,分析真實數據的來源,找到真實的url,然後再進行解析:

4.掌握基本爬蟲後,你會發現針對不同的網頁,需要重複的調整結構,重複的造輪子,這時候你就需要一個爬蟲框架,在它的基礎上只需做局部的修改,增加自己的東西,整個程序就能跑起來,這裡推薦python的爬蟲框架—scrapy,使用廣泛,容易學習,資料也多,官網文檔地址https://docs.scrapy.org/en/latest/:

就分享這麼多吧,學爬蟲的基本經驗,至於後面的分佈式爬取、數據的存儲,這個感興趣的自己可以研究研究,數據爬取下來後,最重要的還是分析,這個時候數學的基礎就很重要的,機器學習各種算法,神經網絡等,都需要很好的數學基礎,才能做深入的研究和應用,如果只是爬蟲獲取數據的話,數學基礎要求不是很高,希望以上分享的內容能對你有所幫助吧。


小小猿愛嘻嘻


作為一個從爬蟲過來的人,爬蟲很有意思,入門不需要高數要求,但只是僅僅入門,懂js的爬蟲工程師就跟只會爬蟲的有質得區別,懂高數,那必須要懂,最少要知道,這關係到你後期的數據清洗,數據挖掘,建造模型。同時爬蟲,懂高數的和不懂高數的,那是天差地別,你是要做大神還是菜鳥,看自己了,就目前而言進入一個公司,很少只是讓你爬數據,還有的需要分類,打標籤,語義分析等


Derek


單純爬蟲的話並不需要多少數學,更多的是針對不同的網站需要運用不同的爬取技巧,像如登錄驗證碼、網頁動態加載渲染等。但如果要做數據挖掘的話,爬蟲爬下來的數據運用機器學習算法或數據挖掘算法進行數據分析和挖掘就需要用到數學知識了,特別是概率論和線性代數方面!


WeWantWade


怎麼說呢,這要看你想做到那一步了,如果只是流於表面,不需要多少高,只要懂的一些基本的就行了,但是如果要深入研究的話你就需要有很強的數學功底了,優化算法,構建框架都需要我們大學學過的高等數學,線性代數,等等才能解決。多學學數學不吃虧,雖然買菜用不到二次函數,但是這些話只是無聊的人發的一些牢騷話而已,只要你從事科學技術領域方面的工作,數學好你絕對不吃虧


分享到:


相關文章: