用Python來分析一下《長生疫苗》是多麼讓我們氣憤!

對於近日讓人氣憤的長春疫苗事件,京東集團劉強東在微頭條發表看法

一時間獲取廣大粉絲熱評,評論人數也是呈現指數級的增長,

那麼大家對這件事的態度都是什麼呢?

話不多說,我們開始。

今日頭條手機APP抓包

對於APP數據的抓取首先要用到APP抓包工具,這種工具有那麼幾個,我用的是Fiddler4來實現的抓包。

需要將你的WIFI和你的網絡在相同IP下。

抓包結果圖如下圖所示:

用Python來分析一下《長生疫苗》是多麼讓我們氣憤!

將得到的網址url複製到瀏覽器

裡面會變成下圖這個樣子:

用Python來分析一下《長生疫苗》是多麼讓我們氣憤!

返回的是JSON文件類型的數據,很方便提取數據。

另外我們精簡一下網址

去掉一些無關緊要的查詢字符,得到的精簡網址如下:

用Python來分析一下《長生疫苗》是多麼讓我們氣憤!

Scrapy抓取APP數據

要想實現快速並且簡單的抓取數據,爬蟲框架要熟練掌握!

而Scrapy框架又是一款功能強大的框架,該模塊是爬蟲必須掌握的模塊!

根據上一小節抓取到的網址結構,我們可以發現:

偏移量會隨著每次的改變來翻頁,

所以我們只需在Scrapy裡面的start_urls 這麼寫就好(大概就是爬取了30萬條):

用Python來分析一下《長生疫苗》是多麼讓我們氣憤!

由於返回的是json數據,但是Scrapy本身並不天生支持json解析,

所以還要導入json模塊,

用json模塊裡面的json.loads()函數將response.body 轉化成json文件,

這樣就可以方便的用中括號來提取我們想要的數據了。

用Python來分析一下《長生疫苗》是多麼讓我們氣憤!

提取數據以後,我們要保存數據,

保存數據的時候,我們需要編寫items文件裡面的內容。

我就提取了兩個字段,

一個是用戶名,一個是該用戶發表的評論。

至於其他字段,大家可以自行選取。

用Python來分析一下《長生疫苗》是多麼讓我們氣憤!

返回的數據我們用一個生成器發送給了管道文件,

在管道文件裡面進行處理,在管道文件裡面,

裡面有一個process_item方法,這個方法是我們事先數據入庫(或者寫入本地的方法),

另外對於數據寫入數據庫,

或者是數據寫入本地的文本文件還是json文件等,

還建議大家寫上初始化方法,或者open_spider與close_spider,後兩個方法實際上是對父類的重寫。

分別在打開和關閉爬蟲的時候調用這兩個方法。

用Python來分析一下《長生疫苗》是多麼讓我們氣憤!

當寫完管道項目以後注意

一定要打開配置文件裡面的管道設置才能執行管道文件。

用Python來分析一下《長生疫苗》是多麼讓我們氣憤!

寫好以後就可以運行爬蟲了!!!運行程序如下:

用Python來分析一下《長生疫苗》是多麼讓我們氣憤!

詞雲可視化

接下來對得到的數據進行詞雲可視化的展示:

寶寶雲圖:

用Python來分析一下《長生疫苗》是多麼讓我們氣憤!

雲圖寶寶:

用Python來分析一下《長生疫苗》是多麼讓我們氣憤!

寶寶腳丫:

用Python來分析一下《長生疫苗》是多麼讓我們氣憤!

憤怒:

用Python來分析一下《長生疫苗》是多麼讓我們氣憤!

心圖:

用Python來分析一下《長生疫苗》是多麼讓我們氣憤!

鴨子云圖:

用Python來分析一下《長生疫苗》是多麼讓我們氣憤!

未來-希望:

用Python來分析一下《長生疫苗》是多麼讓我們氣憤!

用Python來分析一下《長生疫苗》是多麼讓我們氣憤!


分享到:


相關文章: