對於近日讓人氣憤的長春疫苗事件,京東集團劉強東在微頭條發表看法
一時間獲取廣大粉絲熱評,評論人數也是呈現指數級的增長,
那麼大家對這件事的態度都是什麼呢?
話不多說,我們開始。
今日頭條手機APP抓包
對於APP數據的抓取首先要用到APP抓包工具,這種工具有那麼幾個,我用的是Fiddler4來實現的抓包。
需要將你的WIFI和你的網絡在相同IP下。
抓包結果圖如下圖所示:
將得到的網址url複製到瀏覽器
裡面會變成下圖這個樣子:
返回的是JSON文件類型的數據,很方便提取數據。
另外我們精簡一下網址
去掉一些無關緊要的查詢字符,得到的精簡網址如下:
Scrapy抓取APP數據
要想實現快速並且簡單的抓取數據,爬蟲框架要熟練掌握!
而Scrapy框架又是一款功能強大的框架,該模塊是爬蟲必須掌握的模塊!
根據上一小節抓取到的網址結構,我們可以發現:
偏移量會隨著每次的改變來翻頁,
所以我們只需在Scrapy裡面的start_urls 這麼寫就好(大概就是爬取了30萬條):
由於返回的是json數據,但是Scrapy本身並不天生支持json解析,
所以還要導入json模塊,
用json模塊裡面的json.loads()函數將response.body 轉化成json文件,
這樣就可以方便的用中括號來提取我們想要的數據了。
提取數據以後,我們要保存數據,
保存數據的時候,我們需要編寫items文件裡面的內容。
我就提取了兩個字段,
一個是用戶名,一個是該用戶發表的評論。
至於其他字段,大家可以自行選取。
返回的數據我們用一個生成器發送給了管道文件,
在管道文件裡面進行處理,在管道文件裡面,
裡面有一個process_item方法,這個方法是我們事先數據入庫(或者寫入本地的方法),
另外對於數據寫入數據庫,
或者是數據寫入本地的文本文件還是json文件等,
還建議大家寫上初始化方法,或者open_spider與close_spider,後兩個方法實際上是對父類的重寫。
分別在打開和關閉爬蟲的時候調用這兩個方法。
當寫完管道項目以後注意
一定要打開配置文件裡面的管道設置才能執行管道文件。
寫好以後就可以運行爬蟲了!!!運行程序如下:
詞雲可視化
接下來對得到的數據進行詞雲可視化的展示:
寶寶雲圖:
雲圖寶寶:
寶寶腳丫:
憤怒:
心圖:
鴨子云圖:
未來-希望:
閱讀更多 煙火照長空o 的文章