03.02 如何整理python爬蟲爬出的數據?

ww13142010


這個看情況吧,保存到excel、mysql都行,如果數據量少的話,可以存到excel中,如果數據量多的話,可以存到mysql數據庫中,下面我大概介紹一下如何將爬取到的數據存儲到excel和mysql數據庫中,實驗環境win7+python3.6+pycharm5.0,主要步驟如下:

1.為了方便演示,這裡以爬取人人貸上面的債券數據為例,如下,主要爬取年利率、借款標題、期限、金額、進度這5個字段信息:

分析這個頁面,我們可以知道,這個頁面時異步加載數據的,數據存儲在一個json文件中,我們只要獲取到這個json文件的url地址,解析這個json文件,就能獲取到我們需要的數據,如下:

2.針對這個json文件的結構,對應的解析代碼如下,很簡單,主要是獲取上面5個字段的信息並保存到一個list列表中,以供後面excel或mysql的存儲:

程序運行截圖如下,已經成功獲取到數據,並且在控制檯打印出來:

3.將獲取的數據保存到excel中,這裡主要用到xlwt這個包,專門針對寫入excel,使用起來很方便,也很簡單:

  • 安裝的話,直接輸入命令"pip install xlwt"就行,如下:

  • 對應的數據保存代碼如下,其實就是循環數據,再寫入excel單元格中,這裡爬取了前20頁數據:

  • 打開保存的rrd_info.xls文件,截圖如下,說明已經成功將數據保存到excel中了,其中第1列為利率、第2列為借款標題、第3列為期限、第4列為金額、第5列為進度:

4.將獲取到的數據插入到mysql中,這裡主要用到pymysql這個包,pymysql這個包主要用於操作mysql數據庫,包括增刪改查等,使用起來也很簡單。

  • 安裝pymysql,直接輸入命令"pip install pymysql"就行,如下:

  • 新建一個rrd數據表,主要設計如下:

  • 對應的插入mysql數據庫代碼如下,與excel類似,循環插入數據庫就行,注意,需要commit提交數據庫,不然數據庫不會增加數據,這裡爬取了前40頁數據:

  • 程序運行截圖如下,已經成功將數據插入到mysql數據庫中:

至此,我們就完成了數據的整理和保存。總的來說,保存到excel和mysql中都行,實現起來也挺簡單的,只要你有一定的python基礎,多加練習,很快就能掌握的,當然你也可以保存到其他文件或數據庫中都行,像csv或mongodb等,這裡就不詳細說明了,網上也有相關教程,可以參考學習一下,希望以上分享的內容能對你有所幫助吧。


分享到:


相關文章: