手把手教你使用Python抓取QQ音樂數據（第三彈）_ _ 頭條網

【一、項目目標】

通過手把手教你使用Python抓取QQ音樂數據（第一彈）我們實現了獲取 QQ 音樂指定歌手單曲排行指定頁數的歌曲的歌名、專輯名、播放鏈接。

通過手把手教你使用Python抓取QQ音樂數據（第二彈）我們實現了獲取 QQ 音樂指定歌曲的歌詞和指定歌曲首頁熱評。

此次我們在項目（二）的基礎上獲取更多評論並生成詞雲圖，形成手把手教你使用Python抓取QQ音樂數據（第三彈）。

【二、需要的庫】

主要涉及的庫有：requests、json、wordcloud、jieba

如需更換詞雲圖背景圖片還需要numpy庫和PIL庫（pipinstall pillow）

【三、項目實現】

1、首先回顧一下，下面是項目（二）獲取指定歌曲首頁熱評的代碼；

<code> def get_comment(i): url_3 = 'https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg' headers = { 'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36', # 標記了請求從什麼設備，什麼瀏覽器上發出 } params = {'g_tk_new_20200303': '5381', 'g_tk': '5381', 'loginUin': '0', 'hostUin': '0', 'format': 'json', 'inCharset': 'utf8', 'outCharset': 'GB2312', 'notice': '0', 'platform': 'yqq.json', 'needNewCode': '0', 'cid': '205360772', 'reqtype': '2', 'biztype': '1', 'topid': id, 'cmd': '8', 'needmusiccrit': '0', 'pagenum': '0', 'pagesize': '25', 'lasthotcommentid': '', 'domain': 'qq.com', 'ct': '24', 'cv': '10101010'} res_music = requests.get(url_3,headers=headers,params=params) # 發起請求 js_2 = res_music.json() comments = js_2['hot_comment']['commentlist'] f2 = open(i+'評論.txt','a',encoding='utf-8') #存儲到txt中 for i in comments: comment = i['rootcommentcontent'] + '\n——————————————————————————————————\n' f2.writelines(comment) # print(comment) f2.close() /<code>

2、下面來考慮如何獲取後面的評論，下圖是項目（二）評論頁面的parms參數；

image

3、網頁無法選擇評論的頁碼，想看後面的評論智能一次一次的點擊“點擊加載更多”；我們可以點擊一下看看parms有什麼變化。

image

4、這裡有個小技巧，先點擊下圖所示clear按鈕，把network界面清空，再點擊“點擊加載更多”，就能直接找到第二頁的數據。

image

5、點擊加載更多後出現下圖。

image

6、發現不止pagenum變了，cmd和pagesize也變了，到底那個參數的問題呢，那我們再看下第三頁；

image

7、只有pagenum變了，那我們嘗試一下把pagenum改成“0”，其他不變，能正常顯示第一頁數據嗎?

image

第一頁第一條評論

image

第一頁最後一條評論

image

8、能正常顯示，那就確定思路了：用第二頁的parms，寫一個for循環賦值給pagenum，參考項目（二）把評論抓取到txt。

9、代碼實現：為了不給服務器造成太大壓力，我們本次只爬取20頁數據。

<code>import requests,json def get_id(i): global id url_1 = 'https://c.y.qq.com/soso/fcgi-bin/client_search_cp' # 這是請求歌曲評論的url headers = {'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'} params = {'ct': '24', 'qqmusic_ver': '1298', 'new_json': '1', 'remoteplace': 'txt.yqq.song', 'searchid': '71600317520820180', 't': '0', 'aggr': '1', 'cr': '1', 'catZhida': '1', 'lossless': '0', 'flag_qc': '0', 'p': '1', 'n': '10', 'w': i, 'g_tk': '5381', 'loginUin': '0', 'hostUin': '0', 'format': 'json', 'inCharset': 'utf8', 'outCharset': 'utf-8', 'notice': '0', 'platform': 'yqq.json', 'needNewCode': '0'} res_music = requests.get(url_1,headers=headers,params=params) json_music = res_music.json() id = json_music['data']['song']['list'][0]['id'] return id # print(id) /<code>

<code>def get_comment(i): url_3 = 'https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg' headers = {'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'} f2 = open(i+'評論.txt','a',encoding='utf-8') #存儲到txt中 for n in range(20): params = {'g_tk_new_20200303': '5381', 'g_tk': '5381', 'loginUin': '0', 'hostUin': '0', 'format': 'json', 'inCharset': 'utf8', 'outCharset': 'GB2312', 'notice': '0', 'platform': 'yqq.json', 'needNewCode': '0', 'cid': '205360772', 'reqtype': '2', 'biztype': '1', 'topid': '247347346', 'cmd': '6', 'needmusiccrit': '0', 'pagenum':n, 'pagesize': '15', 'lasthotcommentid': 'song_247347346_3297354203_1576305589', 'domain': 'qq.com', 'ct': '24', 'cv': '10101010'} res_music = requests.get(url_3,headers=headers,params=params) js_2 = res_music.json() comments = js_2['comment']['commentlist'] for i in comments: comment = i['rootcommentcontent'] + '\n——————————————————————————————————\n' f2.writelines(comment) # print(comment) f2.close() input('下載成功，按回車鍵退出！') /<code>

<code>def main(i): get_id(i) get_comment(i) main(i = input('請輸入需要查詢歌詞的歌曲名稱：')) /<code>

10、詞雲圖代碼

<code>from wordcloud import WordCloud import jieba import numpy import PIL.Image as Image #以上兩個庫是為了更換詞雲圖背景圖片 def cut(text): wordlist_jieba=jieba.cut(text) space_wordlist=" ".join(wordlist_jieba) return space_wordlist with open("句號評論.txt" ,encoding="utf-8")as file: text=file.read() text=cut(text) mask_pic=numpy.array(Image.open("心.png")) wordcloud = WordCloud(font_path="C:/Windows/Fonts/simfang.ttf", collocations=False, max_words= 100, min_font_size=10, max_font_size=500, mask=mask_pic).generate(text) image=wordcloud.to_image() # image.show() wordcloud.to_file('雲詞圖.png') # 把詞雲保存下來 /<code>

11、成果展示

image

【四、總結】

1、項目三比項目二多的功能:一是通過尋找parms參數裡每一頁評論頁碼之間的關係，爬取更多的評論；二是學會生成詞雲圖；（注意讀取文件的路徑）

2、WordCloud更多參數詳見下圖，可以研究出更多的玩法；

image

3、不只.txt可以作為詞雲圖的數據源，csv、Excel也可以：

<code>import xlrd #引入excel讀取模塊 datafile_path = '你的Excel文件.xlsx' data = xlrd.open_workbook(datafile_path) #文件名以及路徑 table = data.sheet_by_name('sheet') ##通過名稱獲取Sheet1表格 nrows = table.nrows #獲取該Sheet1中的有效行數 list = [] for i in range(nrows): value = str(table.row_values(i)[1]) # print(value) list.append(value) # print(pingjia_list) text = str(list).replace("'", '').replace(',', '').rstrip(']').lstrip('[') # print(text) /<code>

4、爬QQ音樂項目到此告一段落，如有需要的話可以通過Scrapy框架爬取更多的歌曲信息、歌詞、評論。但是作為練手項目，重要的不是爬多少數據，而是學會如何爬取指定的數據。

5、第四彈小編將會把前面三個項目封裝在一起，通過菜單控制爬取不同數據，敬請期待。

6、需要本文源碼的話，請在後臺回覆“QQ音樂”四個字進行獲取。

相關文章:

QQ 微信都可以發的說說

QQ突然火了 沉寂已久的QQ再次掀起熱潮 你會拋棄微信嗎

奇瑞A3，QQ，艾瑞澤7，瑞虎5，奇瑞已停產經典車型盤點

新版QQ推出新功能，這個細節已經被小姐姐們玩瘋

本田版“QQ”亮相！配五塊科技大屏，馬力154匹，8秒左右可破百

限時揭曉一個方法，讓你日引100精準客戶，可迅速複製放大百倍

奇瑞又一親民好車，號稱大號“QQ”，不足6萬，城市代步通勤看它

騰訊這道“微信-QQ”防線，怎麼就那麼難突破？

騰訊帶頭，QQ、微信全面支持國產系統，原生適配Linux

QQ、微信上的寒暄，不如見一面來的實在

繞過QQ好友的問題驗證添加好友，無視對方設置任何問題

華為手機提示攔截qq刪除照片 華為副總對圖片攔截問題作出迴應

QQ，你多久沒有看了？

QQ功能多，但微信還是被很多人所青睞，只因為它的這幾個功能

國內十大App排名：微信、QQ、淘寶位列前三

《忽然之間》-全有哥哥唱了一首歌曲，快來聽聽吧。&gt;&gt;https://node.kg.qq.com/play?s=r63-HGrlCQUjLrrq&shareuid=639998842125358331&topsource=

在日本，一半的妻子出過軌，還有三分之一想殺老公。https://mp.weixin.qq.com/s/rw34Hz-x1yD1gTqfYix9tw

～～#rita小雨桑# https://m.egame.qq.com/live?anchorid=446908580

年末送禮啦給大家～《沙漠駱駝》提莫版本來啦～，點擊試聽哦@QQ音：https://i.y.qq.com/v8/playsong.html?songid=226316898&source=yqq#wechat

#小緣# 我的新歌《味覺的旅行》已經上線了！這首動畫《萌妻食神》的片頭曲希望大家能夠喜歡[可愛]QQ音樂鏈接：https://i.y.qq.com/v8/playsong.html?songid=226326618&source=yqq#wechat

emmm……寫的挺好，我還是謙虛。“當時選狼人殺就是喜歡玩，我覺得在這上面有天賦就選了，沒想那麼多”[吐舌] #godlie# #虎牙狼人殺# https://mp.weixin.qq.com/s/fnKshNnWO-eS49yTVheReA

明天不開qq了

今年的第四首原創單曲《櫻花的告白》已經上線了，希望這首歌能在這寒冷的冬日為你帶來一些溫暖。QQ音樂鏈接：https://i.y.qq.com/v8/playsong.html?songid=224550975&source=yqq#wechat

誰敢橫刀立馬，唯我彭大將軍：彭德懷誕辰120周年祭！今天，所有頭條應給他 https://mp.weixin.qq.com/s/FjyCMo5sMKTyG-oGpcb90g

10.18 【多圖慎入：走進美最新潛艇“印第安納”】上個月剛服役，“弗吉尼亞”級第16艘，看看裡面官兵工作、生活

娜迪亞：從ISIS性奴到諾貝爾獎得主→_→南方週末#360瀏覽器#https://mp.weixin.qq.com/s/JLeMGJL-vqE0PBYYK9g1lg

時寒冰：趨勢在心（病中雜記2） https://mp.weixin.qq.com/s/WuH

繼續奮鬥！https://mp.weixin.qq.com/s/EJXyTAcvjWxpEEb

張海彥來自@企鵝體育 http://live.qq.com/10001329?fromuid=10804728

→時政聚焦網#360瀏覽器#https://mp.weixin.qq.com/s/WsSSpC18hpFErSwW4ndXzQ

湖北黃梅人 分路的老鄉嗨起來！https://mp.weixin.qq.com/s/_a-DaSSm-yElaZo4m3TVtA @環球網 @深圳衛視 軍情直播間 @第一軍情 @了不起我的家 @董明珠自媒體 @餘輝孟 @潘石屹 @勞春燕 @邱毅台灣 @中國三農網 @央廣網 #開心麻花# #

因爲腿疾，原本答應丁薇的演出嘉賓無法前往，人生中第一次由於身體緣故影響工作以及承諾，特此道歉24小時倒計時｜丁薇 「美夢如是」 Blue Note Beijing 音樂會 https://mp.weixin.qq.com/s/QJCzAdbOsdpc0PHY-hoP9Q

比海更深今天送別朱旭，你有什麼話想說給老爺子聽 https://mp.weixin.qq.com/s/DE5nEAKN3P4PoZv7-nbovw

4. 52歲文興宇扮演67歲老傅同志 https://mp.weixin.qq.com/s/dzB5aIIcmrurOcWWthzSiw

清華大學氣候變化研究院公衆號開篇：解振華院長寄語。https://mp.weixin.qq.com/s/R3-Q3WPKC_dWMrmlC2P8MA

青年電影手冊@張譯張譯：我不是那麼不負責任的人 https://mp.weixin.qq.com/s/Q-_yQ9JLJouofibezd1NTg

https://mp.weixin.qq.com/s/J9ZY8UVz5nNUnItg

紀念 https://mp.weixin.qq.com/s/Yxu8lfudOi9G5zr5SV_j-g

豬八戒網華西大區總管評比開始，求各位粉絲投票第一個呼保義/蔡虎，並私信留言“投票”，小編將對投票並且留言的粉絲髮紅包感謝！https://mp.weixin.qq.com/s/pLvdSpqOMQq7ssDF-grfOQ

天覆財經：分享一篇文章。地方債等同國債：央媽大放水真的來了！ https://mp.weixin.qq.com/s/qW5Lqpnt3aoJ2E

畢井泉可是最近幾年藥改背後的主要推手啊！地震！中央對疫苗事件問責，原副省長免職，畢井泉引咎辭職！ https://mp.weixin.qq.com/s/JyoHW1N7Sq-A3IiL1Ca3Fw

勁爆！茅台不再是「國酒」！放棄「國酒」商標申請，並向國家商評委致歉！https://mp.weixin.qq.com/s/qONzW3-B4F-9Qquw_zYkQw

很開心，爲壹基金設計的這款淨水杯已經送到了41233 名兒童的手中！https://mp.weixin.qq.com/s/H

#第十二屆全國舞蹈展演# 優秀舞蹈節目展 第二場攝影@-何小銘- 完整圖文：https://mp.weixin.qq.com/s/Pq2DVaLs1zrAGtKDMSpYog@今日頭條文化頻道 @第十二屆全國舞蹈展演

第十二屆全國舞蹈展演 優秀舞蹈節目展 第一場 精彩劇照 攝影@-何小銘-完整圖文：https://mp.weixin.qq.com/s/aFGFL3eJA8viLhcr-76r-A@今日頭條文化頻道 @第十二屆全國舞蹈展演

潛逃壓力過大暴瘦40多斤，一涉黑A級通緝犯在河北投案自首

當我們在談 SaaS 的時候，在談什麼？

合同詐騙的類型有哪些？企業無力償還借款是否構成合同詐騙罪？

5月西安招聘會時間安排來了！找工作的別錯過

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

全球鬧「美元荒」帶動穩定幣需求暴增！以太坊交易量創近兩年新高

“幫助當地居民解決用水難題”-今日頭條-手機光明網

灌籃高手無水印壁紙，每一張都是回憶

通遼藍天救援隊成功解救遼河公園水上被困群眾

5月6日·武漢要聞及抗擊肺炎快報

肖副省長等省市領導到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作

相聲界的顏值擔當張雲雷稱號大揭祕

美國百年薅羊毛攻略

《全職高手》：一口氣刷了10集，對楊洋路轉粉了

共同承擔責任！Rookie談BP問題：輸了是我們打得太臭

LOL"中韓對抗賽"遭選手反對？Zoom直言不想打，Doinb的回答太真實

李亞鵬攜李嫣出席慈善晚會，李嫣手上鑽戒搶鏡，1個動作獲誇讚！

53歲郭富城再度升級當爸，方媛懷二胎，Chant要做姐姐了

那些拼命的演員：王寶強喝了一大桶牛奶，孫儷吃10斤瓜子

賈乃亮用上了“一米陽光”這個詞，他依然渴望擁有美麗的愛情！

搞笑GIF開心一刻：我的老家農村，有妹子願意嫁給我嗎？

為什麼只有edg賺錢？

程瀟身材多好？雙腿劈叉才明白，這才是“腿精”

張柏芝承認三胎產子，否認小夥的老爸是孫東海，看來她選擇保密

T1戰隊搶注Faker商標，“囊括多個領域產品，商業潛力媲美喬丹”

雲頂之弈“最不平衡的版本”誕生，全員搶一費卡，運氣成吃雞關鍵

LPL春季賽"6宗最"：Uzi最遺憾，阿水最驚喜，V5最離譜

雷佳音被問：跟佟麗婭拍那麼多親熱戲是啥感受？他的回答笑翻眾人

JDG成最“慘”冠軍戰隊？拿到LPL冠軍人氣依舊低迷，TES成贏家！

#戰疫必勝#“症和狀”都有了，我與新冠擦肩而過

T1提議中韓友誼賽，但LPL隊伍都不想參加？理由其實很簡單

網友投稿：光山縣潑陂河鎮至白雀園鎮的X015縣道德兩座壞橋經過5個月的等待終於開修啦#光山 #信陽

2020最佳韓劇追起來~《愛的迫降》僅排名第二，TOP 1絕對實至名歸

搞笑GIF開心一刻：我正在睡覺，誰敢打擾我

QQ突然火了沉寂已久的QQ再次掀起熱潮你會拋棄微信嗎

華為手機提示攔截qq刪除照片華為副總對圖片攔截問題作出迴應

《忽然之間》-全有哥哥唱了一首歌曲，快來聽聽吧。>>https://node.kg.qq.com/play?s=r63-HGrlCQUjLrrq&shareuid=639998842125358331&topsource=

湖北黃梅人分路的老鄉嗨起來！https://mp.weixin.qq.com/s/_a-DaSSm-yElaZo4m3TVtA @環球網 @深圳衛視軍情直播間 @第一軍情 @了不起我的家 @董明珠自媒體 @餘輝孟 @潘石屹 @勞春燕 @邱毅台灣 @中國三農網 @央廣網 #開心麻花# #

因爲腿疾，原本答應丁薇的演出嘉賓無法前往，人生中第一次由於身體緣故影響工作以及承諾，特此道歉24小時倒計時｜丁薇「美夢如是」 Blue Note Beijing 音樂會 https://mp.weixin.qq.com/s/QJCzAdbOsdpc0PHY-hoP9Q

#第十二屆全國舞蹈展演# 優秀舞蹈節目展第二場攝影@-何小銘- 完整圖文：https://mp.weixin.qq.com/s/Pq2DVaLs1zrAGtKDMSpYog@今日頭條文化頻道 @第十二屆全國舞蹈展演

第十二屆全國舞蹈展演優秀舞蹈節目展第一場精彩劇照攝影@-何小銘-完整圖文：https://mp.weixin.qq.com/s/aFGFL3eJA8viLhcr-76r-A@今日頭條文化頻道 @第十二屆全國舞蹈展演

應急科普丨“五一” 期間氣溫回升謹防森林火災隱患