Python 爬取吳亦凡的 10 萬轉發數據,自黑式「大碗寬面」竟圈粉無數?

Python 爬取吴亦凡的 10 万转发数据,自黑式「大碗宽面」竟圈粉无数?| 技术头条

“你看這個面它又長又寬,就像這個碗它又大又圓”。一直被網友們調侃的freestyle梗,沒想到真的被吳亦凡寫成了自黑的歌——《大碗寬面》。

此微博發佈的不到一天的時間裡,轉發數量超過36萬。本文作者用Python爬取其中的10萬條數據,告訴你大家是怎麼看待《大碗寬面》這首歌的呢?這些驚人的轉發數據裡,是否有假流量呢?

Python 爬取吴亦凡的 10 万转发数据,自黑式「大碗宽面」竟圈粉无数?| 技术头条

作者 | AlfredWu

封圖 | CSDN付費下載自東方IC

由於時間點也挺湊巧,剛好趕在蔡徐坤發律師函給嗶哩嗶哩之後,不禁讓大家對他們進行一番對比。同為我們印象中的流量明星,吳亦凡跟蔡徐坤之間有什麼不一樣嗎?大夥兒是怎麼看待他們的?又是怎麼看待《大碗寬面》這首歌的呢?

我們通過微博移動端隨機抓取了吳亦凡發佈新歌《大碗寬面》的微博轉發數據10萬條(時間節點2019年4月20日01時)。該微博於2019年4月19日10時發佈,到4月20日01時已被轉發超過36萬。

Python 爬取吴亦凡的 10 万转发数据,自黑式「大碗宽面」竟圈粉无数?| 技术头条
Python 爬取吴亦凡的 10 万转发数据,自黑式「大碗宽面」竟圈粉无数?| 技术头条

吳亦凡該微博的轉發是否存在假流量?

當然,關注我的朋友們估計最關心的問題是,吳亦凡的微博轉發是否像蔡徐坤一樣,有很多都是假流量?

我們先從粉絲性別比例入手。我們統計了102118條轉發數據中,有77279條是女性轉發的,佔75.7%,其餘24839條是男性轉發的,佔24.3%。這是一個比較合理的比例。

Python 爬取吴亦凡的 10 万转发数据,自黑式「大碗宽面」竟圈粉无数?| 技术头条

我們隨機抽取了男性的轉發,發現這裡的男粉絲幾乎都是有簡介、微博粉絲數、關注數都大於50的真粉絲。

Python 爬取吴亦凡的 10 万转发数据,自黑式「大碗宽面」竟圈粉无数?| 技术头条

咦,不是說吳亦凡是流量明星嗎?難道很多假流量都存在於女性的轉發裡?我們又隨機抽取了女性轉發的數據,發現,這裡面的女性粉絲幾乎也都是有簡介、微博粉絲數、關注數都大於50的真粉絲。

Python 爬取吴亦凡的 10 万转发数据,自黑式「大碗宽面」竟圈粉无数?| 技术头条

我們就更奇怪了:吳亦凡的假流量哪兒去了?

我們按照跟蔡徐坤一樣的標準,把轉發數據中轉發者的關注或者粉絲數少於等於5、沒有簡介、轉發之後被點贊數評論數再轉發數都為0、微博會員等級為0級的數據(注意,這裡的條件都是“且”的關係,而不是“或”,也就是需要滿足所有條件才會被判定是假粉絲),以及轉發者的關注或者粉絲數大於等於5但暱稱長“用戶XXXXXXXX”這樣的數據抽取了出來。看看吳亦凡的真假流量各是多少。

Python 爬取吴亦凡的 10 万转发数据,自黑式「大碗宽面」竟圈粉无数?| 技术头条

可見,吳亦凡的《大碗寬面》微博102118條轉發中,只有6100條是疑似假粉絲轉發的,佔6%,有94%都是真粉絲轉發的

。這跟蔡徐坤的轉發數據截然相反。

Python 爬取吴亦凡的 10 万转发数据,自黑式「大碗宽面」竟圈粉无数?| 技术头条

96018條真粉絲轉發的數據中,除去重複轉發刷榜的數量,裡面還有81872個真粉絲。也就是說,真實轉發的粉絲數量,佔總轉發量的80.2%。這比蔡徐坤3.84%的真實轉發粉絲數量高出了一大截。也說明至少在這首歌上,吳亦凡的假流量佔比是很少的。這首歌能火起來,靠的是大家對這首歌的接受度。

Python 爬取吴亦凡的 10 万转发数据,自黑式「大碗宽面」竟圈粉无数?| 技术头条

大家對於《大碗寬面》怎麼看?

既然這樣,那大家是以一種什麼樣的態度看待這首歌的呢?我們利用SnowNLP這個中文文本挖掘庫對轉發中所帶的每一條評論進行情感傾向分析並打分(分值為0-1,越接近0情感越負面,越接近1情感越正面,0.5為中立)。

Python 爬取吴亦凡的 10 万转发数据,自黑式「大碗宽面」竟圈粉无数?| 技术头条

所有轉發所帶的評論,對《大碗寬面》的平均情感傾向評分是0.686。也就是大家整體對於這首歌的評論都是偏正面的,這跟這首歌的豆瓣評分6.5分(10分制)也相差不遠。

Python 爬取吴亦凡的 10 万转发数据,自黑式「大碗宽面」竟圈粉无数?| 技术头条

隨機抽取出情感傾向高的評論,大家都認為吳亦凡可以自嘲自黑很酷、很接底氣、很可愛,認為吳亦凡可以通過這種方式來破網友對自己的吐槽梗,心胸很開闊。跟律師函警告相比之下,不知道高出了多少。

Python 爬取吴亦凡的 10 万转发数据,自黑式「大碗宽面」竟圈粉无数?| 技术头条
Python 爬取吴亦凡的 10 万转发数据,自黑式「大碗宽面」竟圈粉无数?| 技术头条

有多少人拿吳亦凡與蔡徐坤作對比?

由於這首歌發佈的時間比較湊巧,剛好在蔡徐坤發律師函給嗶哩嗶哩並引起網友一陣吐槽之後,所以大家難免會把吳亦凡和蔡徐坤放在一起比較。那麼,拿他們兩個一起比較的人多嗎?

我們把評論中帶有跟蔡徐坤有關字眼(比如包含“kun”、“坤”、“律師函”等)的評論都抽了出來,發現足足有6229條,也就是大概15條評論中,就有一條把他們兩個放在一起比較的。

抽取其中點贊數最高的10條,看看大家都怎麼進行比較的。

Python 爬取吴亦凡的 10 万转发数据,自黑式「大碗宽面」竟圈粉无数?| 技术头条

大夥兒都對吳亦凡的公關團隊表示佩服,可以把槽點轉變為亮點,有很多人佩服吳亦凡的氣度和格局,還有很多人認為這和律師函相比,高下立判。

Python 爬取吴亦凡的 10 万转发数据,自黑式「大碗宽面」竟圈粉无数?| 技术头条

有多少人開始路轉粉了?

既然這首歌風評那麼好,是不是很多人開始路轉粉了呢?我們把帶有“轉粉”、“圈粉”等字眼的評論抽取了出來,發現這裡面有足足3646條評論是關於轉粉的。

Python 爬取吴亦凡的 10 万转发数据,自黑式「大碗宽面」竟圈粉无数?| 技术头条

而這3646條評論中,有2441條是女性的評論,還有1205條是男性的評論,佔1/3!按照比例保守估計,目前37萬的轉發中,吳亦凡已成功圈粉13000人!並且使很多原來不喜歡他的黑粉,開始轉變為路人。

Python 爬取吴亦凡的 10 万转发数据,自黑式「大碗宽面」竟圈粉无数?| 技术头条
Python 爬取吴亦凡的 10 万转发数据,自黑式「大碗宽面」竟圈粉无数?| 技术头条

評論的詞雲圖

按照慣例,我們把轉發中所帶的評論製作成了詞雲圖。

Python 爬取吴亦凡的 10 万转发数据,自黑式「大碗宽面」竟圈粉无数?| 技术头条

可以看到:

1. 正如微博配詞所說“大碗寬面能讓你開心,這確是我本意”,大家對於這首自嘲歌的最大反應是“哈哈哈”;

2. 大家覺得這首歌很好聽、有趣、有意思,覺得吳亦凡很可愛;

3. 有人第一次對吳亦凡說了“對不起”,對吳亦凡開始有Respect,開始路轉粉;

4. 還有人拿蔡徐坤出來比較,拿律師函出來調侃。

看來,在娛樂圈裡生存,開闊的心胸和善於自嘲的態度是很必要的。眼看著吳亦凡被萬千吐槽,今天還能收穫掌聲一片,從一開始的流量明星轉變為一個具有真流量的諧星。

所以說,千萬別虛榮心作祟,娛樂圈嘛,快樂才是真諦,何必針鋒相對。有時候不缺硬剛的勇氣,缺的是娛樂的智慧。人生如戲開個玩笑,聽完歌就洗洗睡。

作者簡介:Alfred,畢業於暨南大學,數據挖掘算法工程師,主要研究領域為數據挖掘、機器學習。

源碼:

https://github.com/Alfred1984/interesting-python/tree/master/KrisWu

作為碼一代,想教碼二代卻無從下手:

聽說少兒編程很火,可它有哪些好處呢?

孩子多大開始學習比較好呢?又該如何學習呢?

最新的編程教育政策又有哪些呢?

下面給大家介紹CSDN新成員:極客寶寶(ID:geek_baby)

熱 文推 薦

☞ 微軟 GitHub 超百名工程師聯名:我們挺 996.ICU!絕不刪庫跑路!

☞ 誰才是世界上最好的編程語言?| 每日趣聞

☞ 碼二代的出路是什麼?

☞ @996 程序員,ICU 你真的去不起!

☞ Elastic Jeff Yoshimura:開源正在開啟新一輪的創新 | 人物誌

☞ 機器學習萌新必備的三種優化算法 | 選型指南

☞ 19歲當老闆, 20歲ICO失敗, 21歲將項目掛到了eBay, 為何初創公司如此艱難?

☞ 她說:為啥程序員都特想要機械鍵盤?這答案我服!

System.out.println("點個在看吧!");

console.log("點個在看吧!");

print("點個在看吧!");

printf("點個在看吧!\n");

cout << "點個在看吧!" << endl;

Console.WriteLine("點個在看吧!");

Response.Write("點個在看吧!");

alert("點個在看吧!")

echo "點個在看吧!"

Python 爬取吳亦凡的 10 萬轉發數據,自黑式「大碗寬面」竟圈粉無數?| 技術頭條 

你點的每個“在看”,我都認真當成了喜歡


分享到:


相關文章: