"老年人"不配看青你2和创造营?我爬了微博数据结果发现…

Hello 小伙伴们大家好呀,这里是我寺大学僧

。最近青春有你2刚刚公布排名前35的训练生名单,创造营2020也在神仙打架的开场中正式揭开新赛季面纱。小伙伴们是不是看的激动不已!

和大家一样,本僧也是怀着激动的心情第一时间观看了两档节目,正准备和好基友一起吐槽讨论的时候,却被好基友一脸嫌弃的丑拒:你这么一大男人还看PLMM?女朋友的大刀怕是按不住了吧?

什么?不就是年纪大了点的吗,我还是个青涩的学生好不好?难道"老年人"不配看青你和创造营?愤愤不平的我特地去两档综艺节目的微博下爬取了发表评论的微博用户信息。是的,我要为我们这些老狗争一口气。(你:哦呸,你才是老狗。)

话不多少,开整。

一 数据的爬取与清洗

由于技术和时间有限,本僧无法对微博下数以万计的评论用户数据进行爬取,但为保证数据的代表性,特选取了两档节目官方微博账号下某一热门微博作为数据来源,使用爬虫工具对在该微博下的评论的微博用户信息进行爬取,主要包括性别、年龄、地域。其中将地域根据国家统计局的有关标准划分为东、西、中部和东北地区四个地区。

作为技术小白的我,祭出了我珍藏多年的傻瓜式数据爬取工具——八爪鱼。它可以根据自己的需求设计流程图,对数据进行有针对的爬取。(喂喂,这里是不是要给我广告费。)

八爪鱼爬取数据流程设计

数据的爬取分为两步,第一步,获取评论用户的微博昵称,第二步使用微博找人功能对昵称一次检索获取数据。是不是很简单~ 由于技术和时间的限制,仅在两个节目的微博下分别爬取了1000余条数据作为分析样本。

当然爬下来的数据一般是没有办法直接用的。本僧借助万能的EXCEL对数据清洗整理。由于并非每个微博用户都会注明自己的性别、年龄以及地区,故三项数据总数N是不相等的。

二. 数据的分析

好了经过前面轻描淡写,实际上花了我整整一天的时间爬取和清洗才得到的数据,心情有些莫名的激动,竟然有了一些"近乡情更怯"的意味?哦不,理智告诉在家呆了100多天的我,这是对于身份认同恐不得的慌张。本僧拿着紧张的像得了帕金森的老手,使用SPSS做图得到如下结果。

1.漂亮妹妹更喜欢看漂亮妹妹?


创造营(左)与青春有你2(右)微博评论用户的性别分布

看到这个分布后,我似乎听到了脑海中的回音——First Blood。

竟然漂亮妹妹更喜欢漂亮妹妹,我们泱泱大国的男性同胞果真都被女朋友看的死死地,都只爱学习,不爱看PLMM的嘛?不!否认事实的我想到,这一定是由于女性更加倾向于刷微博和留言,表达自己心声,我们男性同胞只是比较含蓄和沉稳,嗯,一定是这样的。

2."老年人"不配看漂亮妹妹?


创造营(左)与青春有你2(右)微博评论用户的年龄分布

看到这个数据后,我似乎再次听到了脑海中的回音——double kill。

是的,在有效的500多条数据中心,关注创造营2020的用户平均年龄只有18岁,关注青春有你2的用户平均年龄只有20岁。漂亮妹妹真的是漂亮的"妹妹"。看着自己脸上的年轮,真是男默女泪。

不,意识已经无法清醒的本僧已经觉得,这一定是由于年轻人更加喜欢微博互动,我们老狗比较沉稳。嗯,一定是这样的。

3. 东部地区的人更爱看这两档综艺?


创造营(左)与青春有你2(右)微博评论用户的地域分布

可以看到在两个节目下评论的微博用户地域特征和另外两个特征同样保持了高度的一致。本僧终于也难得在占有大多数的东部地区中找到了认同感。然而,由于根据区域划分的规则,东部地区本就占据了大部分的省份和人口,所占比重自然较高。

简单且不严谨的分析后,本僧深受打击。不过都2020年,在这个00后都已经20岁的时代,只得感叹一句,再不努力追赶潮流本僧就真的落伍了!

于是,我默默的打开了创造营2020,看得津津有味。


分享到:


相關文章: