用菜的抠脚的python语言统计《延禧攻略》各角色戏份，谁是主角？

2018-08-20 16:20:44 我用Python

要说最近有什么比较火的话题，自然是热播剧《延禧攻略》了，我在吃饭的时候也经常蹭老婆的pad看一两集。

如果不是以比较苛刻的眼光去看，这部剧确实有相当可圈点之处，情节紧凑不拖沓

虽然有些角色比较智障，但总体来说形象还是比较丰满的，演员也很敬业，是一部不错的霸道总裁片。

福利：私信回复【02】可获取爬虫视频教程

然后看的时候我就在想……

这部戏里哪个角色的戏份是最多的呢？
戏份多的是不是人气就一定很高呢？

刚好python里有学过关于词频统计的知识

稍微魔改一下，看能不能弄出想要的结果。

需求：统计《延禧攻略》中各角色的戏份

如何定义“戏份”这个概念？我们知道，一个角色的出场次数直接决定了该角色的曝光度，在其他角色的互动中出现在对话里也能间接增加其存在感。所以如果能找到相关文本，就有可能实现想法。

可以选择的统计对象有剧本和小说两种。理想状态下可能剧本更合适一些，不过我暂时弄不到完整的剧本，所以就用原著小说代替了。快速浏览小说后发现，虽然在部分细节和对话上与电视剧有所差异，但是人物总体出场情况及情节走向还是一致的，可以作为研究对象。至于我是从哪里搞到的小说全集这并不重要。

（你们知道作为一个直男，我在检查文本的时候是什么样的心情吗）

那么废话不多说，直接开始想解决方案。根据我有限的知识，这个问题应当按照以下步骤来分析：

以合适的格式读入文本
用jieba库进行分词处理（全文没有英文）
建立字典，将每一个词（键）与其出现次数（值）进行映射
按照某个顺序排列键值对
打印输出

结合之前学过的一个统计实例

很快代码就出来了：

然后打印输出，得到的结果是：

emmm...多出来很多奇怪的东西，这里和其他词频统计不同

我们要的只有角色名，什么“宫女”“知道”之类的词汇是不应该出现的。

这里就有必要对非必要词汇进行排除了。

基本的思路是反复运行程序，再手动挑出需要被排除的词语录入到一个excludes列表里

然后使用for in函数把字典里的值删去。

然后我进行了巨大的工作量……

建立了这么一个词库：

然后在后面多加一段这个：

保存，跑一遍，得到这个：

好像哪里不对。

“魏璎珞”和“璎珞”分明是同一个人，“弘历”和“皇上”同理也没有区别。

这部剧里各角色在不同时期、不同身份下称为均有所不同

也就是说有必要了解所有角色可能的称谓，并将同角色称谓进行归纳。

于是我机智地点开了网页，

找到了《延禧攻略》全角色简介：

同时：

为了让python学习这些角色名，另新建一txt文档把角色名及别名全部输入进去，用jieba进行读取；

对代码动手，把角色不同称谓进行映射：

运行程序看看：

这样就顺眼多了。然而我还是有点不满意：

虽然建立了excludes列表，但通过人力也仅仅能排除几十个干扰项，顶多能弄出前30的排名，再多就非常累了。

这显然不符合我的预期，于是我瞧了excludes半天，想出一个解决方案：

真是不容易，连出场一两次的小角色都统计出来了。

事实上作为一个菜的抠脚的新手，这一步想了我很多时间。

最后为了优化代码提高用户体验，将最后结果输出到一个txt文档中，方便转化为csv文件导入excel分析。

然后在excel里拉个图表来瞧瞧：

乾隆：魏璎珞同志，谁才是大猪蹄子呢？你一个人细分比朕和皇后加起来都多

可以看到，在原著中魏璎珞不愧是第一女主，其戏份比皇帝和皇后加起来还多。

其他戏份比较足的是明玉、慧贵妃、尔晴、纯妃、袁春望、太后这几个角色

其他角色有些虽然也比较重要，但是出场率显然不及前几位了。

那么，电视剧播出后，这几位的人气是否与他们的戏份是正相关的呢？

这里当然可以抓取开播以来的网络评论数据来检索关键词，不过为求简（tou）便（lan），这里直接用百度指数代替了：

其他角色相对这几位都太低了

尔晴：...你们这群渣渣，姐姐我才是人气明星！！！

分享到:

閱讀更多 我用Python 的文章

關鍵字: 小说 Python Excel

继撒野多次曝光后，耽改剧将军令也玩这套路，这次换吴亦凡中招？

这次《将军令》爆出主演是吴亦凡和林彦俊，不知是否和当初的《撒野》一样，也是在炒作流量艺人，来给剧组宣传增加热度？

马蓉近况曝光，四处旅游享受生活，活得惬意十足

和王宝强离婚之后，马蓉得到了上亿的离婚赔偿，现在的她通过这些钱一下子走上了人生巅峰。她不但穿着各种奢侈品到处旅游享受，还频繁得分享自己的动态，非常急于告诉大家自己过得十分惬意而富足。

明天过后又是新的开始，贾乃亮新恋情出现？

去年4月的时候，就有网友爆料，说贾乃亮有了新恋情。也有网友说，这么容易就走出了这段过往，又开始新的故事，难道就不怕出现重蹈覆辙的下场吗？

陈柏霖风评大变，李大仁滤镜退去，网友感叹人设崩塌

陈柏霖这个名字想必大家很熟悉，大仁哥就是他扮演的，而他也凭借这个角色成为了许多人心目中的大暖男，大家理所当然的认为陈柏霖是一个温柔大男孩。而现实却并非如此。陈柏霖这个人，其实并非一个痴情人士。某人曾评价过他，私底下跟李大仁大相庭径！那么为什么会被这么评价呢？

网友质疑何捷养不起张馨予，张馨予化身护夫狂魔，幽默回怼

前一阵子，曾黑历史不断的张馨予宣布了自己的婚讯，她的老公是身为军官的何捷。两人在综艺节目中认识，二人在互动中萌生情绪。他们在上海举办了低调的婚礼，二人的婚房也极为简单，网友吐槽还没有张馨予自己的房子大呢。

许凯解锁新技能？这部沙雕神剧我一定要吹爆他

提起许凯，你想到的肯定是这样的亦或是这样的但是你能想到他其实是这样的吗？呃~对不起打扰了，美女，敢问你芳龄几许？是否待字闺中？能不能留个电话？这身姿，这容貌让作为直男的我简直羞涩难当、春心荡漾、直击high点。这样的许凯先给我来一打。

将夜宁缺真实身世大揭秘

在将夜分集剧情介绍中宁缺的父亲叫林涛，在将军府当二门房，他是一个孤儿，林姓为宣威将军赐予。宁缺出生之后便在将军府长大，之后林将军府被诬陷通敌叛国遭到灭门，只有宁缺一个人活了下来。

54岁李丽珍留长发仍清纯，针织开衫难掩傲人上围，初恋脸太养眼

李丽珍在早期的港圈人气很高，年轻时候的她出演的多部作品都很受追捧，虽然长相清纯，但是她的身材十分丰满，所以给人的感觉真是别有韵味，无人能及，至今在港圈仍然拥有一席之地，关键这女人似乎一直没变老，永远年轻漂亮。

《九州缥缈录》第46集剧情介绍：羽然凝翅，你见过最美的姬武神吗

《九州缥缈录》第46集剧情介绍：羽然凝翅，你见过最美的姬武神吗《九州缥缈录》第46集剧情介绍：羽然凝翅，成姬武神，手刃宫羽衣

媒体拍到王源杨超越贾乃亮一起聚餐，还拍到王源在抽烟！

古装没有千玺和王俊凯好看，但是现代装很棒。用了短短几年的时间，从一个默默无闻到现在无人不晓，可见他们是多么的努力，一些辛酸只有他自己知道，成名的背后都是艰辛。

王源道歉梁博认为不是错误，他反而叫梁博坐地。

在崩溃中王源尝试2次都没法完成最后一句，只好在乐队和伴奏停顿一段时间够才艰难的把最后一句完成，完成后他已经控制不住，急忙跟观众道歉。

李宇春吴青峰作为怪物零点上线，发长文感谢李宇春：合作很亢奋！

5月20日零点，由吴青峰和李宇春首度合作的歌曲《作为怪物》将正式上线。而在这个重要时刻到来之前，吴青峰本人也是在微博上发出了一篇题为“作为怪物之前”的长文。

一票难求！周董对不起了！这次，我没办法去看你的演唱会了

毕滢风波后首现身，演员赵儒嫣晒剧组杀青照，其中包括张丹峰。

但是没有想到的是，张丹峰对此并没有出声，也不知道是保持不否认不默认的态度想让它慢慢的被人淡忘，还是事情已成定局解释再多也没有什么用。

迷茫的时候请看看这部电影

——《我和我的祖国》整部电影由《前夜》《相遇》《夺冠》《回归》《北京你好》《白昼流星》《护航》7个短片组成。

为何“深夜食堂”在中国总是生意惨淡？是菜不好吃？还是故事乏味

为何“深夜食堂”在中国总是生意惨淡？是菜不好吃？还是故事乏味梁家辉版《深夜食堂》再受挫，为何“深夜食堂”在中国开不起来

李泽楷与小26岁女友分手？梁洛施产3子被拒，绯闻太多情史成谜

近日，有八卦消息传出富公子李泽楷已经与小女友郭嘉文分手，两个人也确实许久没有同框出现。不过拍拖三年以来，李泽楷一直对这位小女友宠爱有加，不但帮她推掉了TVB合约，还又送房又配车，很是贴心。

许久不露面的杨颖说啥了？惹恼了贾玲，老好人沈腾用水枪喷她

上周最新一期的《王牌对王牌》是以“谍战”为主题，同时还邀请了朱丹老公周一围、许久不露面的baby杨颖、清纯女神王丽坤、军艺校草沙溢、实力演员祖峰五个人，有颜值又有实力的五个人组成了“精英情报站长”；常驻嘉宾沈腾、贾玲、华晨宇、关晓彤王牌家族成员组成“王牌情报站长”，两组成员通过重

乃万谢可寅互相吐槽，有谁留意到两人说了啥？观众：两个自恋的人

《青春有你2》第一次的排名也已经全部公布完毕了，而且在节目中还有一个环节，就是导演组问学员们选出在《青春有你2》里你最想吐槽的人，看到导演问的这个问题之后，观众也是梳起了自己好奇的大耳朵了呢。

明星也有买家秀和卖家秀？看《王牌》现场，baby和关晓彤太真实

现在许多人都喜欢网购，看网上一些衣服或者东西非常的好，就想买回来，觉得自己穿上也是这样的，于是就出现了买家秀和卖家秀，大家都知道这是什么意思，但是你知道吗？

王牌先生成团宠，尚雯婕主动拥抱，柳岩一通猛夸，那郑爽会如何呢

众所周知《王牌对王牌》有四位常驻嘉宾，是沈腾、贾玲、关晓彤和华晨宇，还有一个主持人是沈涛。而王牌先生则更惨，是当来宾人数多，王牌家族人数少时，会参与节目来凑数的。

《青你2》宿舍时装秀，有谁注意到乃万？这才是正确的打开方式

《青春有你2》已经播出了很多的期了，每一期的看点都是很不错的呢，并且也给观众带来了很多的看点，相信在观众的心中也有喜欢的学员的吧，在最新两期的节目中，宿舍的时装秀让我们看到了学员多种多样的风格的呢，而且乃万宿舍的时装秀是非常帅气的。

当红女星也这么节约！600块鞋不舍得买，手机用4年，化妆桌好真实

见惯了明星们光鲜亮丽的生活，在刻板印象里很多人大概都以为明星应该过得很奢靡，不过，今天要说的这位可能比你还节约，算得上娱乐圈最节约女明星了，就是通过《延禧攻略》纯妃爆红的王媛可。

杨紫邓伦要合作？郑爽杨洋再拍IP剧？观众的意见完全不一样

这两天《香蜜沉沉烬如霜》的制片人刘宁就有回复一些粉丝，尤其是《香蜜沉沉烬如霜》这部电视剧的粉丝，说杨紫和邓伦私下是好朋友，而且自己也有洽谈项目，如果有合适两人的项目的话，会尽最大的努力促成两人再次合作，而且还贴出了杨紫和邓伦的行程表。

站在世界的舞台上，你也能成为“韩商言”，这才是我们“热爱的”

佟年和韩商言甜甜的爱情看得一众老阿姨直呼“太上头”，帅气的李现也因此被称为“七月恋人”，短短几天涨粉无数。

双标？都是调侃其他艺人，贾玲被忽视，杨颖被骂惨

“鹿晗和吴亦凡差得远”，这是《王牌对王牌》中贾玲说的一句话，一直以来情商很高，为何会说这样的话呢？其实杨颖说这句话的时候是在角色扮演的游戏之中，一开始她就强调自己是个好人，一来就已经入戏了，之所以杨颖会对贾玲说那句话，是因为杨颖深知贾玲不是卧底，在理线索的时候，贾玲跑出来帮卧底说

Angelababy“蠢”上热搜, 她在《王牌对王牌》都做了啥!

《王牌对王牌》第五季已经开播有一段时间了，相信大家也都已经看过节目了，在最新一期节目中以“谍战”为主题，邀请了Angelababy杨颖、周一围、王丽坤、沙溢、祖峰五个人组成“精英情报站长队”，与“王牌家族”组成的“王牌情报站长队“一起通过玩游戏来揪出混在组织内的”2名内鬼“，这期

看完牙疼的5部甜宠剧，如果你全都看过，请允许我叫你一声大神！

1.《微微一笑很倾城》，该剧改编自顾漫的同名小说，由杨洋、郑爽、毛晓彤、牛骏峰、郑业成、崔航等主演，主要讲述了肖奈和贝微微在游戏中相识，在现实中见面，然后相爱的温馨故事。

《星落凝成糖》有望杨紫邓伦再合体，观众们期待，粉丝们却有顾虑

由一度君华小说改编的《星落凝成糖》上个月便和刘宁工作室签约，好消息是该剧无论上创作风格，还是主创都是延续《香蜜沉沉烬如霜》的原班人马，为该剧奠定了爆红的基础。

杨颖，直率和礼貌是可以并存的

感恩关注，期待下一次相遇杨颖参加了《王牌对王牌》节目，不少网友都还是挺期待的，可惜从头到尾都只能感到尴尬。

韩星崔雪莉自杀：抑郁症离我们很近，家长请重视孩子心理健康

10月14日下午，警方接到崔雪莉的死亡申告，随后确认其死亡。据韩国媒体爆料称，雪莉今天原本应参加节目录制，但经纪人在13日下午6：30与她最后一次通话后，就再也联系不上她。直到经纪人去家里找她，发现她已经身亡。

《狗十三》：浅谈女主李玩成长后“懂事听话”的原因及现实意义

《狗十三》是导演曹保平2013年的作品，获得了第64届柏林国际电影节水晶熊最佳影片奖、第21届北京大学生电影节最佳影片奖。《狗十三》被大家捧为十年来最好国产青春片。一想到青春片，以往大家想到的都是恋爱、逃学、堕胎……，似乎不整点轰轰烈烈的事情，不足以道青春。

57岁狄莺再复出惹争议，曾暗讽小S生不出儿子、踹蓝洁瑛腹部

今日有媒体曝出狄莺凭借综艺节目《黄金时代》正式复出的消息。今年57岁的她穿着大胆，穿着一件深V高开叉连衣裙，妆容精致但难掩脸上的皱纹。此前，狄莺因为私人原因退出演艺圈两年。如今再度复出，她不改往日霸道个性，对昔日落井下石的艺人朋友一一点名。

易烊千玺演唱会落泪，胖虎分享自己看法，网友：希望以后一切顺利

易烊千玺网友们都非常的熟悉了，在娱乐圈里也有不少的粉丝，最近易烊千玺的首场个人演唱会完美落幕。不少网友了解之后表示也希望四字弟弟今后可以一切顺利吧。

谭松韵造型被网友搞怪，本人回应被赞高情商，性格风趣幽默

说起谭松韵网友们都已经熟悉了，她在娱乐圈中也不算是新人，出道以来也接拍了不少的电视剧作品，从一个演技稍显稚嫩的演员，一步步走到现在，真的是很不容易，而且也让人佩服不已。

灰头土脸的明星们，赵丽颖惹人怜，刘亦菲难掩美貌

原标题：明星灰头土脸成什么样？黎明像流浪汉，赵丽颖面黄肌瘦惹人怜！明星在镜头前大都光鲜亮丽，尤其是在红毯上更是人中翘楚，这不禁让小表妹好奇他们灰头土脸的样子，作为演员，或许生活中他们造型时尚，但在影视剧中常常会因为角色设定而变得灰头土脸，接下就和小表妹一起看看吧！

尼格买提被错认成徐峥，徐峥本人回应，被网友夸赞“情商真高”

近日央视著名主持人尼格买提在社交媒体发问，到底自己哪里像是徐峥老师？微博发出了之后，网友恍然大悟，不说不觉得，这么一说还真是和徐峥有点像。有的网友还在小尼的微博底下留言，劝他千万要保护好自己的头发，看来在这位网友的心中。小尼和徐峥的区别就是头发，如果小尼没了头发估计会更像徐峥。

马伊琍深夜现身酒吧，靠着门边抽烟边看手机，面带微笑

马伊琍网友们都非常的额熟悉，近日，有网友拍到马伊琍深夜和朋友们在酒吧聚会，在聚会中途的时候，马伊琍忽然一个人走到酒吧门口，拿着手机看消息。照片中可以看到，马伊琍靠着门边一边抽烟，一边看着手机，只见她的表情非常认真，连姿势都一动不动。

周星驰曾被当成笑柄，无厘头让后人玩味20年，大师都具备这一点

被导演李修贤和刘镇伟发掘，刘镇伟表示，起初嘉禾影视公司点名想找梁朝伟出演《赌圣》，但是思来想去觉得周星驰更为合适，于是力排众议，周星驰才有了从“星仔”蜕变为“星爷”的第一步。

还原历史中的《我和我的祖国》

今年“国庆”实在火爆！不仅有令全世界为之动容的“大阅兵”，电影院里的爱国情结也是火热“爆棚”。还原历史，让我们回到那段真实岁月。黄渤饰演的主人公叫林致远！这个人物是真实存在的。

“武僧”一龙主演军事大片还有5小时上映实时票房输给国产恐怖片

明天是周五，又到了一周电影集中上映的黄金时期，不少电影制作公司为抢占先机，纷纷在今晚零点场让自己的电影正式登陆院线，让观众提前过一把新片的影。

沥川成就了你，你却成了沥川；人生无常没什么值得你以命相搏

高以翔意外猝死的消息，刷屏了朋友圈。消息一出，无数人在震惊和错愕中不愿接受事实。这个年轻帅气的演员，生命定格在了35岁，许多同行得知此事，纷纷表示：不敢相信。他的人生才刚起航，昨天还和粉丝温柔儒雅地说再见。好朋友还在等着他后天来给自己当伴郎。

我的女友是手机，这部电视剧满足了中二肥宅的全部幻想

当你捧着手机，抱着肥宅快乐大礼包安逸地宅在家的时候，脸上挂着傻傻的笑容，和沙雕网友聊天，没有对象…因为一部手机，男主胆小的人设变了，一夜暴富，拥有了一帮力挺自己的伙伴还是取经组合，一起打倒反派，改变世界，手机都能变身女友，这简直就是人生巅峰啊。

《封神演义》评分屡创新低，抗日神剧都不敢这么演，剧情演员尴尬

文：简素本文是观看了《封神演义》第四十八集之后，实在是忍无可忍！本应该是以史实为主，却活生生的被改变成了一部大型宫斗荒诞剧，真是湖南卫视出品，必数**！

李沁的颜值也崩了？吐舌做鬼脸出现“断层下巴”，少女感都没了

颜值高的女明星成百上千，但一眼就能让人记住的没有几个，当然这其中肯定会有李沁了，脸蛋清纯脱俗很耐看，而且在一众90后小花中演技也称得上是很棒的。

网传张柏芝第3胎DNA泄露，爹是周星驰？工作室两字霸气回应

张柏芝可真是一个沉得下心来的酷女人，悄悄在去年11月生下第三个孩子，等到工作室宣布的时候，大家才恍然大悟。但很快，另一个更劲爆，关于孩子生父是周星驰的狗血传闻又来了，连DNA泄露这种梗都用上了。

夺冠拥吻陈小纭，于小彤秀恩爱太高调？网友：给周震南看的

说到《超新星全运会》这档节目想必大家都有所了解了吧，由于是一档集结多位明星参加的运动，很早之前就备受关注，再加上第一季打下了良好的基础，所以第二季开播后也成为了大家关注的焦点。

《情深深雨濛濛》：无论婚前还是婚后，都要坚持3条底线

情深深雨濛濛，多少楼台烟雨中……”当这首熟悉的歌曲再响起时才发现，不知不觉之间《情深深雨濛濛》已经播出十几年了。但即便岁月流逝，剧中那些动人心扉的爱情依然不会被忘却，那些经典的人物形象更是让人记忆犹新。

看了黄蓉的朋友圈才知道：嫁对了人，到底有多幸运？

郭靖黄蓉的浪漫历险，杨过小龙女的凄美爱情，张无忌赵敏的分分合合，曾让我们如痴如醉；东邪西毒南帝北丐的倾世一战，襄阳城外的血雨腥风，光明顶上的群雄纷争，至今依然让人心潮澎湃。

张杰演唱会现场说错和谢娜结婚年份，看来回家要跪搓衣板了

张杰，一位能够完美驾驭高音的男歌手，早期通过参加《快乐男声》出道，通过自己的努力让更多的人认识到他。