03.01 用大数据分析文学作品的新奇发现

关于作者

本·布拉特(Ben Blatt)曾任《石板》《哈佛讽刺家》等杂志撰稿作家,文章散见于《华尔街日报》《波士顿环球报》等媒体。他曾将本书这种有趣的大数据分析、论证方法应用于广泛的艺术题材,包括音乐、影视剧、综艺节目,以及文学创作。

关于本书

作者收集了数千本书籍的数据库,和数百万个单词,并提出一些重要的问题来启发爱书人和怀有好奇心的人:我们最喜欢的作家最喜欢用的是什么词?男性与女性的写作会有不同吗?畅销书会变不畅销吗?当代哪位作家喜欢用“陈词滥调”?最棒的开篇第一个句子有何特征?如何从封面判断一本书?哪些写作建议值得遵守,哪些可以一笑置之?

作者运用现有的统计技巧,加上自己设计的适用方法,所有调查与实验都原创亲自执行,读者不需特殊数学知识也可以理解得出的结果。作者将发现以清晰幽默的语言、充满说服力的视觉呈现,提供了一个认识经典作家作品——不论是其中隐含的模式结构,或者令人难以忘怀的词藻——的全新观点,对写作者而言也能有所启发。

核心内容

1.用大数据分析文学作品,我们可以得到什么新奇的发现?

2.经过大数据的验证,什么样的写作技巧确实可以提升小说的质量?什么样的写作技巧其实并不管用?

3.根据大数据的统计,什么样的小说可以更受读者欢迎,并且卖得更好?

《纳博科夫最喜欢的词》|用大数据分析文学作品的新奇发现

前言

你好,今天我为你解读的这本书叫《纳博科夫最喜欢的词》。这是一本文学评论,但是和其他的文学评论不同,这本书是利用大数据来研究文学。

大数据和文学,乍一听是风马牛不相及的两个领域。人们往往有一种观念,研究文学一定要从感性的角度出发。不论是写作者还是文学评论家,都倾向于个人的观感和经验。但是听完这本书你会发现,以往我们认为没有答案的文学问题,大数据竟然可以帮助我们找到答案。以往我们觉得神来之笔的文学作品,大数据竟然可以帮助我们发现规律。

这本书的作者本·布拉特,是美国著名的专栏作家,善于通过大数据分析音乐、影视剧、综艺节目。而这一次,他瞄准了文学作品,他分析了100多位英美作家的1500多部文学作品,还分析了上万部网络小说,在数以亿计的词语中,寻找文学写作的规律,验证文学写作准则的有效性,并将自己的发现写成这本《纳博科夫最喜欢的词》。

这本书的书名,就是一个非常有趣的问题。如果我们想要知道《洛丽塔》的作者,著名作家纳博科夫最喜欢的词,应该怎么办?你要知道,最喜欢的词并不等于最常用的词,像是“yes”和“no”每个作家都常用,可是并不代表这就是他们最喜欢的词。别的作家不常用,这位作家却常常使用,这才能看出他的偏爱。可是这样,不仅需要统计纳博科夫的作品,还要拿别的作家和他比较,要分析的单词数以万计。这件事如果我们手工去做,几乎是不可能实现的。可是如果依靠大数据,我们就能轻松得出答案。已经有学者收集了1810年到2009年间所有的英文小说,布拉特就先统计纳博科夫小说中最常用的词语,再拿这些词和过去200年的其他英文小说比较,找到了一个词,纳博科夫常常使用,可是别的作家却并不常用,这个词是“mauve”,意思是淡紫色。

“每天听本书”解读过纳博科夫的自传《说吧,记忆》,听完那本书你会发现,擅长观察并且情感细腻的纳博科夫,最喜欢“mauve”这个词还真的是合情合理。可是这一点,之前研究纳博科夫的文学评论家都没有注意到过。

你看,在文学领域,一些以前无解的问题,大数据却能帮我们找到答案。

需要说明的是,今天我们利用大数据的场景非常广泛,应用的方法也是多种多样。而这本书展现的,只是在文学研究这一个场景下,利用大数据的几种方法。具体有哪些方法,我会在后面详细说给你听。不过,只从这一个场景,我们也能看到,还有很多我们意想不到的领域,等待着大数据发挥自己的能量。

我从这本书中,选择了三个最值得你关心的问题来解读。

  • 第一,用大数据分析文学作品,我们可以得到什么新奇的发现?
  • 第二,经过大数据的验证,什么样的写作技巧确实可以提升小说的质量?什么样的写作技巧其实并不管用?
  • 第三,根据大数据的统计,什么样的小说可以更受读者欢迎,并且卖得更好?

第一部分

我们先来看第一个问题:用大数据分析文学作品,我们可以得到什么新奇的发现?

最大的发现,是用大数据分析文学作品,可以挖掘作者深层次的写作风格。大数据和统计学,就像是给了我们一双X光透视眼,连文学评论家都不能发现的细微特点,大数据却能帮助我们找出来。

这要从美国历史上的一宗悬案说起。

1787年,美国召开制宪会议,颁布了宪法。为了号召民众支持宪法,三位美国政治家亚历山大·汉密尔顿、约翰·杰伊和詹姆斯·麦迪逊,共用一个笔名,在纽约报刊上发表了85篇文章,这些文章后来出版合集,就是美国历史上赫赫有名的《联邦党人文集》。

《联邦党人文集》的作者是汉密尔顿、杰伊和麦迪逊,这在当年就是公开的秘密。可是这85篇文章中,具体哪篇是汉密尔顿写的,哪篇是杰伊写的,哪篇是麦迪逊写的,却一直是个迷。连当事人的说法都不一致,文集中有12篇文章,汉密尔顿和麦迪逊都宣称自己才是作者。因为《联邦党人文集》是美国历史上极其重要的历史文献,所以一百多年来,一直有学者想要明确每篇文章的作者,大家尤其想知道,那12篇文章的作者,到底是汉密尔顿还是麦迪逊?

一直到1963年,哈佛大学的莫斯特勒教授和芝加哥大学的华莱士教授一起破解了这个谜。不过,这两位教授既不是历史学家,也不是政治学家,他们是统计学家。他们使用的方法,正是统计学的方法,简单来说,就是分析词语出现的频率。

每个人的写作都有自己的特点,体现到文章中,就是每个人使用词语的频率都是不一样的。莫斯特勒教授和华莱士教授研究了汉密尔顿和麦迪逊的文章,发现两个人在用词上有很多不同。比如,麦迪逊用“also”这个词的频率是汉密尔顿的两倍,而汉密尔顿使用“according”的频率则比麦迪逊高很多。再比如,“while”和“whilst”是同义词,麦迪逊在文章中,习惯用“whilst”,从来没有用过“while”,而汉密尔顿在文章中,习惯用“while”,从来没有用过“whilst”。

于是,两位教授选择了几十个普通单词,统计了麦迪逊和汉密尔顿使用这些词的频率,这两组数据,就像是他们两个人的文学指纹。比照指纹,就能确定“嫌疑人”的身份。两位教授就用这个文学指纹,去和那12篇有争议的文章对照,最终得出结论,这12篇文章的作者其实是麦迪逊。

两位教授用统计学的方法,解决了长达两个世纪的争论。

在1963年,两位教授研究的时候,计算机还没有普及。因此他们用的方法,在今天看来十分原始,完全是手工操作,他们把每篇文章复印下来,再一个单词、一个单词地剪下来,最后按照字母顺序排列,统计每篇文章的词频。两个人在论文中写道:“干这样的手工活,一个深呼吸就会搞得漫天纸屑,前功尽弃,让你的同事恨你一辈子。”

好在现在有了计算机,所以这本书的作者布拉特在做各种各样的词频统计时,不用再从纸上剪单词了。而且,他可以利用计算机分析更多的文本,做更多有意思的实验。

他做的第一件事,是进一步验证莫斯特勒教授和华莱士教授的理论,看看是不是每位作家都有自己的文学指纹。

他的思路和刑警一样,先建立一个指纹库,遇到陌生的指纹,就和指纹库对照,看看能不能找出指纹的主人。

布拉特搜集了50位作家的600部小说,圈定了250个基本单词,统计每个作家使用这些单词的频率,把这个数据当作每个作家的文学指纹。接下来,他把这600部小说和50位作家的文学指纹逐一对照,看看能不能用文学指纹检验出小说的原作者。

在将近3万次检验中,只有176次的结果是错误的。也就是说,用词频当作指纹来确定作者,准确率高达99.4%。

接下来,布拉特发现,即使用更少的单词,也能当作文学指纹。布拉特只用10个最常见的单词当作文学指纹,准确率就能达到96%。甚至,只用1个单词当作文学指纹,大多数时候也能得到还不错的结果。比如,只统计“the”这个单词,准确率就能达到71%,只统计“and”这个单词,准确率就能达到83%。你看,即使是最普通的单词,在这种统计手段下,也能体现每个人写作风格的差异。

你可能会说,好的作家本来就应该风格鲜明,而且这600部小说,很有可能类型不同,时代不同,故事也不一样,所以检验起来难度也不是很大吧?

布拉特也想知道,文学指纹能不能接受更难的挑战,他找到了一个完美的难题:网络同人小说。

所谓网络同人小说,指的是网文作者把一部著名小说当作基础,进行第二次创作,同人小说使用同样的主人公,故事也很类似,甚至会主动模仿原小说的风格。因为是网络小说,所以作者写作的年代也十分接近。可以说,用文学指纹辨别网络同人小说的作者,是对这个方法的终极挑战。

布拉特选择的是《暮光之城》系列的同人小说,原著一共60万字,在互联网上,有153位作者,他们的同人小说字数比原著还长。布拉特从中选出50位作者,建立文学指纹库,将《暮光之城》原著和这50位作者的文学指纹一一比对,他发现,没有一位同人小说作者,会被检验成原著作者。

接下来,布拉特又将同人小说作者和作品挨个比较,他一共做了两万多次检验,发现准确率高达99.7%。你看,即使主人公相同,故事相似,时代相近,把单词的频率当作文学指纹,依然能准确的区分每一个作者。

从莫斯特勒教授和华莱士教授,到布拉特的试验,我们可以看到,利用大数据和统计学方法,我们可以找到每个写作者独有的文学指纹,将他与其他作者区分开来。


分享到:


相關文章: