03.01 用大數據分析文學作品的新奇發現

關於作者

本·布拉特(Ben Blatt)曾任《石板》《哈佛諷刺家》等雜誌撰稿作家,文章散見於《華爾街日報》《波士頓環球報》等媒體。他曾將本書這種有趣的大數據分析、論證方法應用於廣泛的藝術題材,包括音樂、影視劇、綜藝節目,以及文學創作。

關於本書

作者收集了數千本書籍的數據庫,和數百萬個單詞,並提出一些重要的問題來啟發愛書人和懷有好奇心的人:我們最喜歡的作家最喜歡用的是什麼詞?男性與女性的寫作會有不同嗎?暢銷書會變不暢銷嗎?當代哪位作家喜歡用“陳詞濫調”?最棒的開篇第一個句子有何特徵?如何從封面判斷一本書?哪些寫作建議值得遵守,哪些可以一笑置之?

作者運用現有的統計技巧,加上自己設計的適用方法,所有調查與實驗都原創親自執行,讀者不需特殊數學知識也可以理解得出的結果。作者將發現以清晰幽默的語言、充滿說服力的視覺呈現,提供了一個認識經典作家作品——不論是其中隱含的模式結構,或者令人難以忘懷的詞藻——的全新觀點,對寫作者而言也能有所啟發。

核心內容

1.用大數據分析文學作品,我們可以得到什麼新奇的發現?

2.經過大數據的驗證,什麼樣的寫作技巧確實可以提升小說的質量?什麼樣的寫作技巧其實並不管用?

3.根據大數據的統計,什麼樣的小說可以更受讀者歡迎,並且賣得更好?

《納博科夫最喜歡的詞》|用大數據分析文學作品的新奇發現

前言

你好,今天我為你解讀的這本書叫《納博科夫最喜歡的詞》。這是一本文學評論,但是和其他的文學評論不同,這本書是利用大數據來研究文學。

大數據和文學,乍一聽是風馬牛不相及的兩個領域。人們往往有一種觀念,研究文學一定要從感性的角度出發。不論是寫作者還是文學評論家,都傾向於個人的觀感和經驗。但是聽完這本書你會發現,以往我們認為沒有答案的文學問題,大數據竟然可以幫助我們找到答案。以往我們覺得神來之筆的文學作品,大數據竟然可以幫助我們發現規律。

這本書的作者本·布拉特,是美國著名的專欄作家,善於通過大數據分析音樂、影視劇、綜藝節目。而這一次,他瞄準了文學作品,他分析了100多位英美作家的1500多部文學作品,還分析了上萬部網絡小說,在數以億計的詞語中,尋找文學寫作的規律,驗證文學寫作準則的有效性,並將自己的發現寫成這本《納博科夫最喜歡的詞》。

這本書的書名,就是一個非常有趣的問題。如果我們想要知道《洛麗塔》的作者,著名作家納博科夫最喜歡的詞,應該怎麼辦?你要知道,最喜歡的詞並不等於最常用的詞,像是“yes”和“no”每個作家都常用,可是並不代表這就是他們最喜歡的詞。別的作家不常用,這位作家卻常常使用,這才能看出他的偏愛。可是這樣,不僅需要統計納博科夫的作品,還要拿別的作家和他比較,要分析的單詞數以萬計。這件事如果我們手工去做,幾乎是不可能實現的。可是如果依靠大數據,我們就能輕鬆得出答案。已經有學者收集了1810年到2009年間所有的英文小說,布拉特就先統計納博科夫小說中最常用的詞語,再拿這些詞和過去200年的其他英文小說比較,找到了一個詞,納博科夫常常使用,可是別的作家卻並不常用,這個詞是“mauve”,意思是淡紫色。

“每天聽本書”解讀過納博科夫的自傳《說吧,記憶》,聽完那本書你會發現,擅長觀察並且情感細膩的納博科夫,最喜歡“mauve”這個詞還真的是合情合理。可是這一點,之前研究納博科夫的文學評論家都沒有注意到過。

你看,在文學領域,一些以前無解的問題,大數據卻能幫我們找到答案。

需要說明的是,今天我們利用大數據的場景非常廣泛,應用的方法也是多種多樣。而這本書展現的,只是在文學研究這一個場景下,利用大數據的幾種方法。具體有哪些方法,我會在後面詳細說給你聽。不過,只從這一個場景,我們也能看到,還有很多我們意想不到的領域,等待著大數據發揮自己的能量。

我從這本書中,選擇了三個最值得你關心的問題來解讀。

  • 第一,用大數據分析文學作品,我們可以得到什麼新奇的發現?
  • 第二,經過大數據的驗證,什麼樣的寫作技巧確實可以提升小說的質量?什麼樣的寫作技巧其實並不管用?
  • 第三,根據大數據的統計,什麼樣的小說可以更受讀者歡迎,並且賣得更好?

第一部分

我們先來看第一個問題:用大數據分析文學作品,我們可以得到什麼新奇的發現?

最大的發現,是用大數據分析文學作品,可以挖掘作者深層次的寫作風格。大數據和統計學,就像是給了我們一雙X光透視眼,連文學評論家都不能發現的細微特點,大數據卻能幫助我們找出來。

這要從美國曆史上的一宗懸案說起。

1787年,美國召開制憲會議,頒佈了憲法。為了號召民眾支持憲法,三位美國政治家亞歷山大·漢密爾頓、約翰·傑伊和詹姆斯·麥迪遜,共用一個筆名,在紐約報刊上發表了85篇文章,這些文章後來出版合集,就是美國曆史上赫赫有名的《聯邦黨人文集》。

《聯邦黨人文集》的作者是漢密爾頓、傑伊和麥迪遜,這在當年就是公開的秘密。可是這85篇文章中,具體哪篇是漢密爾頓寫的,哪篇是傑伊寫的,哪篇是麥迪遜寫的,卻一直是個迷。連當事人的說法都不一致,文集中有12篇文章,漢密爾頓和麥迪遜都宣稱自己才是作者。因為《聯邦黨人文集》是美國曆史上極其重要的歷史文獻,所以一百多年來,一直有學者想要明確每篇文章的作者,大家尤其想知道,那12篇文章的作者,到底是漢密爾頓還是麥迪遜?

一直到1963年,哈佛大學的莫斯特勒教授和芝加哥大學的華萊士教授一起破解了這個謎。不過,這兩位教授既不是歷史學家,也不是政治學家,他們是統計學家。他們使用的方法,正是統計學的方法,簡單來說,就是分析詞語出現的頻率。

每個人的寫作都有自己的特點,體現到文章中,就是每個人使用詞語的頻率都是不一樣的。莫斯特勒教授和華萊士教授研究了漢密爾頓和麥迪遜的文章,發現兩個人在用詞上有很多不同。比如,麥迪遜用“also”這個詞的頻率是漢密爾頓的兩倍,而漢密爾頓使用“according”的頻率則比麥迪遜高很多。再比如,“while”和“whilst”是同義詞,麥迪遜在文章中,習慣用“whilst”,從來沒有用過“while”,而漢密爾頓在文章中,習慣用“while”,從來沒有用過“whilst”。

於是,兩位教授選擇了幾十個普通單詞,統計了麥迪遜和漢密爾頓使用這些詞的頻率,這兩組數據,就像是他們兩個人的文學指紋。比照指紋,就能確定“嫌疑人”的身份。兩位教授就用這個文學指紋,去和那12篇有爭議的文章對照,最終得出結論,這12篇文章的作者其實是麥迪遜。

兩位教授用統計學的方法,解決了長達兩個世紀的爭論。

在1963年,兩位教授研究的時候,計算機還沒有普及。因此他們用的方法,在今天看來十分原始,完全是手工操作,他們把每篇文章複印下來,再一個單詞、一個單詞地剪下來,最後按照字母順序排列,統計每篇文章的詞頻。兩個人在論文中寫道:“幹這樣的手工活,一個深呼吸就會搞得漫天紙屑,前功盡棄,讓你的同事恨你一輩子。”

好在現在有了計算機,所以這本書的作者布拉特在做各種各樣的詞頻統計時,不用再從紙上剪單詞了。而且,他可以利用計算機分析更多的文本,做更多有意思的實驗。

他做的第一件事,是進一步驗證莫斯特勒教授和華萊士教授的理論,看看是不是每位作家都有自己的文學指紋。

他的思路和刑警一樣,先建立一個指紋庫,遇到陌生的指紋,就和指紋庫對照,看看能不能找出指紋的主人。

布拉特蒐集了50位作家的600部小說,圈定了250個基本單詞,統計每個作家使用這些單詞的頻率,把這個數據當作每個作家的文學指紋。接下來,他把這600部小說和50位作家的文學指紋逐一對照,看看能不能用文學指紋檢驗出小說的原作者。

在將近3萬次檢驗中,只有176次的結果是錯誤的。也就是說,用詞頻當作指紋來確定作者,準確率高達99.4%。

接下來,布拉特發現,即使用更少的單詞,也能當作文學指紋。布拉特只用10個最常見的單詞當作文學指紋,準確率就能達到96%。甚至,只用1個單詞當作文學指紋,大多數時候也能得到還不錯的結果。比如,只統計“the”這個單詞,準確率就能達到71%,只統計“and”這個單詞,準確率就能達到83%。你看,即使是最普通的單詞,在這種統計手段下,也能體現每個人寫作風格的差異。

你可能會說,好的作家本來就應該風格鮮明,而且這600部小說,很有可能類型不同,時代不同,故事也不一樣,所以檢驗起來難度也不是很大吧?

布拉特也想知道,文學指紋能不能接受更難的挑戰,他找到了一個完美的難題:網絡同人小說。

所謂網絡同人小說,指的是網文作者把一部著名小說當作基礎,進行第二次創作,同人小說使用同樣的主人公,故事也很類似,甚至會主動模仿原小說的風格。因為是網絡小說,所以作者寫作的年代也十分接近。可以說,用文學指紋辨別網絡同人小說的作者,是對這個方法的終極挑戰。

布拉特選擇的是《暮光之城》系列的同人小說,原著一共60萬字,在互聯網上,有153位作者,他們的同人小說字數比原著還長。布拉特從中選出50位作者,建立文學指紋庫,將《暮光之城》原著和這50位作者的文學指紋一一比對,他發現,沒有一位同人小說作者,會被檢驗成原著作者。

接下來,布拉特又將同人小說作者和作品挨個比較,他一共做了兩萬多次檢驗,發現準確率高達99.7%。你看,即使主人公相同,故事相似,時代相近,把單詞的頻率當作文學指紋,依然能準確的區分每一個作者。

從莫斯特勒教授和華萊士教授,到布拉特的試驗,我們可以看到,利用大數據和統計學方法,我們可以找到每個寫作者獨有的文學指紋,將他與其他作者區分開來。


分享到:


相關文章: