你能解决这一悬案吗?

写于2020.3.7


你能解决这一悬案吗?


1787年,美国召开制宪会议,颁布了宪法。为了号召民众支持宪法,三位美国政治家亚历山大•汉密而顿、约翰•杰伊和詹姆斯•麦迪逊,共用一个笔名,在报刊上一共发表了85篇文章,形成了后来著名的《联邦党人文集》。

由于共用一个笔名,这就导致在这85篇文章当中,具体哪篇是由哪个人写的,一直是个谜,就连当事人的说法也不一致。其中,就有12篇文章,汉密而顿和麦迪逊都说是自己写的。当时《联邦党人文集》出版后的一百多年,很多人都想搞清楚这个问题。

如果换了是你,把自己想象成一个侦察,你能解决这一悬案吗?

这件悬案一直拖到了1963年,也就是将近200年后,才有两位美国大学的教授站出来解决了这个问题。这两位教授不是历史学家,也不是政治学家,他们是统计学家。

对,统计学家。他们正是利用统计的方法解决这一问题。

你看,每个人的写作都会有自己的特性,体现到文章当中,就是每个人使用词语的频率会不一样。两位教授对汉密而顿和麦迪逊的文章研究后,发现两个人在用词上很不一样。比如,汉密而顿更喜欢使用“according”,而麦迪逊更喜欢使用“also”。于是两位教授选择了已经明确的,汉密而顿和麦迪逊的各自的文章,统计出各自的词频,得到两组数据,实际上就是他们两个人各自的“文字指纹”

有了指纹,这就好办了。把现场的指纹(也就是那12篇文章)进行比对,就得到结论:那12篇文章是麦迪逊写的。

这就是大数据的早期应用。

现在,想想淘宝给你推荐的商品,想想美团给你推荐的美食,想想今日头条给你推荐的新闻,想想抖音给你推荐的短视频,想想网易云音乐给你推荐的音乐……本质上都是掌握了你的“嗜好指纹”罢了

你看,大数据就在我们身边。


分享到:


相關文章: