12.21 正态分布(高斯分布):大概率事件意味着什么?


正态分布(高斯分布):大概率事件意味着什么?

你好,欢迎来到我的《数学通识50讲》。

我们前面讲到,泊松分布描述的是概率非常小的情况下的统计规律性。这一讲我们通过学习高斯分布,也就是正态分布来正确认识大概率事件。

高斯分布也叫正态分布

与泊松分布那样的小概率事件相对,如果一个事件A发生的概率非常大,等于或者接近1/2(当p大于1/2时,1-p小于1/2,我们把p和1-p互换,依然只要研究p小于1/2的情况),同时试验次数n也非常大,会是什么结果呢?

我们假定事件A经过n次试验后发生了k次,把k的概率分布图画一下,就得到了一个中间鼓起,像倒扣的钟一样的对称图形。

正态分布(高斯分布):大概率事件意味着什么?


这个图形你一定很熟悉,18世纪,数学家棣莫弗和拉普拉斯把这种中间大,两头小的分布称为正态分布。不过,高斯对正态分布的误差(也就是标准差������)作出了更严格的分析,于是正态分布今天就被命名为高斯分布。

我经常讲,发明的荣誉常常是授予最后一个发明者,高斯分布也是如此,因为是高斯为这项发现画了句号。

高斯对正态分布的主要贡献在于,他利用概率分布的平均值和标准差(高斯实际使用的是方差,但是方差和标准差是完全相关的,今天我们用到更多的是标准差),来定义了正态分布,这种定义更具有普遍意义。

我们用一个大家并不陌生的例子来说明均值、标准差,和发生概率三者之间的关系。

正态分布(高斯分布):大概率事件意味着什么?


哪个班的成绩更优秀?

假如有两个班,一班的考试成绩在60~100分之间变化,均值(平均分)为80分。二班的成绩在70~100分之间变化,均值为85分。那我们能说二班比一班成绩好吗?这个问题没有那么简单。

根据我们的经验,同学们的成绩通常分布在平均分附近的比较多,特别好或者特别差的很少,对于这种情况,我们就可以用正态分布来刻画两个班成绩的分布,并且对它们进行比较。

图左边标注了80的曲线是一班的,右边标注了85的曲线是二班的。从这两条曲线可以看出,一班的成绩有一个很小的可能性超过90分,只是因为随机性的存在,比如极个别差生干脆交了白卷,导致整个班的平均分才成为了80分。如果一班真实的平均分应该是90分,而二班依然是85分,我们得说一班反而比二班强了。只不过,这种情况的可能性并不大。

我把这个可能性用蓝色画在了图中。类似的,二班虽然平均分为85分,但是也存在一个小概率的可能性,它的平均分不到75分,我用绿色在图中画出来了。

那么我们有多大把握说明平均分85分的二班一定比80分的一班强呢?这就要看两个班成绩的平均浮动范围了,这就是我们所说的标准差。这个数值其实就类似方便面包装袋上标的净重60克,后面还会标一个+-1克,这个1就是标准差。

如果两个班的标准差都是5分,一班的真实成绩也+-5,大致就是在75到85分的范围内浮动,二班的成绩是在80到90分的范围浮动。在这两个浮动范围重叠的部分,我们无法判断哪个班成绩更好。这个重叠区域,即文稿图中红色的区域,表示我们无法作出判断的情况,这个区域的面积,就是我们无法作出判断的概率。

具体到这个图中,红色区域的面积占了两条曲线所覆盖面积的65%。也就是说,有65%的可能性,我们没法说哪一个班的成绩好。或者说,我们只有大约35%的信心,证明第二个班的成绩比第一个班好。这种信心通常被称为置信度。关于置信度,你也可以回顾我的《信息论40讲》中第16讲的课程。

从这个例子中我们可以看出,两个班平均分差五分,如果标准差也是5分,我们并没有足够的证据说明哪个班成绩更好。那么在什么情况下能证明,平均分85分的二班,就比平均分80分的一班学得好呢?

那就是减少标准差。当标准差������降低到只有1时,这两个班成绩的概率分布大致如下图,重叠的部分只占面积的5%。这时我们大约有95%的信心说二班比一班好。其实这个很好理解,从分布图来看,标准差越大,分布图越扁平,重合面积就越大; 标准差越小,分布越 "瘦高",两部分的重合面积就越小,我们就越有把握判断哪个在横轴上的分数越高。

正态分布(高斯分布):大概率事件意味着什么?


如何减小标准差?

接下来大家可能会问,怎样才能减小标准差呢?

如果同学们的成绩分布情况不变,提高25倍的统计人数(虽然学校里没有这么大的班),标准差就会从5降低到1左右。

2019年10月份,医学界发生了一件轰动世界的事情。美国百健公司(Biogen)宣布他们所研制的治疗阿尔茨海默病的药品Aducanumab在大规模临床试验中被证明有效,全世界都为此欢呼。但是仅仅在半年前,他们进行的小规模试验后的结果却是药效不明显。这又是怎么一回事呢?

其实半年前的试验就是因为样本数量比较少,巨大的标准差掩盖了药物相比安慰剂在疗效上的差异。而当样本数量增加后,方差降低了,药效就看出来了。

可以对比图中的几条曲线:绿色的是参照组,黄色的是小样本试验的结果,蓝色的是大样本试验的结果。你可以看出样本数大了,结果曲线和参照组的重合度就减少了。

正态分布(高斯分布):大概率事件意味着什么?


大家可能会讲,标准差������和置信度这些东西我也不会算,能不能告诉我几个简单的数字,我在生活中直接用就好了。答案是有的!

如果一个随机变量的取值符合高斯分布,它有大约68%的可能性,动态范围不超过平均值加减标准差������。这时我们说,在一个标准差之内,我们对平均值的置信度为68%。

比如在上面的例子中,一班的平均成绩为80分,标准差为5分,于是我们有68%的置信度说,考虑到随机性的影响,这个班的平均成绩应该落在75~85分之间,而不是之外。

如果我们把允许的误差的范围放大一点,放大到正负两倍的标准差,那么有大约95%的情况,这个随机变量的动态范围不超出平均值加减两倍的标准差,或者说,我们有95%的置信度相信这一点。

做科学实验时,通常需要有95%的置信度,否则大家觉得不踏实。当然,如果我们进一步扩大误差范围到三倍的������,那么置信度就提高到99.7%。在要求极高的实验中,我们甚至会要求更高。

这个规则适合于任何高斯分布,我们通常称之为“三������原则”或者“68-95-99.7原则”。平时大家记住带有随机性质的结论,需要有95%的置信度就好了。我把上述三种情况画在了下面的图中,可以看一眼下面下图,获得一个感性的认识。

正态分布(高斯分布):大概率事件意味着什么?


大家同时也注意一下,图中曲线和x轴之间的面积,就是曲线的积分,面积的大小就代表了高斯分布在某个范围内的概率。

举例应用:

了解了标准差和置信度的关系,我们就拿它来分析一个例子。这个例子是关于股票投资的,我们以美国的股市为例来说明。

在过去的半个世纪里,标准普尔500指数的增长率大约是每年7%~8%左右,但是你知道它的标准差有多大么?高达16%左右。这说明股市的波动性特别大。有人可能会问为什么标准差会大于回报率,因为在不少年头,回报率是负的。

可以看下图,你会发现7%~8%的平均回报完全被淹没在巨大的正负误差波动中了。通常,金融领域的人会将这种标准差直接称为风险。

正态分布(高斯分布):大概率事件意味着什么?


这个事实说明,其实我们对于大概率事件,往往是视而不见的,而风险其实就存在其间,我有三点结论要详细说明。

首先是股市的风险要远远高出大部分人的想象,这不用多说了,一张图胜过千言万语。美国的标准普尔500指数,是世界风险最低,回报最高的投资工具,而且是500个表现很好的股票的平均值,收益和风险之比尚且如此,其它的投资风险就更高得多了。因此,大家在投资时如何小心都不为过。

其次,由于任何一种投资都有标准差(风险),因此对比投资回报时要把它考虑进去,不能只考虑回报不考虑风险。

比如投资A的回报是10%,风险是20%,投资B的回报是5%,风险是3%。不能光看10%比5%高,就认定投资A比B好,要橘子和橘子对比,苹果和苹果对比,在相同风险条件下对比。事实上在做投资时,A、B这两种投资恰恰是很好的具有互补性的工具。

当然,对于回报总是大于零的债券和存款(先不考虑欧洲的负利率),很多人会觉得是零风险的,其实这种看法也是错的。因为那些投资在计算回报时没有考虑通货膨胀的因素,如果你存款的回报是3%,而通货膨胀可能达到5%,这就是风险。

事实上,全世界所有的国家都刻意低报通货膨胀率,因为房价的上涨是不算在通货膨胀内的,而它恰恰可能是造成通胀的重要原因。

最后,如果有一只股票连续三年的回报是10%,另一只只有5%,你能说第一只比第二只好吗?不能,因为5%的差异,要远比16%的标准差小很多,事实上个股的方差比股指更大。换句话说,这5%的差异更可能是市场浮动的随机性造成的。

事实上,美国每年涨幅最好的10只股票、10个基金到了第二年表现都会跌出前十名。因此,不要以为自己的投资回报在几年里超过了股市大盘,就觉得自己是股神。

要点总结:

我们通过介绍高斯分布,说明了两个随机变量均值的差异和偶然性之间的关系。

由于偶然性的存在,如果只有很小的均值差异,那可能说明不了什么问题。我们还介绍了著名的3������原则,大家记住有随机性的结论,需要有95%的置信度就好。

下一讲,我们一起研究一下贝叶斯公式,下一讲见。——吴军《数学通识五十讲》


分享到:


相關文章: