基本统计的直观指南

基本统计概念入门

基本统计的直观指南

> Photo by Chris Liverani on Unsplash

发现数据集秘密的过程中最基本的部分之一是统计信息(及其词汇表,即概率)。 直到最近,我一直与统计部门建立了爱恨交加的关系。 这个话题总是让我感到恐惧,从来没有感觉到直觉。 最近,我碰到了蒂莫西·C·乌尔丹(Timothy C. Urdan)写的一本名为《简明统计》的书。 本书使统计数据对我来说很直观,我希望通过总结本书中的观点为您做同样的事情。 如果您有时间,我强烈建议您阅读本书。 我会在这里尽力而为,但是绝对值得。

目录

· 我们为什么在乎?

· 人口v / s样本

· 采样

· 发行版

· 正态分布

· Z分数

· 标准误差

· P值

· 统计学意义

· 假设检验



我们为什么在乎?

让我们首先了解为什么我们甚至需要统计数据。 最简单的统计数据使我们能够管理信息。 它使我们能够收集,研究和总结信息(/数据)。 研究人员从许多人那里收集一些信息,并以此来总结他们的经验,并对人口做出一些一般性陈述。 例如,假设您正在建模一个数据集,目标是开发一个预测模型。 从某种意义上说,您在这里正在做类似的事情:您收集一些信息(在ML中称为训练数据),通过做出一些合理的假设来汇总信息(例如,作为模型参数),并做出一般性声明(关于测试数据)。 因此,我认为加深对统计学的理解可以帮助我们成为更好的数据建模者。

人口v / s样本

简单来说,人口是我们希望拥有的东西,但样本是我们拥有的东西。 总体代表感兴趣的特定组或类别的所有成员,而样本是从总体中抽取的子集。 与维恩图类似:人口是我们关注的领域,而样本是其中的一个事件。

基本统计的直观指南

> Figure 1 Venn diagram with event A and universe U.

在图1中," A"为样本," U"为总体。 这就是我们在典型的数据建模练习中所做的工作:尝试使用可以推广到总体未知部分的训练数据(即测试数据(= U-A))建立模型。 为什么要使用样本而不是总体来处理,可能有多种原因:总体太大而无法收集(例如,在语言建模练习中,所有可能的句子的总和都是巨大的),信息收集过程是 昂贵和费时等。这里的关键是因为我们正在与一小部分人合作,我们希望它能代表实际情况。 这就是为什么统计学家会费劲去考虑采样的原因。

采样

为了确保样本能代表总体,我们采用了所谓的随机抽样。 在统计方面,随机抽样意味着人口的每个成员都有被抽样的机会均等。 基于这种方法,我们可以确定样本与总体之间的任何差异都不会是系统的,而是随机的机会造成的。 换句话说,我们可以说,通过随机抽样,我们不会偏向人口中的任何特定成员。 这种采样是最流行的方式之一,也用于k折交叉验证中。 还有其他(细微的)采样技术类型,您可以在此处阅读有关它们的更多信息。

发行版

收集的样本可以包含不同类型的特征(/随机变量),例如连续或分类。 分布只是变量(/功能)上数据或分数的集合。 同样,无论变量类型如何,分数的任何集合,表格分布和这种分布都可以用图形表示。 我们经常对这些分布的特征感兴趣,例如分布的典型值,值的变化,分布的形状等。 研究随机变量的分布可让我们深入了解其行为。

分布中的典型值通常使用统计数据来衡量,例如平均值(其他度量值包括中位数,众数),以及使用方差(或范围,IQR)的变化。 这些中的流行选择是平均数和方差,但是其他选择可能更有用,具体取决于数据类型(例如,使用离群值,中位数可能比平均数更好)。 该方差提供分数分布中分散量的统计平均值。 查看方差的一个问题是其单位与原始变量不同。 为了解决这个问题,我们通常查看标准偏差(这是方差的平方根)。

为了更深入地了解标准偏差,我们来看两个词:偏差是指单个值与平均得分之间的差异; 标准是指典型或平均水平。 因此,标准偏差是各个值与分布平均值之间的典型偏差或平均偏差。 使用标准差检查分布中分数的平均离散度。 因此,将平均值的度量与值散布的度量相结合,可以得出分数分布的大致情况。 在此处可以找到有关样品标准偏差和方差的公式校正的注释。 检查分布的另一种有用方法是箱线图。

正态分布

我正计划通过谈论正态分布的重要性来激励本节。 我认为这个Q / A线程做得很好。 因此,我将在这里总结一些有关正态(也称为贝尔曲线)分布的事实。

基本统计的直观指南

> A standard Normal distribution. Photo Credit: Wikimedia

它具有三个基本特征:a)对称,b)均值,中位数,众数都在同一位置,即分布的中心,c)渐近,即上,下尾巴永远不会接触x轴。 之所以在实践中使用正态分布,是因为我们关心样本中由于偶然性而发生某种事物的确切概率。 如果我们仅对描述样本感兴趣,则值是否呈正态分布都没有关系。 例如,如果一个样本中的普通人每天消耗2000卡路里,那么样本中一个人每天消耗5000卡路里的机会(或概率)是多少? 此外,我们经常对推断样本来源的总体感兴趣,这些推断可以通过使用正态分布来完成。

那么,给定一个分布,我们如何找到它是否服从正态分布? 我们可以看一下偏斜和峰度。 这些是用于描述分布的特征。 我们可以将分布的偏斜度和峰度与正态分布进行比较,以检查我们对给定随机变量是否服从正态分布的假设。 正如我们将在后面的部分中看到的那样,理论上的正态分布是统计的关键要素,因为推论统计中使用的许多概率都基于正态分布的假设。

Z-Score 分数

有时我们对描述分布中的各个值感兴趣。 使用均值和标准差,我们可以生成一个标准得分(也称为z得分)来比较各个值的相对显着性。 同样,这种标准化有助于我们比较两个单独变量的分布中的值(因为现在两个变量的大小相同)。

例如,我们想比较Jim在英语测试和统计测试中的表现。 假设英语测试的范围是0–100,而统计学测试的范围是0–200。 此外,我们查看了论文并意识到,与英语考试相比,统计考试难度更大。 吉姆在两个测试中的分数直接比较是不正确的。 一种更合理的方法是在比较分数之前对分数进行标准化。 标准化会以标准偏差为单位重新缩放测试分数。 请注意,即使一项测试比另一项测试难,该差异仍可通过平均值和标准偏差解决。 换句话说,z得分以标准差为单位表示分布中给定分数的平均值高于或低于平均值。 此外,当对整个分布进行标准化时,标准化分布的平均z分数始终为0,标准偏差始终为1。

让我们在这里停留片刻,以了解z = 1的z得分会告诉我们什么。 在Jim的英语测试中,z分数的z分数为z = 1可以告诉我们:a)Jim的成绩比参加考试的普通学生好,b)他的分数与平均值相差1个标准差,c)如果分数是 分布正常,他的表现要比全班大约三分之二的人好(68-95-99.7规则)。 但是,仍然有很多z分数无法描述的信息。 例如,吉姆正确拼写了多少个单词,或者如果他是一个很好的拼写者,其他参加考试的学生是否是一个很好的拼写者,则测试的难度等级,等等。如果我们确定 我们的随机变量是Normal,我们可以计算百分位数(使用z得分表)。

重要的是要注意,我们只是对计算百分位数感兴趣,我们可以在不计算z分数的情况下计算百分位数:对观察值进行排序并使用百分位数的定义。

标准误差

这是推论统计中最重要的概念之一,已被广泛使用。 有两种方法可以考虑标准误差。 正式地,标准误差定义为某些统计信息的采样分布的标准偏差(如果这使您的头旋转,请稍等,我们将其分解为几行)。 考虑标准误差的另一种方法是,它是许多推论统计中用于计算的公式中的分母。

让我们退后一步,尝试更深入地理解这些定义。 想象一下,我们有兴趣测量社区中的平均身高。 根据我到目前为止的描述,我们从社区中的所有人中抽取了一个样本。 为了简单起见,我假设社区中有4个人,身高分别为1cm,2cm,3cm,4cm。 另外,我们假设样本的大小为2。这些都是可能的对:(1,2),(1,3),(1,4),(2,3),(2,4),(3 ,4),以及基于此得出的平均身高:分别为1.5cm,2cm,2.5cm,2.5cm,3cm,3.5cm,人口平均身高为2.5cm。 可以观察到,我们计算出的平均高度取决于绘制的样本,并且随着样本的改变而变化。 换句话说,由于随机抽样,我们感兴趣的统计量(平均高度)会有一些变化(即标准差),因此我们将其称为标准误差。

如果我们尝试在这种情况下剖析定义,则表示存在采样分布(我们通过随机采样获得该分布;在此示例中,这是平均高度的集合),该分布与平均高度相关 (可以是我们感兴趣的任何其他统计数据,例如体重,智商等),这种分布的标准偏差称为标准误差。 本质上,标准误差是对从相同总体中抽取的相同大小样本所期望的随机变化量的度量。 尽管所有统计信息都有标准误,但最常用的是平均值的标准误。

为避免混淆并从简单的频率分布中区分出采样分布,采样分布的均值和标准差被赋予特殊名称,即分别为均值和标准误差的期望值。 该平均值称为期望值,因为平均值的采样分布平均值(即通过重复收集样本并计算平均值而生成的分布平均值)与总体平均值相同:当从总体中选择样本时, 猜测是样本的平均值将与总体的平均值相同。 这为我们提供了标准误差的解释:它为我们提供了多少误差的度量(记住,标准差告诉我们单个值和均值之间的平均差),当我们说样本均值代表… 人口(因此,名称标准错误)。

大多数情况下,我们没有时间和资源来从总体中提取多个样本,也无法找到样本均值分布(或抽样分布)的均值和标准差。 到目前为止,我们已经确信标准误差确实存在,这对于分析很重要,而且通常我们无法访问采样分布。 这给我们带来了一个问题:我们可以使用样本中的信息来提供标准误差的一些估计吗?

为了研究这个问题,让我们考虑一下样本的两个特征。 首先,我们的样本有多大? 我们的样本越大,我们对总体的估计误差就越小,因为更大的样本更像人口,因此,估计将更加准确。 其次,我们需要检查样品的标准偏差。 在此我们假设总体标准偏差等于样本标准偏差。 关于人口的这种假设可能并不正确,但是我们必须依靠它们,因为这就是我们所拥有的全部信息。 另外,如果我们以某种方式知道总体标准偏差,则可以使用它。 因此,标准误的公式为

基本统计的直观指南

如果您结束了我之前链接的Q / A线程并了解了中心极限定理(CLT),那么我们在这里也可以说CLT指出当我们有相当大的样本(例如n = 30)时,样本 均值的分布将呈正态分布。

P值

我认为这个词相当受欢迎。但是,让我尝试使其更加直观。在继续之前,我想稍作停顿,并回顾一下到目前为止所讨论的内容。我们看到,我们通常使用的数据与实际人口之间存在差异,因为使用人口不便。为了生成样本,我们考虑适当的采样技术。一旦获得样本,我们就可以研究随机变量的分布,以了解样本。我们还研究了所有统计数据中最基本的分布之一的某些特征,以及证明/反证随机变量的分布是否服从正态分布的方法。我们还研究了一种标准化技术,该技术可帮助我们比较不同尺度/分布的随机变量的值。最后,在将样本结果推广到总体的问题中,我们了解了标准误的重要性。在这里,让我们将所有这些概念一起使用,以进一步探索从样本中概括见解的想法。

假设我们有一个样本(来自A市),其智商测试的平均得分为110,而全国平均得分为100。我们可以看到,样本得分和总体得分之间相差10分,但是这种差异有意义吗? 或琐碎的? 也许,如果我再次采样数据,差异可能会改变。 如果您想到了标准错误,那么您就走对了! 那么,我们如何知道这种差异是否仅是由于随机机会造成的(来自随机抽样技术)? 更具体地说,我们正在寻找获得随机样本的可能性,以使其与全国平均水平的差异为10分。 稍停片刻,思考一下这种可能性可以为我们带来什么。

如果我们以某种方式具有这种可能性并且很小,那么我们知道差异不是由于随机机会造成的,而是由样本的某些特征驱动的。 这是p值的关键。 流行的概率临界值是0.05。 p值为0.05表示,如果10个点的差异的概率≤0.05,则我们知道该差异是有意义的,因为我们不会因为随机抽样而看到此差异。

因此,让我们回到计算概率的原始问题。您可能还记得从前,正态分布使我们能够计算概率(68–95–99.7规则和z得分表)。要确定10点差异的概率,我们需要样本均值的正态分布或均值的正态采样分布。我们还可以使用紧密相关的t分布族来计算该概率。如您所见,这看起来与正态分布非常相似。您可以观察到,随着分布的大小(/自由度)增加,它趋向于正态分布。因此,考虑选择t分布的一种方法是,当我们不知道总体标准差并且正在查看有限的数据(以样本的形式)时,使用降低的t分布可能是一个更好的主意。对某些事件的信念:我们可以观察到t分布的PDF压缩了,这意味着尾端的概率相对于正态分布增加了。计算t值的公式与z得分相同,不同之处在于它使用从样本中计算出的标准误差(因为我们不知道总体标准差;如果知道这一点,我们可以计算出z得分) ),并且称为t值,因为我们使用t分布来计算概率。

从本质上讲,如果我们知道总体标准偏差,则可以使用它来计算z得分和正态分布,以计算出与总体相比样本上有10点差异的概率,如果不是,那么我们可以使用标准误差来计算 t值并使用t分布来计算概率。

统计学意义

在本节中,我们将带入到现在为止学到的所有思想,以探索一种流行的统计学应用,即推理。 推论的思想是研究样本并推论有关更大人口的结论。 我们经常在许多推论统计中提出的常见问题是,与随机抽样导致的方差量(即标准误差)相比,我们在样本中观察到的某些统计数据是大还是小。 请记住,这是一个重要的问题,因为作为随机抽样的结果,我们期望样本中有一些变化(与总体相比),并且我们使用样本标准偏差和大小对这种变化进行量化,并将其称为标准误差。

继续上一部分的IQ测试示例,我们试图回答的具有统计意义的问题是10点的差异是否是随机采样的结果。 用于得出有关统计量统计意义的结论的三个常用工具是测试,效果大小和置信区间。 简而言之,测试只是使用标准误差来计算p值,并以此来测试统计显着性。 效应大小是由以下观察得出的:较大的样本具有较低的标准误差(因为SE与样本大小成反比,这会导致较高的z得分(/ t值),因此有必要去掉样本大小的影响 ;置信区间是量化区间的另一种方法,如果我们重复收集样本,我们可以确保在该区间内真实的统计信息是正确的。

用简单的英语来说,统计意义有助于我们确定我们从研究样本中得出的结论是否也适用于(广泛的)人群。

假设检验

统计学中的另一个流行词。 在这里,我们要做的只是提出一个假设,然后确认或拒绝该假设。 从上一节可以得出,在某种意义上,甚至在我们执行统计显着性检验之前,我们都希望建立一个基准。 这个基准是我们的假设。

通常,主要假设是原假设(H_0)。 顾名思义,这是假设无效的效果,或者不存在该效果(这可能是我们有兴趣对人口进行衡量的任何效果)。 补充的假设是备用假设(H_a)。 顾名思义,我们再次考虑了零假设的替代方案,即存在效果。 因此,现在的问题稍有变化:在我们认为差异有意义或在统计上有意义之前,样本均值(这是一个例子,我们可以选择喜欢的任何统计数据)必须与总体均值有何不同? 请注意,在这个问题中,总体平均值是我们的H_0,样本平均值是H_a。

例如,在较早的IQ测试示例中,H_0是全国平均值100,H_a是样本平均值110,我们正在检验我们的假设,即该样本是否存在导致10点差异的特殊之处,或者 随机抽样,即具有统计意义。

您可能已经注意到,所有讨论都需要注意。 前面我们提到过,如果计算出的概率(p值)足够小(我们将其定义为0.05),那么我们说这些差异在统计上是有意义的或有意义的。 当我们接受0.05的临界值时,实际上,我们的随机样本可能会造成这种差异,并且H_0为true,即我们最终选择了极为罕见的随机样本(例如, 分布选择此类样本的概率将为1–0.997 = 0.003!)。 因此,在这种情况下,我们最终会犯一个错误。 此错误称为I型错误和截断值alpha。



我希望现在一些基本的统计概念更加直观。 我略过了一些基于上述思想且很有趣的重要概念:相关性,t检验,方差分析,回归。 在我们谈论的内容中,我将为您提供一个有趣的检验:假设检验的正态性。

(本文翻译自Sahil Gupta的文章《An intuitive guide to basic statistics》,参考:
https://towardsdatascience.com/an-intuitive-guide-to-basic-statistics-43e143e77a29)


分享到:


相關文章: