Statistics as algorithmic summarization
算法总结视角看统计学
Ben Recht • 2021 年 9 月 28 日
尽管是一门多面且复杂的学科,但统计学的最大贡献是一个严谨的总结框架。统计数据为我们提供了合理的程序,通过仅检查人口中的少数个体来估计一般人口的属性。在这方面,统计是算法的:它提供了用于外推的随机算法。在这篇博客中,我将回顾一些基本的统计数据(尽可能少地使用数学形式),并尝试具体说明为什么这种算法观点具有启发性。在以后的博客中,我将在此算法视角的基础上将其应用于实验设计和预测中更有趣的示例。
举个简单的例子,我们知道地球上的每个人都有一个身高,定义为直立时从脚底到头顶的距离。假设我们想知道所有活人身高的平均值。这需要我们追踪每个活着的人,拿出卷尺,测量从他们脚底到头顶的距离。为了避免这种详尽的计数,我们可以设计一种有效的算法来估计这个数量。如果我们随机选择一个子集,并使用这个子集来估计均值呢?也就是说,我们可以从总体中随机收集个体样本,并测量样本中所有个体的平均身高。
在这个随机样本上测量的平均高度是一个随机量。因此,它必须有一个均值和方差,就像我们与其他随机量相关联一样。如果我们要从所有活人中随机均匀地抽取每个人的样本,那么样本的预期平均身高将恰好是一般人群的平均身高。此外,样本平均身高的方差将与样本个体数量成正比缩小。您测量的个体越多,样本的平均身高就越接近总体的平均值。
统计数据提供了强大的公式,让我们可以精确量化样本平均值与总体平均值的接近程度。例如,我们知道一个人的身高是一个正数,并且没有人身高超过 9 英尺。有了这两个事实,一个名为Hoeffding 不等式的公式的简单应用告诉我们,如果我们对三万人的身高进行抽样,我们的样本平均值将与真实平均身高相差一英寸,概率至少为 83%。无论个人人口有多大,这个断言都是正确的。所需的样本量仅由身高的可变性决定,而不是由总个体数决定。
您可以将本示例中的“身高”替换为您能够很好测量的几乎任何属性。对于具有合理可变性的数量,来自一般人群的统一样本将给出平均值的高质量估计。统计学提供了一个强大的框架,通过检查小子集的属性来推理人口级别的属性。
在这个例子中,统计数据提供了一种估计算法。我们从一个我们想要估计其平均值的数量开始。我们指定了这个数量在研究人群中的变化幅度。使用统计公式,我们计算了我们需要检查的个体数量,以便估计适当的质量。然后,我们可以继续尽最大努力从总体中抽取这种规模的个体的随机样本,测量这些个体,并报告样本的平均值。这是估计一般人群平均值的完整程序。
这种统计摘要的算法描述可能看起来没有争议,但它不同于统计通常被教授或概念化的方式。正如我在之前的 博客中所讨论的,统计模型通常具有最高优先级。在这种基于模型的统计框架中,世界受概率规则支配。通过足够的努力,这些规则可以由生成统计模型指定,我们假设测量等效于从该生成模型中采样。生成模型将具有均值之类的属性,大数定律告诉我们,如果我们从模型中采样足够多的时间,我们就可以准确地估计均值和其他属性。
对抽样建模和对总体建模之间的这种区别可能看起来很容易分裂。在某种意义上,这两种观点只是在概念上有所不同,因为用于估计人群平均身高的算法是相同的。但是,我们对这两种观点的解释是不同的:在算法的观点中,无论普通人口如何产生,都可以使用统计数据来理解物理世界。正如我们的身高示例所强调的那样,使用统计方法只需要最小的建模假设。在建模视图中,我们强迫自己使用概率分布对所有过程进行建模。这不仅没有必要,而且验证概率模型也非常困难。
此外,统计的算法视图阐明了我们控制的随机性方面。例如,计算机科学的整个分支都致力于确定性地生成对于所有意图和目的而言看起来都是随机的数字。随机数生成是我们可以控制的。我们可以专注于了解我们的测量结果如何不理想,而不是关注自然世界如何不服从我们的模型。这使统计从业者能够调整他们的程序,使其更强大,以应对可以测量的限制。
我想再次强调,我在这里提出的算法观点一点也不新颖。思考随机排列的组合以及如何将它们用于设计随机实验已有近一百年的历史,例如,在1930 年代Jerzy Neyman和古怪的优生学家Ronald Fisher的作品中很流行。费舍尔关于可以判断是否在喝茶之前将牛奶添加到杯子中的女人的漫无边际的论述描述了一种随机化程序,该程序没有模拟茶杯中茶的外观、茶杯的成分,也没有模拟茶专家的心理能力。它纯粹计算排列并使用精确的统计数据来提供一种评估索赔有效性的方法。我将更详细地回顾如何有效地使用这些下一篇文章中用于实验的无模型想法。
算法视图显然存在问题。当感兴趣数量的可变性较低时,统计抽样方法效果最好。在这种情况下,小型实验会迅速揭示有关人口的见解。当方差很大或实际上无界时,高精度估计所需的样本数量可能不切实际,我们的估计器和算法需要重新考虑。有许多现象遵循“幂律”标度,在这个基本的实验框架中,这些量更难处理。我们所描述的统一抽样算法将具有无限方差,因此样本的平均值将不再是总体平均值的准确度量。必须使用更复杂的方法来估计具有如此高变化的数量的方法。
统计抽样的另一个缺点是要求对样本进行均匀抽样。均匀抽样是一种理想化的方式,在实践中通常难以实施。例如,在投票中收集登记选民的独立同分布抽样意味着什么?一些选民可能不会回复您的电话。更成问题的是,当您无法提前定义人口时,“可能”选民的模糊概念就是这种情况。更复杂的统计分析可以为非均匀抽样策略提供保证,但必须注意确保我们计算的统计范围反映数据收集实施的现实。了解我们的抽样能力对于了解我们估计的有效性至关重要。
考虑到这些注意事项,我们的统计算法框架为我们提供了一种专注于思考实验设计和预测方法的方法。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.