网易首页 > 网易号 > 正文 申请入驻

算法总结视角看统计学

0
分享至

Statistics as algorithmic summarization
算法总结视角看统计学
Ben Recht • 2021 年 9 月 28 日

尽管是一门多面且复杂的学科,但统计学的最大贡献是一个严谨的总结框架。统计数据为我们提供了合理的程序,通过仅检查人口中的少数个体来估计一般人口的属性。在这方面,统计是算法的:它提供了用于外推的随机算法。在这篇博客中,我将回顾一些基本的统计数据(尽可能少地使用数学形式),并尝试具体说明为什么这种算法观点具有启发性。在以后的博客中,我将在此算法视角的基础上将其应用于实验设计和预测中更有趣的示例。

举个简单的例子,我们知道地球上的每个人都有一个身高,定义为直立时从脚底到头顶的距离。假设我们想知道所有活人身高的平均值。这需要我们追踪每个活着的人,拿出卷尺,测量从他们脚底到头顶的距离。为了避免这种详尽的计数,我们可以设计一种有效的算法来估计这个数量。如果我们随机选择一个子集,并使用这个子集来估计均值呢?也就是说,我们可以从总体中随机收集个体样本,并测量样本中所有个体的平均身高。

在这个随机样本上测量的平均高度是一个随机量。因此,它必须有一个均值和方差,就像我们与其他随机量相关联一样。如果我们要从所有活人中随机均匀地抽取每个人的样本,那么样本的预期平均身高将恰好是一般人群的平均身高。此外,样本平均身高的方差将与样本个体数量成正比缩小。您测量的个体越多,样本的平均身高就越接近总体的平均值。

统计数据提供了强大的公式,让我们可以精确量化样本平均值与总体平均值的接近程度。例如,我们知道一个人的身高是一个正数,并且没有人身高超过 9 英尺。有了这两个事实,一个名为Hoeffding 不等式的公式的简单应用告诉我们,如果我们对三万人的身高进行抽样,我们的样本平均值将与真实平均身高相差一英寸,概率至少为 83%。无论个人人口有多大,这个断言都是正确的。所需的样本量仅由身高的可变性决定,而不是由总个体数决定。

您可以将本示例中的“身高”替换为您能够很好测量的几乎任何属性。对于具有合理可变性的数量,来自一般人群的统一样本将给出平均值的高质量估计。统计学提供了一个强大的框架,通过检查小子集的属性来推理人口级别的属性。

在这个例子中,统计数据提供了一种估计算法。我们从一个我们想要估计其平均值的数量开始。我们指定了这个数量在研究人群中的变化幅度。使用统计公式,我们计算了我们需要检查的个体数量,以便估计适当的质量。然后,我们可以继续尽最大努力从总体中抽取这种规模的个体的随机样本,测量这些个体,并报告样本的平均值。这是估计一般人群平均值的完整程序。

这种统计摘要的算法描述可能看起来没有争议,但它不同于统计通常被教授或概念化的方式。正如我在之前的 博客中所讨论的,统计模型通常具有最高优先级。在这种基于模型的统计框架中,世界受概率规则支配。通过足够的努力,这些规则可以由生成统计模型指定,我们假设测量等效于从该生成模型中采样。生成模型将具有均值之类的属性,大数定律告诉我们,如果我们从模型中采样足够多的时间,我们就可以准确地估计均值和其他属性。

对抽样建模和对总体建模之间的这种区别可能看起来很容易分裂。在某种意义上,这两种观点只是在概念上有所不同,因为用于估计人群平均身高的算法是相同的。但是,我们对这两种观点的解释是不同的:在算法的观点中,无论普通人口如何产生,都可以使用统计数据来理解物理世界。正如我们的身高示例所强调的那样,使用统计方法只需要最小的建模假设。在建模视图中,我们强迫自己使用概率分布对所有过程进行建模。这不仅没有必要,而且验证概率模型也非常困难。

此外,统计的算法视图阐明了我们控制的随机性方面。例如,计算机科学的整个分支都致力于确定性地生成对于所有意图和目的而言看起来都是随机的数字。随机数生成是我们可以控制的。我们可以专注于了解我们的测量结果如何不理想,而不是关注自然世界如何不服从我们的模型。这使统计从业者能够调整他们的程序,使其更强大,以应对可以测量的限制。

我想再次强调,我在这里提出的算法观点一点也不新颖。思考随机排列的组合以及如何将它们用于设计随机实验已有近一百年的历史,例如,在1930 年代Jerzy Neyman和古怪的优生学家Ronald Fisher的作品中很流行。费舍尔关于可以判断是否在喝茶之前将牛奶添加到杯子中的女人的漫无边际的论述描述了一种随机化程序,该程序没有模拟茶杯中茶的外观、茶杯的成分,也没有模拟茶专家的心理能力。它纯粹计算排列并使用精确的统计数据来提供一种评估索赔有效性的方法。我将更详细地回顾如何有效地使用这些下一篇文章中用于实验的无模型想法。

算法视图显然存在问题。当感兴趣数量的可变性较低时,统计抽样方法效果最好。在这种情况下,小型实验会迅速揭示有关人口的见解。当方差很大或实际上无界时,高精度估计所需的样本数量可能不切实际,我们的估计器和算法需要重新考虑。有许多现象遵循“幂律”标度,在这个基本的实验框架中,这些量更难处理。我们所描述的统一抽样算法将具有无限方差,因此样本的平均值将不再是总体平均值的准确度量。必须使用更复杂的方法来估计具有如此高变化的数量的方法。

统计抽样的另一个缺点是要求对样本进行均匀抽样。均匀抽样是一种理想化的方式,在实践中通常难以实施。例如,在投票中收集登记选民的独立同分布抽样意味着什么?一些选民可能不会回复您的电话。更成问题的是,当您无法提前定义人口时,“可能”选民的模糊概念就是这种情况。更复杂的统计分析可以为非均匀抽样策略提供保证,但必须注意确保我们计算的统计范围反映数据收集实施的现实。了解我们的抽样能力对于了解我们估计的有效性至关重要。

考虑到这些注意事项,我们的统计算法框架为我们提供了一种专注于思考实验设计和预测方法的方法。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
湖北最惨的大学,从211降为普通二本,在校生欲哭无泪

湖北最惨的大学,从211降为普通二本,在校生欲哭无泪

教育导向分享
2024-11-28 22:26:06
阿斯:阿尔瓦雷斯现在已经渐入佳境,15脚射门就取得了9个进球

阿斯:阿尔瓦雷斯现在已经渐入佳境,15脚射门就取得了9个进球

直播吧
2024-11-29 14:38:10
小学生“黑板报”火出圈,老师舍不得擦黑板,大学生看后自愧不如

小学生“黑板报”火出圈,老师舍不得擦黑板,大学生看后自愧不如

妍妍教育日记
2024-11-24 19:24:55
抖音去年广告收入4000亿元?抖音集团副总裁李亮回应

抖音去年广告收入4000亿元?抖音集团副总裁李亮回应

财联社
2024-11-29 13:54:04
内地企业在香港拒招35岁以上员工,引全港痛批

内地企业在香港拒招35岁以上员工,引全港痛批

黑噪音
2024-11-27 19:17:30
反对弹劾莎拉,菲总统称双方问题为“茶杯里的风波”

反对弹劾莎拉,菲总统称双方问题为“茶杯里的风波”

参考消息
2024-11-29 16:35:20
去了浙江才发现,电线早已不埋墙里了!瞧人家这么设计,真是先进

去了浙江才发现,电线早已不埋墙里了!瞧人家这么设计,真是先进

风谈笔录
2024-11-14 07:30:27
一个退休老人的退休金竟然抵得上两三个年轻人的工资,这正常吗?

一个退休老人的退休金竟然抵得上两三个年轻人的工资,这正常吗?

逍遥论经
2024-11-10 08:19:54
欧阳娜娜穿透视装亮相,内衣隐显大胆又热辣,头发染红好叛逆

欧阳娜娜穿透视装亮相,内衣隐显大胆又热辣,头发染红好叛逆

南城无双
2024-11-30 00:12:06
津媒:国足氛围变好,曾被修理的韦世豪也在队内公开支持伊万

津媒:国足氛围变好,曾被修理的韦世豪也在队内公开支持伊万

懂球帝
2024-11-29 11:38:19
揭秘女性性生活欲望强烈的四大原因

揭秘女性性生活欲望强烈的四大原因

智见派
2024-07-06 16:33:34
难搞,贝弗利被伊朗富婆未婚妻下最后通牒,或即将离开以色列打球

难搞,贝弗利被伊朗富婆未婚妻下最后通牒,或即将离开以色列打球

好火子
2024-11-28 15:26:22
服了,她俩非穿紧身裤跑八百……要劝吗?

服了,她俩非穿紧身裤跑八百……要劝吗?

新浪财经
2024-10-27 21:14:05
津媒:世界排名止跌对中国足球是不错消息 18强赛竞争难度依然大

津媒:世界排名止跌对中国足球是不错消息 18强赛竞争难度依然大

直播吧
2024-11-30 09:07:05
陈瑶,快停手吧!整牙整到人中变长灵气不再,网友直言面相都变了

陈瑶,快停手吧!整牙整到人中变长灵气不再,网友直言面相都变了

小娱乐悠悠
2024-11-27 14:50:11
范尼:我首先联系的人是马雷斯卡,他很喜欢在莱斯特城的时光

范尼:我首先联系的人是马雷斯卡,他很喜欢在莱斯特城的时光

懂球帝
2024-11-30 06:07:42
进口卫生巾卖断货,国内粗制滥造以次充好的卫生巾企业终尝恶果!

进口卫生巾卖断货,国内粗制滥造以次充好的卫生巾企业终尝恶果!

逍遥论经
2024-11-28 10:01:02
一夜暴富!深圳彩民买80元彩票中了2.25亿巨奖,评论区炸锅了

一夜暴富!深圳彩民买80元彩票中了2.25亿巨奖,评论区炸锅了

蓝色海边
2024-11-30 03:23:03
特斯拉机器人“里程碑”:22个自由度灵巧手来了 三大装置带来产业链增量

特斯拉机器人“里程碑”:22个自由度灵巧手来了 三大装置带来产业链增量

财联社
2024-11-29 09:34:20
被宋祖英的老年状态惊艳到:不医美、不扮嫩,58岁美得自然又优雅

被宋祖英的老年状态惊艳到:不医美、不扮嫩,58岁美得自然又优雅

时髦范
2024-11-28 22:49:23
2024-11-30 09:36:49
穗虔居士
穗虔居士
往者不可谏,来者犹可追
16文章数 20关注度
往期回顾 全部

科技要闻

"AGI不是大杀器,是普通人每天在用的产品"

头条要闻

牛弹琴:普京郑重向默克尔道歉 其做法让人佩服

头条要闻

牛弹琴:普京郑重向默克尔道歉 其做法让人佩服

体育要闻

穆雷与德约科维奇能凑成王炸组合吗?

娱乐要闻

叶珂被曝独自去产检,他俩真分了吗

财经要闻

专家建议将农民养老金提升至每月500元

汽车要闻

问界M7今年累计交付量已突破18万辆

态度原创

教育
时尚
本地
游戏
军事航空

教育要闻

你家抽宝,上岸了吗?

直播|| 今年冬天只想背这个包!

本地新闻

云游中国|来伦布夏果感受充满Passion的人生

异象回声:安妮塔就这么默默地加强了?无奈被b站XX后的操作!

军事要闻

针对朝鲜半岛 韩美核咨商小组兵棋推演将举行

无障碍浏览 进入关怀版