网易首页 > 网易号 > 正文 申请入驻

算法总结视角看统计学

0
分享至

Statistics as algorithmic summarization
算法总结视角看统计学
Ben Recht • 2021 年 9 月 28 日

尽管是一门多面且复杂的学科,但统计学的最大贡献是一个严谨的总结框架。统计数据为我们提供了合理的程序,通过仅检查人口中的少数个体来估计一般人口的属性。在这方面,统计是算法的:它提供了用于外推的随机算法。在这篇博客中,我将回顾一些基本的统计数据(尽可能少地使用数学形式),并尝试具体说明为什么这种算法观点具有启发性。在以后的博客中,我将在此算法视角的基础上将其应用于实验设计和预测中更有趣的示例。

举个简单的例子,我们知道地球上的每个人都有一个身高,定义为直立时从脚底到头顶的距离。假设我们想知道所有活人身高的平均值。这需要我们追踪每个活着的人,拿出卷尺,测量从他们脚底到头顶的距离。为了避免这种详尽的计数,我们可以设计一种有效的算法来估计这个数量。如果我们随机选择一个子集,并使用这个子集来估计均值呢?也就是说,我们可以从总体中随机收集个体样本,并测量样本中所有个体的平均身高。

在这个随机样本上测量的平均高度是一个随机量。因此,它必须有一个均值和方差,就像我们与其他随机量相关联一样。如果我们要从所有活人中随机均匀地抽取每个人的样本,那么样本的预期平均身高将恰好是一般人群的平均身高。此外,样本平均身高的方差将与样本个体数量成正比缩小。您测量的个体越多,样本的平均身高就越接近总体的平均值。

统计数据提供了强大的公式,让我们可以精确量化样本平均值与总体平均值的接近程度。例如,我们知道一个人的身高是一个正数,并且没有人身高超过 9 英尺。有了这两个事实,一个名为Hoeffding 不等式的公式的简单应用告诉我们,如果我们对三万人的身高进行抽样,我们的样本平均值将与真实平均身高相差一英寸,概率至少为 83%。无论个人人口有多大,这个断言都是正确的。所需的样本量仅由身高的可变性决定,而不是由总个体数决定。

您可以将本示例中的“身高”替换为您能够很好测量的几乎任何属性。对于具有合理可变性的数量,来自一般人群的统一样本将给出平均值的高质量估计。统计学提供了一个强大的框架,通过检查小子集的属性来推理人口级别的属性。

在这个例子中,统计数据提供了一种估计算法。我们从一个我们想要估计其平均值的数量开始。我们指定了这个数量在研究人群中的变化幅度。使用统计公式,我们计算了我们需要检查的个体数量,以便估计适当的质量。然后,我们可以继续尽最大努力从总体中抽取这种规模的个体的随机样本,测量这些个体,并报告样本的平均值。这是估计一般人群平均值的完整程序。

这种统计摘要的算法描述可能看起来没有争议,但它不同于统计通常被教授或概念化的方式。正如我在之前的 博客中所讨论的,统计模型通常具有最高优先级。在这种基于模型的统计框架中,世界受概率规则支配。通过足够的努力,这些规则可以由生成统计模型指定,我们假设测量等效于从该生成模型中采样。生成模型将具有均值之类的属性,大数定律告诉我们,如果我们从模型中采样足够多的时间,我们就可以准确地估计均值和其他属性。

对抽样建模和对总体建模之间的这种区别可能看起来很容易分裂。在某种意义上,这两种观点只是在概念上有所不同,因为用于估计人群平均身高的算法是相同的。但是,我们对这两种观点的解释是不同的:在算法的观点中,无论普通人口如何产生,都可以使用统计数据来理解物理世界。正如我们的身高示例所强调的那样,使用统计方法只需要最小的建模假设。在建模视图中,我们强迫自己使用概率分布对所有过程进行建模。这不仅没有必要,而且验证概率模型也非常困难。

此外,统计的算法视图阐明了我们控制的随机性方面。例如,计算机科学的整个分支都致力于确定性地生成对于所有意图和目的而言看起来都是随机的数字。随机数生成是我们可以控制的。我们可以专注于了解我们的测量结果如何不理想,而不是关注自然世界如何不服从我们的模型。这使统计从业者能够调整他们的程序,使其更强大,以应对可以测量的限制。

我想再次强调,我在这里提出的算法观点一点也不新颖。思考随机排列的组合以及如何将它们用于设计随机实验已有近一百年的历史,例如,在1930 年代Jerzy Neyman和古怪的优生学家Ronald Fisher的作品中很流行。费舍尔关于可以判断是否在喝茶之前将牛奶添加到杯子中的女人的漫无边际的论述描述了一种随机化程序,该程序没有模拟茶杯中茶的外观、茶杯的成分,也没有模拟茶专家的心理能力。它纯粹计算排列并使用精确的统计数据来提供一种评估索赔有效性的方法。我将更详细地回顾如何有效地使用这些下一篇文章中用于实验的无模型想法。

算法视图显然存在问题。当感兴趣数量的可变性较低时,统计抽样方法效果最好。在这种情况下,小型实验会迅速揭示有关人口的见解。当方差很大或实际上无界时,高精度估计所需的样本数量可能不切实际,我们的估计器和算法需要重新考虑。有许多现象遵循“幂律”标度,在这个基本的实验框架中,这些量更难处理。我们所描述的统一抽样算法将具有无限方差,因此样本的平均值将不再是总体平均值的准确度量。必须使用更复杂的方法来估计具有如此高变化的数量的方法。

统计抽样的另一个缺点是要求对样本进行均匀抽样。均匀抽样是一种理想化的方式,在实践中通常难以实施。例如,在投票中收集登记选民的独立同分布抽样意味着什么?一些选民可能不会回复您的电话。更成问题的是,当您无法提前定义人口时,“可能”选民的模糊概念就是这种情况。更复杂的统计分析可以为非均匀抽样策略提供保证,但必须注意确保我们计算的统计范围反映数据收集实施的现实。了解我们的抽样能力对于了解我们估计的有效性至关重要。

考虑到这些注意事项,我们的统计算法框架为我们提供了一种专注于思考实验设计和预测方法的方法。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

在多任务神经网络中决定哪些任务应该一起训练

返回网易首页 下载网易新闻客户端
相关推荐
热点推荐
士兵突击演员重聚,20年后差距一目了然,爆火5人只有王宝强来了

士兵突击演员重聚,20年后差距一目了然,爆火5人只有王宝强来了

大歪歪
2025-04-22 16:19:09
俄罗斯军事专家:“有了特朗普总统,美国霸权要早崩10年”

俄罗斯军事专家:“有了特朗普总统,美国霸权要早崩10年”

农夫史记
2025-04-22 21:48:25
俄专家谈中国非核“氢弹”:中国或已成功试爆一种新型热压弹

俄专家谈中国非核“氢弹”:中国或已成功试爆一种新型热压弹

俄罗斯卫星通讯社
2025-04-22 15:12:44
王安宇知三当三!?

王安宇知三当三!?

八卦疯叔
2025-04-22 11:03:23
80后的现状真是一言难尽啊!看完网友分享,真的有被触动到了

80后的现状真是一言难尽啊!看完网友分享,真的有被触动到了

解读热点事件
2025-02-15 00:05:09
诺维茨基宣布退出球队运营!哈里森和独行侠,这是你们应得的

诺维茨基宣布退出球队运营!哈里森和独行侠,这是你们应得的

Haviven聊球
2025-04-22 23:35:28
男生18cm有啥坏处?妹子现场演示长短对比太生动,看完动图秒懂哈哈

男生18cm有啥坏处?妹子现场演示长短对比太生动,看完动图秒懂哈哈

经典段子
2025-04-14 23:34:48
44岁黄宗泽近照曝光!眉毛稀疏、朝天鼻,一股老人味,痞帅感全无

44岁黄宗泽近照曝光!眉毛稀疏、朝天鼻,一股老人味,痞帅感全无

柠檬有娱乐
2025-04-21 09:01:56
马筱梅陪继女买泡泡玛特,小玥儿面容清秀,侧颜像极了母亲大S

马筱梅陪继女买泡泡玛特,小玥儿面容清秀,侧颜像极了母亲大S

娱珈歪歪鱼
2025-04-22 17:58:23
吴千语一句话撕碎林峰夫妇的“体面”,黄渤说的话,终于有人信了

吴千语一句话撕碎林峰夫妇的“体面”,黄渤说的话,终于有人信了

大娱聚合
2025-04-22 11:07:46
第一批特斯拉车主已开始换电池!天价费用曝光!

第一批特斯拉车主已开始换电池!天价费用曝光!

生活魔术专家
2025-04-21 13:26:17
卡皮巴拉占领阿根廷富人城!与世无争吃草卖萌,但生太多,要被做绝育了...

卡皮巴拉占领阿根廷富人城!与世无争吃草卖萌,但生太多,要被做绝育了...

英国那些事儿
2025-04-22 23:19:30
被央视批的6部大烂剧,侮辱观众智商,几乎全部下架

被央视批的6部大烂剧,侮辱观众智商,几乎全部下架

瑶瑶侃电影
2025-03-30 14:24:39
沈梦辰现在长这样了?一下子竟然没认出来,脸部变得有点饱满

沈梦辰现在长这样了?一下子竟然没认出来,脸部变得有点饱满

陈意小可爱
2025-04-21 13:44:48
特朗普的“草台班子”又出事了

特朗普的“草台班子”又出事了

山河路口
2025-04-21 20:12:07
网红郭有才,泡沫散去之后,曾经飘的有多高,如今摔得就有多惨

网红郭有才,泡沫散去之后,曾经飘的有多高,如今摔得就有多惨

小邵说剧
2025-03-17 19:23:07
离了大谱!官宣:火箭3.8%概率获状元签,全美第一人空降休斯顿

离了大谱!官宣:火箭3.8%概率获状元签,全美第一人空降休斯顿

埃文凯尔
2025-04-22 10:36:53
身体被撕裂成两段,智取座山雕的阿庆嫂英勇就义,血染昆承湖

身体被撕裂成两段,智取座山雕的阿庆嫂英勇就义,血染昆承湖

老范谈史
2025-04-21 18:29:49
汪小菲大手笔养玥儿,穿搭越来越像富家女,玥儿看起来比之前自信

汪小菲大手笔养玥儿,穿搭越来越像富家女,玥儿看起来比之前自信

沧海一书客
2025-04-22 22:07:03
中央批准开除其党籍后,结交政治骗子的“内鬼”被逮捕

中央批准开除其党籍后,结交政治骗子的“内鬼”被逮捕

上观新闻
2025-04-22 10:47:08
2025-04-23 07:35:00
穗虔居士
穗虔居士
往者不可谏,来者犹可追
16文章数 20关注度
往期回顾 全部

科技要闻

美团骑手亲述:京东外卖单子佣金高却难抢

头条要闻

消息人士称普京提议在前线停火 俄方回应

体育要闻

当今足坛最疯的门将,能有多离谱?

娱乐要闻

大s儿女回京!张兰气场全开汪小菲谈养老

财经要闻

宜宾银行与五粮液集团频繁关联交易

汽车要闻

捷途山海T2加长版/山海L9等 捷途新车展前亮相

态度原创

旅游
手机
本地
房产
公开课

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

手机要闻

realme UI 6.0 支持朋友圈 Live 实况照片

本地新闻

云游湖北 | 澴川醉古今!孝文化名城藏了多少宝藏?

房产要闻

60+楼盘狂拼特价,海口最新房价曝光!

公开课

李玫瑾:为什么性格比能力更重要?