网易首页 > 网易号 > 正文 申请入驻

为什么自举法(Bootstrapping )是有效的并且十分流行

0
分享至

我们的项目并不总是有充足的数据。通常,我们只有一个样本数据集可供使用,由于缺乏资源我们无法执行重复实验(例如A/B测试)。

幸运的是,我们有重采样的方法来充分利用我们所拥有的数据。自举法(Bootstrapping)是一种重采样技术,可以为我们解决这个问题。虽然我们可能对自举法背后的“为什么”和“如何”很熟悉,但这篇文章旨在以一种为外行介绍的方式展示自举法的“为什么”。

自举法的目标是基于从原始样本中获得的多个数据样本,为总体参数(例如总体均值 θ)创建一个估计值(例如样本均值 x̄)。

自举法 是通过重复采样(替换)样本数据集来创建许多模拟样本来完成的。 每个模拟的样本被用来计算参数的估计,然后这些估计被组合起来形成一个抽样分布。

然后,自举抽样分布允许我们得出统计推论,如估计参数的标准误差。

你一定想知道,重复采样同一个样本数据集的行为怎么能让我们对总体统计数据做出推论呢?

理想情况下,我们希望从真实的总体中提取多个独立的真实样本以理解总体统计数据。然而我们已经确定,这可能并不总是可行的。因此我们必须使用样本数据集,这是我们拥有的关于总体的最好(也是唯一)信息。

自举法合理的假设是,大多数样本(如果是随机抽取的)将看起来与它们的总体非常相似。这意味着我们的样本数据可以被视为一个总体,我们现在假装它代表真实的总体(一定要记住这一点)。

有了这个假设群体,我们可以从中抽取多个(自举)随机样本。这就好像我们从真实总体中获得了多个样本。

注:实际上,原始样本只是真实总体中的一个样本。

由于允许进行置换抽样,所以自举的样本也可以看作是在不同方法和假设下产生的随机样本。

从这些自举样本中汇总的抽样信息最终将帮助我们获得(相对)准确的总体参数估计值,例如总体均值。

那么自举抽样的效果如何呢? 上图比较了来自真实总体的 1,000 个模拟样本与 1,000 个引导样本的参数 (α) 估计值。

我们可以看到箱线图具有相似的散布,表明自举法可以有效地估计与参数估计相关的可变性。

在本文中,我们探索了自举发理论的简单解释。希望这篇文章能让您更好地了解自举,以及为什么它在理论上和实践中都有效。

关键概念是假设原始样本代表总体。通过多次重采样这个样本,我们得到了总体参数的样本估计的一个相对准确的抽样分布。

当然,这有几个注意事项。例如,在从真实总体中抽样的正常情况下,我们永远不会抽取与整个总体相同大小的样本。但是,在自举中使用与原始数据集相同的样本大小是很常见的。

作者:Kenneth Leung

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美伊草案内容全曝光!哪些让内塔尼亚胡气得“头发着火”

美伊草案内容全曝光!哪些让内塔尼亚胡气得“头发着火”

红星新闻
2026-05-29 15:05:30
再创历史新高!证监会副主席刘浩凌:去年A股公司分红总额2.55万亿

再创历史新高!证监会副主席刘浩凌:去年A股公司分红总额2.55万亿

每日经济新闻
2026-05-30 00:21:19
可怕:猪肉抗生素超标38倍,鸡蛋药物超标69倍!

可怕:猪肉抗生素超标38倍,鸡蛋药物超标69倍!

仕道
2026-05-29 11:58:11
奇耻大辱!女子因醋意大发,将用过的卫生巾塞闺蜜嘴里,被索20万

奇耻大辱!女子因醋意大发,将用过的卫生巾塞闺蜜嘴里,被索20万

火山詩话
2026-05-29 17:38:23
网红边牧被偷杀后续,偷狗者是惯犯,央媒重磅发声,全村人受牵连

网红边牧被偷杀后续,偷狗者是惯犯,央媒重磅发声,全村人受牵连

小鋭有话说
2026-05-29 13:33:34
正式官宣!国务院放大招:城里有房家庭都乐开花,不仅宜居还增值

正式官宣!国务院放大招:城里有房家庭都乐开花,不仅宜居还增值

阿离家居
2026-05-29 16:56:30
神舟二十二号安全返航,着陆瞬间浓烟滚滚,美国飞船为什么不会

神舟二十二号安全返航,着陆瞬间浓烟滚滚,美国飞船为什么不会

粤语音乐喷泉
2026-05-30 01:45:29
长期跑步的人,会失去“肉欲”?网友:经常跑的人,那方面都不行

长期跑步的人,会失去“肉欲”?网友:经常跑的人,那方面都不行

马拉松跑步健身
2026-05-29 21:25:54
枪支失火打断老农脊椎致残,22年申诉无果,儿子举刀砍向4名法官

枪支失火打断老农脊椎致残,22年申诉无果,儿子举刀砍向4名法官

易玄
2026-05-29 09:47:13
华为粉激动坏了!扬言韬定律已威胁到光刻机,反遭网友集体阴阳!

华为粉激动坏了!扬言韬定律已威胁到光刻机,反遭网友集体阴阳!

谭谈社会
2026-05-29 07:16:43
37岁车手翻车身亡!家人炮轰组委会:黄金时间救援推诿 还我公道

37岁车手翻车身亡!家人炮轰组委会:黄金时间救援推诿 还我公道

念洲
2026-05-29 21:00:37
绍伊古承认俄罗斯在前线无法推进,理由是俄罗斯与56个国家作战

绍伊古承认俄罗斯在前线无法推进,理由是俄罗斯与56个国家作战

山河路口
2026-05-29 21:50:31
梦碎第25冠!德约燃尽!鏖战4小时53分出局,19岁小将刷新6大纪录

梦碎第25冠!德约燃尽!鏖战4小时53分出局,19岁小将刷新6大纪录

大秦壁虎白话体育
2026-05-30 03:02:45
别急着赢!华为韬(τ)定律威胁不了台积电,"逻辑折叠"并非首创

别急着赢!华为韬(τ)定律威胁不了台积电,"逻辑折叠"并非首创

可达鸭面面观
2026-05-29 16:35:20
穆罕默德·奥达,“上任即被斩首”

穆罕默德·奥达,“上任即被斩首”

中国新闻周刊
2026-05-29 16:57:49
黄仁勋看不上华为韬定律,结果闹了个笑话,被业内专家说不专业

黄仁勋看不上华为韬定律,结果闹了个笑话,被业内专家说不专业

粤语音乐喷泉
2026-05-30 02:17:44
“女教师撑伞”都成问题了,才是大问题!

“女教师撑伞”都成问题了,才是大问题!

行者殷涛
2026-05-29 15:10:30
印度人“挤爆”中国!高温“抱团逃跑”,莫迪急了?

印度人“挤爆”中国!高温“抱团逃跑”,莫迪急了?

李云飞Afey
2026-05-29 11:34:37
13死最新消息!肇事车主事发前一天疯发拉客信息,长期在杭州五常

13死最新消息!肇事车主事发前一天疯发拉客信息,长期在杭州五常

火山詩话
2026-05-29 17:16:33
李施德林漱口水口腔大屠杀:留0.1%活口传恐怖消息

李施德林漱口水口腔大屠杀:留0.1%活口传恐怖消息

娱圈观察员
2026-05-29 01:21:49
2026-05-30 06:39:00
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
2003文章数 1462关注度
往期回顾 全部

科技要闻

Claude Opus 4.8凌晨突发上线

头条要闻

释永信被判24年 中国佛教协会:完全是咎由自取

头条要闻

释永信被判24年 中国佛教协会:完全是咎由自取

体育要闻

即使是文班亚马,也做不到这件事

娱乐要闻

奚梦瑶何猷君将于6月在法国举行婚礼

财经要闻

近3个月跌超20% 黄金"猴市"下的众生相

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

手机
亲子
旅游
房产
公开课

手机要闻

自研OS+玄戒+AI大模型,小米18系列,稳了!

亲子要闻

为什么说太空不能有性行为?一旦怀孕,究竟对人类意味着什么?

旅游要闻

美媒:科技发展创造赴华新体验

房产要闻

顺德澐璟「澐冠」再出圈:顶阶人群不是买房,是追加“传世资产”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版