网易首页 > 网易号 > 正文 申请入驻

正则化方法小结

0
分享至

大数据文摘转载自数据派THU

来源:机器学习方法那些事、极市平台

导读

本文先对正则化的相关概念进行解释作为基础,后对正则化的方法进行了总结,帮助大家更加清晰的了解正则化方法。

阅读目录

  • LP范数

  • L1范数

  • L2范数

  • L1范数和L2范数的区别

  • Dropout

  • Batch Normalization

  • 归一化、标准化 & 正则化

  • Reference

在总结正则化(Regularization)之前,我们先谈一谈正则化是什么,为什么要正则化。

个人认为正则化这个字眼有点太过抽象和宽泛,其实正则化的本质很简单,就是对某一问题加以先验的限制或约束以达到某种特定目的的一种手段或操作。在算法中使用正则化的目的是防止模型出现过拟合。一提到正则化,很多同学可能马上会想到常用的L1范数和L2范数,在汇总之前,我们先看下LP范数是什么鬼。

LP范数

范数简单可以理解为用来表征向量空间中的距离,而距离的定义很抽象,只要满足非负、自反、三角不等式就可以称之为距离。

LP范数不是一个范数,而是一组范数,其定义如下:

p的范围是 。p在(0,1)范围内定义的并不是范数,因为违反了三角不等式。

根据p的变化,范数也有着不同的变化,借用一个经典的有关P范数的变化图如下:

上图表示了p从0到正无穷变化时,单位球(unit ball)的变化情况。在P范数下定义的单位球都是凸集,但是当0

那问题来了,L0范数是啥玩意?

L0范数表示向量中非零元素的个数,用公式表示如下:

我们可以通过最小化L0范数,来寻找最少最优的稀疏特征项。但不幸的是,L0范数的最优化问题是一个NP hard问题(L0范数同样是非凸的)。因此,在实际应用中我们经常对L0进行凸松弛,理论上有证明,L1范数是L0范数的最优凸近似,因此通常使用L1范数来代替直接优化L0范数。

L1范数

根据LP范数的定义我们可以很轻松的得到L1范数的数学形式:

通过上式可以看到,L1范数就是向量各元素的绝对值之和,也被称为是"稀疏规则算子"(Lasso regularization)。那么问题来了,为什么我们希望稀疏化?稀疏化有很多好处,最直接的两个:

  • 特征选择;

  • 可解释性。

L2范数

L2范数是最熟悉的,它就是欧几里得距离,公式如下:

L2范数有很多名称,有人把它的回归叫“岭回归”(Ridge Regression),也有人叫它“权值衰减”(Weight Decay)。以L2范数作为正则项可以得到稠密解,即每个特征对应的参数w都很小,接近于0但是不为0;此外,L2范数作为正则化项,可以防止模型为了迎合训练集而过于复杂造成过拟合的情况,从而提高模型的泛化能力。

L1范数和L2范数的区别

引入PRML一个经典的图来说明下L1和L2范数的区别,如下图所示:

如上图所示,蓝色的圆圈表示问题可能的解范围,橘色的表示正则项可能的解范围。而整个目标函数(原问题+正则项)有解当且仅当两个解范围相切。从上图可以很容易地看出,由于L2范数解范围是圆,所以相切的点有很大可能不在坐标轴上,而由于L1范数是菱形(顶点是凸出来的),其相切的点更可能在坐标轴上,而坐标轴上的点有一个特点,其只有一个坐标分量不为零,其他坐标分量为零,即是稀疏的。所以有如下结论,L1范数可以导致稀疏解,L2范数导致稠密解。

从贝叶斯先验的角度看,当训练一个模型时,仅依靠当前的训练数据集是不够的,为了实现更好的泛化能力,往往需要加入先验项,而加入正则项相当于加入了一种先验。

  • L1范数相当于加入了一个Laplacean先验;

  • L2范数相当于加入了一个Gaussian先验。

如下图所示:

Dropout

Dropout是深度学习中经常采用的一种正则化方法。它的做法可以简单的理解为在DNNs训练的过程中以概率p丢弃部分神经元,即使得被丢弃的神经元输出为0。Dropout可以实例化的表示为下图:

我们可以从两个方面去直观地理解Dropout的正则化效果:

  • 在Dropout每一轮训练过程中随机丢失神经元的操作相当于多个DNNs进行取平均,因此用于预测具有vote的效果。

  • 减少神经元之间复杂的共适应性。当隐藏层神经元被随机删除之后,使得全连接网络具有了一定的稀疏化,从而有效地减轻了不同特征的协同效应。也就是说,有些特征可能会依赖于固定关系的隐含节点的共同作用,而通过Dropout的话,就有效地组织了某些特征在其他特征存在下才有效果的情况,增加了神经网络的鲁棒性。

Batch Normalization

批规范化(Batch Normalization)严格意义上讲属于归一化手段,主要用于加速网络的收敛,但也具有一定程度的正则化效果。

这里借鉴下魏秀参博士的知乎回答中对covariate shift的解释。

注以下内容引自魏秀参博士的知乎回答:

大家都知道在统计机器学习中的一个经典假设是“源空间(source domain)和目标空间(target domain)的数据分布(distribution)是一致的”。如果不一致,那么就出现了新的机器学习问题,如transfer learning/domain adaptation等。而covariate shift就是分布不一致假设之下的一个分支问题,它是指源空间和目标空间的条件概率是一致的,但是其边缘概率不同。

大家细想便会发现,的确,对于神经网络的各层输出,由于它们经过了层内操作作用,其分布显然与各层对应的输入信号分布不同,而且差异会随着网络深度增大而增大,可是它们所能“指示”的样本标记(label)仍然是不变的,这便符合了covariate shift的定义。

BN的基本思想其实相当直观,因为神经网络在做非线性变换前的激活输入值(X = WU + B,U是输入),随着网络深度加深,其分布逐渐发生偏移或者变动(即上述的covariate shift)。之所以训练收敛慢,一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近(对于Sigmoid函数来说,意味着激活输入值(X = WU + B)是大的负值和正值。所以这导致后向传播时低层神经网络的梯度消失,这是训练深层神经网络收敛越来越慢的本质原因。而 BN 就是通过一定的规范化手段,把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布,避免因为激活函数导致的梯度弥散问题。所以与其说BN的作用是缓解covariate shift,倒不如说BN可缓解梯度弥散问题。

归一化、标准化 & 正则化

正则化我们以及提到过了,这里简单提一下归一化和标准化。

归一化(Normalization):归一化的目标是找到某种映射关系,将原数据映射到[a,b]区间上。一般a,b会取[-1,1],[0,1]这些组合 。

一般有两种应用场景:

  • 把数变为(0, 1)之间的小数;

  • 把有量纲的数转化为无量纲的数。

常用min-max normalization:

标准化(Standardization):用大数定理将数据转化为一个标准正态分布,标准化公式为:

归一化和标准化的区别:

我们可以这样简单地解释:归一化的缩放是“拍扁”统一到区间(仅由极值决定),而标准化的缩放是更加“弹性”和“动态”的,和整体样本的分布有很大的关系。

值得注意:

归一化:缩放仅仅跟最大、最小值的差别有关。

标准化:缩放和每个点都有关系,通过方差(variance)体现出来。与归一化对比,标准化中所有数据点都有贡献(通过均值和标准差造成影响)。

为什么要标准化和归一化?

  • 提升模型精度:归一化后,不同维度之间的特征在数值上有一定比较性,可以大大提高分类器的准确性。

  • 加速模型收敛:标准化后,最优解的寻优过程明显会变得平缓,更容易正确的收敛到最优解。如下图所示:

Reference

1. Andrew Ng深度学习教程

2. Must Know Tips/Tricks in Deep Neural Networks (by Xiu-Shen Wei)

https://www.cnblogs.com/maybe2030/p/9231231.html

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
案例:山西一女大学生被外公电死,生前被折磨2小时,魔鬼在人间

案例:山西一女大学生被外公电死,生前被折磨2小时,魔鬼在人间

清茶浅谈
2025-01-04 22:33:54
张颂文被黑过后罕见露面,面容憔悴不堪,圈内人爆料他得罪了大佬

张颂文被黑过后罕见露面,面容憔悴不堪,圈内人爆料他得罪了大佬

洲洲影视娱评
2025-01-04 20:22:51
抱头痛哭!十年前,我接盘的物件,如今再也找不到下一家接盘侠了

抱头痛哭!十年前,我接盘的物件,如今再也找不到下一家接盘侠了

笑熬浆糊111
2025-01-02 00:06:43
台湾紧张起来了!中美在黄岩岛的对峙,产生了外溢效应!

台湾紧张起来了!中美在黄岩岛的对峙,产生了外溢效应!

星辰故事屋
2025-01-03 17:27:28
东莞往事:撞见工厂大嫂浴洗,羞得我无地自容

东莞往事:撞见工厂大嫂浴洗,羞得我无地自容

三惊胖爷
2025-01-05 14:59:15
CBA排名太疯狂,随着山西115:110逆转新疆,CBA最新排名如下:

CBA排名太疯狂,随着山西115:110逆转新疆,CBA最新排名如下:

小彭美识
2025-01-05 22:02:13
围猎开始,阿盟强国埃及同意参战,胡塞武装命运进入倒计时

围猎开始,阿盟强国埃及同意参战,胡塞武装命运进入倒计时

史政先锋
2025-01-03 11:40:46
给周涛讲解的“鸡窝头”女孩叫马紫璇,私下打扮洋气,是个小美女

给周涛讲解的“鸡窝头”女孩叫马紫璇,私下打扮洋气,是个小美女

疯说时尚
2025-01-05 10:09:13
离岸人民币逼近7.37,历史新低来临之时,央行又释放信号了

离岸人民币逼近7.37,历史新低来临之时,央行又释放信号了

萌生财经
2025-01-05 12:05:14
“流感神药”价格暴涨!当前99%以上为甲流,“速福达”一盒涨至300元,A股已上演涨停潮

“流感神药”价格暴涨!当前99%以上为甲流,“速福达”一盒涨至300元,A股已上演涨停潮

金融界
2025-01-06 00:20:06
萧敬腾林有慧约会被偶遇,一个穿短裤一个穿羽绒服,像妈妈带儿子

萧敬腾林有慧约会被偶遇,一个穿短裤一个穿羽绒服,像妈妈带儿子

小咪侃娱圈
2025-01-03 14:38:28
许宏球已任重庆两江新区管委会主任,一年多前由浙江跨省赴渝

许宏球已任重庆两江新区管委会主任,一年多前由浙江跨省赴渝

澎湃新闻
2025-01-05 11:56:27
华裔科学家离开法国工厂,回国效力!五角大楼:这简直是当头一棒

华裔科学家离开法国工厂,回国效力!五角大楼:这简直是当头一棒

小企鹅侃世界
2025-01-05 13:21:18
太阳四连败,杜兰特交易启动,1换5加盟西部第二,冲击总冠军

太阳四连败,杜兰特交易启动,1换5加盟西部第二,冲击总冠军

保持热爱0263
2025-01-06 01:04:44
央视曝光“夺命毒衣服”,致癌物竟超标20多倍!4种衣服谨慎购买

央视曝光“夺命毒衣服”,致癌物竟超标20多倍!4种衣服谨慎购买

39健康网
2025-01-04 18:02:53
076刚下水,中方接到大单,非洲土豪一下订6艘护卫舰,还想自己造

076刚下水,中方接到大单,非洲土豪一下订6艘护卫舰,还想自己造

兵说
2025-01-05 19:43:01
花4.08亿美金!联盟第一沦为鱼腩,火箭2换4赚麻了,哈登立下大功

花4.08亿美金!联盟第一沦为鱼腩,火箭2换4赚麻了,哈登立下大功

巴叔GO聊体育
2025-01-05 13:30:16
这是一张二十多年前的照片,一位女大学生的留影旧照,这才是美女

这是一张二十多年前的照片,一位女大学生的留影旧照,这才是美女

人情皆文史
2024-12-03 23:48:18
女大学生高速上被顺风车赶下车,警方的通报来了:司机被罚款行拘

女大学生高速上被顺风车赶下车,警方的通报来了:司机被罚款行拘

Mr王的饭后茶
2025-01-05 23:23:46
2025年春节将至,社会上出现了“四大现象”,和往年很不一样

2025年春节将至,社会上出现了“四大现象”,和往年很不一样

布衣粗食68
2025-01-05 14:18:27
2025-01-06 08:16:49
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6513文章数 94360关注度
往期回顾 全部

科技要闻

去年十余省份出台AI政策 教育医疗应用提得多

头条要闻

95后博士生杜梅因病去世 生前写3000字遗书让人泪目

头条要闻

95后博士生杜梅因病去世 生前写3000字遗书让人泪目

体育要闻

波杰姆斯基:你们都算老几?

娱乐要闻

更多知情者下场!已婚网友称张颂文诱骗骚扰?

财经要闻

央行两次提"择机降准降息"意味着什么

汽车要闻

10万元级无图智驾 悦也PLUS全路况实测

态度原创

教育
手机
房产
家居
军事航空

教育要闻

做好学校文化建设,关键在这三方面

手机要闻

从苹果A7到A18 Pro芯片:晶体管数量激增19倍,成本飙升2.6倍

房产要闻

中交 × 鱼珠 | 高定江景梦幻联动,打造都市精英的 “临江乌托邦”

家居要闻

素色现代 开启简洁生活

军事要闻

以军袭击加沙地带已致至少66人死亡

无障碍浏览 进入关怀版