网易首页 > 网易号 > 正文 申请入驻

机器学习模型中特征贡献度分析:预测贡献与错误贡献

0
分享至

在机器学习领域,特征重要性分析是一种广泛应用的模型解释工具。但是特征重要性并不等同于特征质量。本文将探讨特征重要性与特征有效性之间的关系,并引入两个关键概念:预测贡献度和错误贡献度。

核心概念

  1. 预测贡献度:衡量特征在模型预测中的权重,反映模型在训练集上识别的模式。这与传统的特征重要性概念相似。
  2. 错误贡献度:衡量特征在模型在验证集上产生错误时的权重。这更能反映特征在新数据上的泛化能力。

本文将详细阐述这两个概念的计算方法,并通过实例展示基于错误贡献度的特征选择如何优于传统的基于预测贡献度的方法。

基础概念示例

考虑一个二元分类问题:预测个人年收入是否超过10万美元。假设我们已有模型预测结果:



预测贡献度和错误贡献度的计算主要基于两个要素:

  • 模型对每个样本的预测误差
  • 每个样本的SHAP(SHapley Additive exPlanations)值

接下来,我们将深入探讨这两个关键问题:

  1. 分类模型中应采用何种误差度量?
  2. 如何处理分类模型中的SHAP值?

分类模型中的错误度量选择

在分类模型中,选择合适的误差度量至关重要。我们需要一个能在样本级别计算并可在整个数据集上聚合的度量指标。

对数损失(又称交叉熵)是分类问题中常用的损失函数,其数学表达式如下:



对数损失适合我们的需求,因为:

  1. 公式外部是简单的平均操作
  2. 作为损失函数,其值越低越好,符合误差的概念

为了更直观地理解对数损失,我们可以关注单个样本的贡献:

在二元分类问题中,y只能取0或1,因此可以简化为:



通过可视化可以更好地理解对数损失的特性:



预测概率越偏离真实值(0或1),损失越大。且当预测严重偏离时(如预测0.2而实际为1,或预测0.8而实际为0),损失增长速度超过线性。

以下是计算单样本对数损失的Python实现:

def individual_log_loss(y_true, y_pred, eps=1e-15):
"""计算单个样本的对数损失"""
y_pred = np.clip(y_pred, eps, 1 - eps)
return -y_true * np.log(y_pred) - (1 - y_true) * np.log(1 - y_pred)

应用到我们的示例数据集:



可以观察到,样本1和2的对数损失较小,因为预测接近实际值;而样本0的对数损失较大。

分类模型中SHAP值的处理方法

在树模型(如XGBoost、LightGBM和CatBoost)中,计算SHAP值相对简单:

from shap import TreeExplainer
shap_explainer = TreeExplainer(model)
shap_values = shap_explainer.shap_values(X)

假设我们得到以下SHAP值:



SHAP值的基本解释:

  • 正值表示该特征增加了预测概率
  • 负值表示该特征降低了预测概率

SHAP值之和与模型预测直接相关,但并不等于预测概率(介于0和1之间)。所以我们需要一个函数将SHAP值之和转换为概率,该函数应满足:

  1. 将任意实数映射到[0,1]区间
  2. 严格单调递增

Sigmoid函数满足这些要求。因此模型对特定样本的预测概率等于该样本SHAP值之和的Sigmoid函数值。



Sigmoid函数图像:



Python实现:

def shap_sum2proba(shap_sum):
"""将SHAP值之和转换为预测概率"""
return 1 / (1 + np.exp(-shap_sum))

下图示例中的样本在Sigmoid曲线上的位置:



接下来,我们将详细讨论预测贡献度和错误贡献度的计算方法。

预测贡献度的计算

预测贡献度反映了特征对模型最终预测的影响程度。当一个特征的SHAP值绝对值较大时,表明该特征对预测结果有显著影响。因此可以通过计算特征SHAP值的绝对值平均来量化预测贡献度。

实现代码如下:

prediction_contribution = shap_values.abs().mean()

应用到我们的示例数据集,得到以下结果:



从结果可以看出,就特征重要性而言,job是最主要的特征,其次是nationality,然后是age。

错误贡献度的计算

错误贡献度旨在评估移除某个特征后模型错误的变化。利用SHAP值,我们可以模拟特征缺失的情况:从SHAP值总和中减去特定特征的SHAP值,然后应用Sigmoid函数,即可得到模型在缺少该特征时的预测概率。

实现代码如下:

y_pred_wo_feature = shap_values.apply(lambda feature: shap_values.sum(axis=1) - feature).applymap(shap_sum2proba)

应用到示例数据集的结果:



解读结果:

  • 如果没有job特征,模型对三个样本的预测概率分别为71%、62%和73%。
  • 如果没有nationality特征,预测概率分别为13%、95%和0%。

可以看出,预测结果对特征的依赖程度各不相同。接下来我们计算移除特征后的对数损失:

ind_log_loss_wo_feature = y_pred_wo_feature.apply(lambda feature: individual_log_loss(y_true=y_true, y_pred=feature))

结果如下:



对第一个样本而言,移除job特征会导致对数损失增加到1.24,而移除nationality特征只会使对数损失增加到0.13。

为了评估特征的影响,我们可以计算完整模型的对数损失与移除特征后对数损失的差值:

ind_log_loss = individual_log_loss(y_true=y_true, y_pred=y_pred)
ind_log_loss_diff = ind_log_loss_wo_feature.apply(lambda feature: ind_log_loss - feature)

结果如下:



结果解读如下:

  • 负值表示特征的存在减少了预测错误,对该样本有积极影响。
  • 正值表示特征的存在增加了预测错误,对该样本有消极影响。

最后计算每个特征的错误贡献度,即这些差值的平均值:

error_contribution = ind_log_loss_diff.mean()

结果如下:



结果解读:

  • 负值表示特征总体上有积极影响,减少了模型的平均错误。
  • 正值表示特征总体上有消极影响,增加了模型的平均错误。

在这个例子中,job特征的存在平均减少了0.897的对数损失,而nationality特征的存在平均增加了0.049的对数损失。尽管nationality是第二重要的特征(根据预测贡献度),但它实际上略微降低了模型性能。

实际数据集应用案例

我们将使用一个名为"Gold"的金融时间序列数据集来演示这些概念的实际应用。该数据集来源于Pycaret库。



特征说明:

  • 所有特征都表示为百分比回报率
  • 特征包括金融资产在观察时刻前22、14、7和1天的回报率(分别标记为"T-22"、"T-14"、"T-7"、"T-1")

完整的预测特征列表如下:



总共有120个特征。

预测目标:预测22天后黄金回报率是否会超过5%。因此,这是一个二元分类问题:

  • 0:22天后黄金回报率小于或等于5%
  • 1:22天后黄金回报率大于5%



实验步骤:

  1. 随机划分数据集:33%用于训练,33%用于验证,34%用于测试。
  2. 使用训练集训练LightGBM分类器。
  3. 在训练、验证和测试集上进行预测。
  4. 使用SHAP库计算各数据集的SHAP值。
  5. 计算每个特征在各数据集上的预测贡献度和错误贡献度。

分析结果:



图:验证集上的预测贡献度vs错误贡献度

主要发现:

  1. 美国债券ETF在T-22时点是最重要的特征,但它并未带来显著的错误减少。
  2. 3个月Libor在T-22时点是最有效的特征,因为它最大程度地减少了错误。
  3. 玉米价格在T-1和T-22时点都是重要特征,但T-1时点的特征存在过拟合现象(增加了预测错误)。
  4. 总体而言,T-1或T-14时点的特征错误贡献度较高,而T-22时点的特征错误贡献度较低。这表明较近期的特征可能更容易导致过拟合,而较早期的特征可能具有更好的泛化能力。

这些发现为我们提供了宝贵的模型洞察,并为特征选择提供了新的思路。下一节我们将探讨如何利用错误贡献度进行特征选择。

验证:基于错误贡献度的递归特征消除

递归特征消除(Recursive Feature Elimination,RFE)是一种迭代式特征选择方法,通过逐步移除特征来优化模型性能。本节将比较基于预测贡献度和错误贡献度的RFE方法。

RFE算法概述:

  1. 初始化特征集
  2. 使用当前特征集训练模型
  3. 评估各特征的重要性或贡献度
  4. 移除"最差"特征
  5. 重复步骤2-4,直到达到预定的特征数量或性能标准

传统RFE vs. 基于错误贡献度的RFE:

  • 传统RFE:移除预测贡献度最低的特征
  • 基于错误贡献度的RFE:移除错误贡献度最高的特征

实验结果

验证集上的对数损失比较:



基于错误贡献度的RFE在验证集上显著优于传统RFE。

测试集上的对数损失比较:



尽管差异相对减小,但基于错误贡献度的RFE在测试集上仍然优于传统RFE,证明了其更好的泛化能力。

验证集上的平均精度比较:



尽管错误贡献度是基于对数损失计算的,但在平均精度这一不同的评估指标上,基于错误贡献度的RFE仍然表现出色。

根据验证集性能,我们选择:

  • 基于错误贡献度的RFE:19个特征的模型
  • 基于预测贡献度的RFE:14个特征的模型

测试集上的平均精度比较:



最终结果:

  • 基于错误贡献度的RFE(19个特征):72.8%的平均精度
  • 基于预测贡献度的RFE(14个特征):65.6%的平均精度

基于错误贡献度的RFE在测试集上获得了7.2个百分点的性能提升,这是一个显著的改进。

总结

本研究深入探讨了机器学习模型中特征重要性的概念,并提出了区分特征重要性和特征有效性的新方法。

  1. 引入了预测贡献度和错误贡献度两个概念,为特征评估提供了新的视角。
  2. 详细阐述了基于SHAP值计算这两种贡献度的方法,为实践应用提供了可操作的指导。
  3. 通过金融数据集的案例分析,展示了错误贡献度在特征选择中的实际应用价值。
  4. 证明了基于错误贡献度的递归特征消除方法可以显著提高模型性能,在测试集上实现了7.2%的平均精度提升。

通过深入理解特征的预测贡献和错误贡献,数据科学家可以构建更加稳健和高效的机器学习模型,为决策制定提供更可靠的支持。

https://avoid.overfit.cn/post/f9b5b319871c489581a2f2af5b25a768

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我们为什么要支持吴柳芳?

我们为什么要支持吴柳芳?

葱哥说
2024-12-02 22:47:49
中国芯片技术刚宣布突破,不到24小时,美国便传来一坏消息

中国芯片技术刚宣布突破,不到24小时,美国便传来一坏消息

粤语音乐喷泉
2024-12-25 18:13:04
于和伟刘涛拍吻戏,刘涛吐槽他烟味重,于和伟一句话,爆笑全场。

于和伟刘涛拍吻戏,刘涛吐槽他烟味重,于和伟一句话,爆笑全场。

百态人间
2024-12-09 16:30:46
"保不住香港,我们以死谢罪!",解密惊心动魄的香港经济保卫战

"保不住香港,我们以死谢罪!",解密惊心动魄的香港经济保卫战

云舟史策
2024-12-24 07:45:03
涨粉80万,他带火“爆眼龙”,有店销售超百万!网友:大道至简

涨粉80万,他带火“爆眼龙”,有店销售超百万!网友:大道至简

鲁中晨报
2024-12-25 13:47:11
200万元1斤,广东这块“皮”又火了,快看看你家有没

200万元1斤,广东这块“皮”又火了,快看看你家有没

逍遥史记
2024-12-25 15:31:32
2025年1月5日起,广东这个特等火车站不再办理“普铁”业务

2025年1月5日起,广东这个特等火车站不再办理“普铁”业务

南粤橘城
2024-12-24 20:06:21
中央明确!2025年起实施退休新规,这几个关键时间节点,不能忽略

中央明确!2025年起实施退休新规,这几个关键时间节点,不能忽略

社保小达人
2024-12-25 11:10:03
再次调整!12月26日中央5套直播表:CCTV5最新节目单,不直播CBA

再次调整!12月26日中央5套直播表:CCTV5最新节目单,不直播CBA

赵仔说
2024-12-26 00:58:06
本周财喜两旺,三大星座贵人护佑,财气运势全面提升!

本周财喜两旺,三大星座贵人护佑,财气运势全面提升!

观星星座
2024-12-23 22:37:36
未交停车费罚二百元?全国人大:合法停车未交费不宜行政罚款

未交停车费罚二百元?全国人大:合法停车未交费不宜行政罚款

南方都市报
2024-12-25 15:36:05
乌军导弹击中俄军第810海军陆战旅指挥所,造成俄军多人伤亡

乌军导弹击中俄军第810海军陆战旅指挥所,造成俄军多人伤亡

山河路口
2024-12-25 23:03:04
阿娇体重两月似过山车,最新巡演形象大变样,粉丝直呼不敢认!

阿娇体重两月似过山车,最新巡演形象大变样,粉丝直呼不敢认!

小咪侃娱圈
2024-12-23 10:51:29
郑爽给儿子庆生,意外曝光白人新老公!

郑爽给儿子庆生,意外曝光白人新老公!

毒舌八卦
2024-12-24 22:22:33
槽头肉涉事企业阜阳市春天食品公司偷税被罚3552万元

槽头肉涉事企业阜阳市春天食品公司偷税被罚3552万元

界面新闻
2024-12-25 10:09:29
全身溃烂生不如死,丧失生育功能,武汉首批新冠患者如今结局如何

全身溃烂生不如死,丧失生育功能,武汉首批新冠患者如今结局如何

杨哥历史
2024-10-30 10:27:30
老外玩家就是较真,为证明自己没错,网上曝光欧洲战机机密

老外玩家就是较真,为证明自己没错,网上曝光欧洲战机机密

17173游戏网
2024-12-25 18:02:03
东坝通地铁了,他们的通勤路却是这样的……

东坝通地铁了,他们的通勤路却是这样的……

石辰搞笑日常
2024-12-24 14:19:51
刘诗诗方发公函回应离婚

刘诗诗方发公函回应离婚

观察鉴娱
2024-12-25 13:22:10
美国当选副总统万斯的资产配置,赢麻了!

美国当选副总统万斯的资产配置,赢麻了!

财通社
2024-12-25 18:24:32
2024-12-26 02:36:57
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1529文章数 1418关注度
往期回顾 全部

科技要闻

理想CEO:我为啥买了不能自动驾驶的法拉利

头条要闻

4s店销售私收客户购车款"跑路" 有人转账26万无法提车

头条要闻

4s店销售私收客户购车款"跑路" 有人转账26万无法提车

体育要闻

一度消失的欧洲之王,重新燃起了欧冠梦想

娱乐要闻

2025春晚彩排路透曝光!“春晚混子”再登台

财经要闻

住房城乡建设工作会议:推动地产止跌回稳

汽车要闻

全网都在吐槽萤火虫丑 为何李斌心态稳如老司机

态度原创

本地
时尚
房产
旅游
健康

本地新闻

好吃潮州|尝一口,这里的美食有点“潮”

中年女人的穿衣哲学:裙子过膝,鞋子带跟,轻轻松松能美到老

房产要闻

重磅榜单出炉!2025,海口楼市格局又将大变!

旅游要闻

景区回应李现虎跳峡同款线路20多公里

花18万治疗阿尔茨海默病,值不值?

无障碍浏览 进入关怀版