网易首页 > 网易号 > 正文 申请入驻

临床预测模型的评价,常用这些指标!

0
分享至

内容来自:“小白学统计”微信公众号,感谢作者授权。

医疗预测模型的评估通常涉及三个关键方面:区分度、校准度和临床实用性。区分度是衡量模型区分有事件和无事件个体的能力,而校准则评估预测风险与观察风险之间的一致性。理想的模型应同时展现出高水平的区分能力和校准度,以改善临床决策。

虽然评估模型的区分度和校准度是至关重要的,但当前的相关文献报道似乎并不乐观。一项由Wessler等人进行的研究显示,在796个预测模型中,仅有63%报告了区分能力的测量,而仅有36%包含校准评估指标。类似地,Carrick等人审查了62个验证模型,发现虽然98%报告了区分能力,但只有41.9%提供了校准信息。这突显了医疗预测模型综合评估中的显著差距。

区分度指标

灵敏度和特异度是评估区分能力的常用指标;然而,在处理类分布不均衡数据集时(如阳性比例仅占10%),它们往往不够充分。即便灵敏度和特异度较高,模型的实际效用也并不能得到保证。例如,如下表所示(阳性率为5%,典型的非均衡数据),灵敏度和特异度分别为80%和96%。然而,阳性预测值(PPV)仅为50%,这表明在采用模型预测的100个阳性个体中,实际只有50个是真正阳性。

此外,灵敏度和特异度可能会因决策阈值的不同而有所变化。例如,在 ,PCOS阳性率为10.45%,如果将决策阈值设定为50%时,灵敏度和特异度分别为0.34和0.98。然而,当阈值调整为10%时,灵敏度和特异度分别变化为0.76和0.84。在事件发生率较低的情况下,阈值为0.5通常导致灵敏度较低,但这并不一定意味着性能差。从这个角度看,综合考虑了所有阈值性能的ROC曲线下面积(AUC)在实际应用中更受青睐。

尽管AUC(也称为c统计量)被广泛使用,但它也存在一些局限性,特别是在非均衡数据集中。例如,我们曾对一份数据建模,在这份数据中,共42个阳性事件和312个非阳性事件,我们发现如果将所有对象预测为非阳性事件,会产生0.885的AUC,这错误地暗示其表现良好。这强调了仅依靠AUC可能导致误导性结论的潜在风险

因此,虽然一个预测模型可能表现出高灵敏度、特异度和AUC,但这些指标单独使用并不能保证模型的良好表现。有一些综合指标可以考虑:例如,F1分数结合了灵敏度和阳性预测值,部分弥补了灵敏度的局限性。

然而,由于F1分数仅侧重阳性事件,它仍可能引入偏差。 例如,如下表所示,较高的灵敏度(0.92)和阳性预测值(0.99)产生了高达0.95的F1分数,而特异度仍然极低,仅为0.11。 在这种情况下,Matthews Correlation Coefficient(MCC)提供了更全面和更平衡的模型性能评估。

因此,在评估不平衡数据的区分能力时,我们不建议仅依赖单一指标。相反,我们建议结合灵敏度、特异度、AUC、F1分数和MCC从多个角度评估模型性能。

校准指标

单靠区分能力不足以评估模型的预测性能。即使模型表现出高区分能力,如果预测值与实际值之间存在显著差异,其实际效用也会受到限制。从这个角度来看,校准评估变得不可或缺

校准通常使用校准图进行可视化,该图将预测概率分为若干个箱(通常为10个,但也可以是其它),并评估每个箱中预测概率与实际阳性事件比例之间的一致性。如下图所示,是将预测概率分了5个箱子,纵坐标是每个分类中的实际阳性率。下图可以看出二者一致性还不错

虽然Hosmer-Lemeshow检验可以作为校准图的拟合优度检验,但因其统计功效受样本量影响太大,且解释性差,因此并不建议使用。如果想使用的话,为了解决样本过大或过小带来的问题,已有文章提出了Hosmer-Lemeshow检验的改进版本。此外,也可以使用综合校准指数(ICI),该指标通过计算观察到的概率与预测概率之间的加权平均差异来量化二分结果的校准。

综合性能测量

一些性能测量指标结合了区分能力和校准成分,如解释变异(R²)和Brier score。R²是连续结果中最常用的测量指标,而R² Nagelkerke通常用于二分类模型。Brier score表示实际结果与估计概率之间的均方误差,分数越低表示模型性能越好。然而,需要注意的是,较低的Brier score并不一定意味着更高的校准,因为它同时反映了区分能力和校准能力。

决策曲线分析

虽然区分能力和校准对评估预测模型的性能至关重要,但它们并未为临床医生提供临床实用性方面的决策。为了解决这一限制,决策曲线分析(DCA)作为一种方法被开发出来,能够总结模型在支持临床决策中的表现

决策曲线绘制了预测模型的各种概率阈值(表示模型认为是阳性结局并需要干预的预测风险水平)所对应的净收益(NB)。通过比较不同模型的NB,DCA帮助临床医生识别哪个建议能够产生最高的NB,从而促进更好的临床决策。

如下图,横坐标是不同概率阈值,纵坐标是模型的净收益。红色曲线代表预测模型的净收益,绿色虚线代表对所有人进行干预的获益,蓝色虚线代表对所有人都不干预的获益(其实就是没有获益)。图中的紫色括号部分是我标出来的,说明在这一段的概率阈值之内,应用模型是有临床价值的,因为这段内模型的净收益比“对所有人都干预”更高,也比“对所有人都不干预”更高。

DCA的关键在于理解净收益,它类似于利润。从财务角度看,净利润是通过从收入中减去支出,然后乘以汇率得出的。在医学背景下,净收益计算为真正阳性数量减去假阳性数量,并通过一个因子(pt/(1-pt))加权,其中pt代表阈值概率。这个权重平衡了真正阳性的益处与假阳性的危害。通俗点说,净收益可以理解为:如果模型预测对了,提前干预获得收益(也许是生命延长,也许是生存质量提高等);但是如果模型预测错误,干预带来负面效应(如取了个活检,白疼了一下)。这两个差值就是净收益。

阈值pt的确定依赖于临床考量。例如,在预测前列腺癌时,预测概率超过10%也许就会促使你进行活检,因为发现侵袭性癌症的好处超过了不必要活检所带来的风险。然而,在病理骨折风险方面,除非风险超过25%,否则可能不会考虑手术。所以,这个pt取决于你对疾病严重程度的认识,提前干预所预期的获益,以及能接受干预所带来的负面效应的承受能力。

尽管DCA是一个有价值的决策工具,但它主要适用于早期干预对结果有显著影响的情况,例如早期癌症检测和治疗,这对癌症患者的生存很重要,一旦模型提示存在患病风险,患者可能会立刻采取措施。然而,某些干预措施并非完全由临床医生驱动。例如,我们前期开发的OvaRePred模型,主要用于评估并预测卵巢储备状态。如果该模型识别出卵巢储备减少并预测早期进入围绝经期,临床医生的作用仅限于提醒就诊者,让她决定何时考虑怀孕,但不能直接替她做干预。而且即使某一女性已知自己卵巢储备减少,考虑到各种因素,也不一定立刻就会采取措施。在这种情况下,DCA并不是必须的。

点击左下角“阅读原文”,学习医咖会专栏课程《理论+实操,带你轻松告别临床预测模型的小白》。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
以色列与伊朗冲突进入决定性阶段

以色列与伊朗冲突进入决定性阶段

陆弃
2026-03-16 08:30:03
意外,霍尔木兹海峡突然封锁,炸出中国三十年惊天布局

意外,霍尔木兹海峡突然封锁,炸出中国三十年惊天布局

经济学教授V
2026-03-16 18:57:44
为什么石油是用“桶”而不是“吨”来计算?一桶油到底有多重?

为什么石油是用“桶”而不是“吨”来计算?一桶油到底有多重?

长风文史
2026-03-15 15:49:09
特朗普:美国可能很快与古巴达成协议或采取其他行动

特朗普:美国可能很快与古巴达成协议或采取其他行动

新京报
2026-03-16 08:55:07
央视记者老K卧底成了公司二把手,收入暴涨,3·15总导演怕他“叛变”1天1电话

央视记者老K卧底成了公司二把手,收入暴涨,3·15总导演怕他“叛变”1天1电话

第一财经资讯
2026-03-16 17:47:17
意外!拜合拉木首发代表成都蓉城踢中超,因表现平平遭到球迷质疑

意外!拜合拉木首发代表成都蓉城踢中超,因表现平平遭到球迷质疑

懂个球
2026-03-17 00:01:59
美联储,突发变数!

美联储,突发变数!

魏家东
2026-03-16 12:39:24
把淘汰的电脑送给了亲戚,结果她到处跟人数落我,我直接拿了回来

把淘汰的电脑送给了亲戚,结果她到处跟人数落我,我直接拿了回来

老田电脑
2026-03-16 09:18:17
攻守易势!伊朗开启断电拆家模式,以色列真的会沦为大号加沙吗

攻守易势!伊朗开启断电拆家模式,以色列真的会沦为大号加沙吗

战争史
2026-03-15 10:05:58
越方披露对越作战真相:我军若迟撤五日,谅山兵力将被全歼

越方披露对越作战真相:我军若迟撤五日,谅山兵力将被全歼

唠叨说历史
2026-03-13 11:43:20
KTV女员工饮酒后在包房死亡,家属起诉6名共饮人未履行合理照顾义务索赔35万!判了

KTV女员工饮酒后在包房死亡,家属起诉6名共饮人未履行合理照顾义务索赔35万!判了

红星新闻
2026-03-16 17:10:35
老板娘说她有点大,问我喜欢嘛?我该怎么回答?

老板娘说她有点大,问我喜欢嘛?我该怎么回答?

太急张三疯
2026-03-17 09:26:28
石正丽课题组公开招聘

石正丽课题组公开招聘

生物学霸
2026-03-15 17:15:28
美国牵头“护航联盟”?白宫在喊、军方在拖、盟友在躲

美国牵头“护航联盟”?白宫在喊、军方在拖、盟友在躲

上观新闻
2026-03-16 21:30:14
伊朗称逮捕500名间谍

伊朗称逮捕500名间谍

界面新闻
2026-03-16 18:44:57
詹姆斯晒伤口喊疼!调侃今年救球到此结束 祝贺东契奇当选周最佳

詹姆斯晒伤口喊疼!调侃今年救球到此结束 祝贺东契奇当选周最佳

罗说NBA
2026-03-17 06:09:30
网络炸锅!用公司wifi上网,后果很严重,切记!!!

网络炸锅!用公司wifi上网,后果很严重,切记!!!

慧翔百科
2026-03-16 08:57:48
伊朗最高领袖任命军事顾问

伊朗最高领袖任命军事顾问

界面新闻
2026-03-16 22:41:52
哈萨克斯坦新宪法通过全民公投,总统托卡耶夫:历史性选择

哈萨克斯坦新宪法通过全民公投,总统托卡耶夫:历史性选择

澎湃新闻
2026-03-16 17:42:26
头重脚轻!安切洛蒂公布巴西新一期名单,内马尔安东尼双双落选!

头重脚轻!安切洛蒂公布巴西新一期名单,内马尔安东尼双双落选!

田先生篮球
2026-03-17 04:40:11
2026-03-17 10:55:00
医咖会
医咖会
生动有趣的形式传递医学新进展
2789文章数 10985关注度
往期回顾 全部

健康要闻

转头就晕的耳石症,能开车上班吗?

头条要闻

外媒:美国已输掉了对伊朗的战争 一个动作令中国获益

头条要闻

外媒:美国已输掉了对伊朗的战争 一个动作令中国获益

体育要闻

那个男人34岁拒绝买断 他要给状元当导师

娱乐要闻

姚晨曹郁发离婚声明 凌潇肃评论区沦陷

财经要闻

我们都是被“训练”出来的大模型

科技要闻

冲击万亿美元订单!黄仁勋定下宏大目标

汽车要闻

大众全球首款9系旗舰SUV 上汽大众ID.ERA 9X首秀

态度原创

艺术
房产
游戏
时尚
公开课

艺术要闻

捐赠文物3900余件,六莹堂主何许人也?

房产要闻

劲爆!三亚大量房源上新,最低13100元/㎡!

《生化危机》新电影导演两度通关《安魂曲》称8代最恐怖

除了阔腿裤,这条裤子今年最流行!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版