网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%

2024-12-23 13:09:27　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：KingHZ

【新智元导读】o1-preview在医疗诊断中远超人类，赛博看病指日可待？

「根据（关于）OpenAI的最新论文，o1-preview在推理任务上远远优于医生，甚至天壤之别。AI对143项困难的NEJM CPC诊断结果分别为约80%到30%。现在相信你的医生而不咨询人工智能模型是危险的。」

Deedy的言论引来百万围观。

事实究竟如何？

在解决复杂的信息学、数学和工程问题以及医疗问答方面，o1-preview模型显示出优于 GPT-4 的能力。

医疗决策远非问答，o1-preview在医学上是否已全面超越人类？

哈佛、斯坦福、微软等机构的多名医学、AI专家联手，在医学推理任务中评估了OpenAI的o1-preview。

结果显示，模型在鉴别诊断、诊断临床推理和管理推理方面，已经超越人类；建议使用更好和更有意义的评估策略，跟上自动化系统在医疗推理基准上的进步。

文章推测要使用大语言模型辅助医生，需要集成AI系统的临床试验和劳动力（再）训练。

论文链接：https://www.arxiv.org/abs/2412.10849

AI辅助诊断工具评估

在医学顶刊《JAMA》、《JAMA·内科》和《NPJ·数字医学》，有论文已指出大语言模型已在诊断基准测试中超越了人类，包括医科学生、住院医师和主治医师。

此次，针对鉴别诊断生成、推理报告、概率推理和管理推理任务，联合团队评估了o1-preview的临床多步推理能力。

与医生、已有的大语言模型相比, o1-preview在鉴别诊断以及诊断和管理推理的质量都有明显提高。

鉴别诊断

自20世纪50年代以来，评估鉴别诊断生成器的首要标准是《新英格兰医学杂志》（NEJM）发表的临床病理学会议（CPCs）病例。这是也是评估o1-preview的第一个基准。

两位医生同时评估o1-preview的鉴别诊断质量，且在143个案例中有120个结果一致。

o1-preview在鉴别诊断中准确率高达78.3%（见图1）。

图1：鉴别诊断（DDx）生成器和大语言模型在鉴别诊断的正确率条形图，按年份排序

图1中的o1-preview的数据是基于在《新英格兰医学杂志》（NEJM）发表的临床病理学会议（CPCs）病例。其他大语言模型或DDx生成器的数据是从文献中获得的。

o1-preview的建议的首次诊断的正确率为52%。

o1-preview在预训练截止日期前的准确率为79.8%，之后为73.5%，没有显著差异。

表1展示了o1-preview可以解决而ChatGPT4无法解决的复杂案例。

表1：o1-preview正确诊断出GPT-4无法解决的三个复杂病例

表1中Bond Score的范围是从0到5, 其中5分表示鉴别诊断列表中包含了正确的目标诊断，而0分表示鉴别诊断列表中没有接近目标的选项。

o1-preview在88.6%的病例中得出了准确或非常接近准确的诊断结果，而GPT-4只有72.9%（见图 2A）。

两名医生根据CPC中描述的患者实际治疗情况，对o1-preview提出的检查计划进行了评分，总计132例，其中113例两人的评分一致。

在87.5%的病例中，o1-preview选择了正确的检查项目，另有11%的病例中，两位医生认为所选的检查方案是有用的，只有1.5%的病例认为是没用的（图 3）。相关例子见表2。

图3：o1-preview在预测下一步应进行的诊断测试方面的性能

在实验中两名医生使用「无用（unhelpful）」、「有用（helpful）」和「完全正确（exactly right）」的李克特量表对预测结果进行了测量。

并从全部病例中剔除了7个病例，因为这些病例要求进行下一次检查是不合理的。

表2：o1-preview 建议的测试计划与案例中使用的测试计划对比示例（左右滑动查看）

表2中案例得分为2分，表明测试比较好，与案例计划几乎完全相同。1分表示所建议的诊断本来是有帮助的，或者可以通过病例中没有使用的测试得出诊断结果。0分表示所建议的诊断方法没有帮助。

NEJM Healer诊断案例

为评估临床推理， NEJM Healer案例专门设计了虚拟患者遭遇。

两位医生分别评估o1-preview的临床推理质量，在80个案例中，有79个案例达成了一致（约占99%）。

在80个案例中，o1-preview在78个案例中达到了完美的R-IDEA评分，其表现远超GPT-4、主治医师和住院医师，如图4A所示。

图4：图A表示在20个NEJM Healer案例中，根据回答者分层的312个R-IDEA评分分布。图B表示初诊报告（ initial triage presentation）中包含的不能遗漏诊断的比例的箱线图

图B中的总样本量为70，其中包括来自主治医师、GPT-4和o1-preview的18个回答，以及来自住院医师的16个回答。

o1-preview在初诊报告（ initial triage presentation）中识别“不能错过”的诊断的比例见图4B，包含「不能错过」的诊断的中位数比例为0.92，与GPT-4、主治医师或住院医师没有显著差异。

灰质管理案例

在真实案例基础上，25位医生专家利用共识方法开发了5个临床实例(clinical vignettes)。

测试中先将临床实例呈现给模型，然后向其提出关于下一步管理的一系列问题。

两位医生对o1-preview的五个案例的回应进行了评分，一致性相当大。

o1-preview每个案例的中位数评分为86%（图5A），优于GPT-4、使用GPT-4的医生和使用传统资源的医生。

图5：图A表示大语言模型和医生的管理推理得分的标准化箱线图。图B表示模型和医生诊断推理得分的标准化箱线图

图A共包括五个案例。 o1-preview为每个案例生成一个响应，GPT-4为每个案例生成五个响应，使用GPT-4的医生总有176个响应，使用传统资源的医生总有199个响应。

使用混合效应模型估计，o1-preview比单独的GPT-4高出41.6%，比使用GPT-4的医生高出42.5%，比使用传统资源的医生高出49.0%。

标志性诊断案例

两位内科医生对o1-preview在六个诊断推理案例中的回答进行了评分，评价结果较为一致。o1-preview的中位数评分为97% （图5B）。

与历史控制数据相比，比GPT-4的得分为92%，使用GPT-4的医师得分为76% ，而使用传统资源的医师为74%。

使用混合效应模型估计，o1-preview与GPT-4相比表现相当（高出4.4%），比使用GPT-4的医师高18.6%，比使用传统资源的医师高20.2%。

诊断概率推理案例

在诊断概率推理中，总使用了五个初级保健主题的案例。

以科学参考概率（scientific reference probabilities）为基准，比较了o1-preview，GPT-4和人类的概率推理能力。

其中人类由553名具有全国代表性的医疗从业者组成，包括290名住院医师、202名主治医师和61名护士或医生助理。

如图6和表3所示，在概率推理方面，无论在测试前还是在测试后o1-preview与GPT-4表现差不多。

只有冠状动脉疾病的压力测试中，o1-preview的预测密度比模型和人类更接近参考范围。

研究的局限性

此研究也有四处主要的局限性。首先，o1-preview有啰嗦的倾向，可能会在试验中取得更高得分。

其次，目前的研究只反映了模型性能，但现实中离不开人机交互。人机交互对开发临床决策辅助工具至关重要，下一步应该确定大语言模型（比如o1-preview）能否增强人机交互。

但人类与计算机之间的交互或许是不可预测的，甚至表现良好的模型与人类交互中可能出现退化。

第三，研究只考察了临床推理的五个方面；但已经发现了几十个其他任务，它们可能对实际的临床护理有更大影响。

第四，研究案例集中在内科，但并不代表更广泛的医疗实践，包括多个亚专业，这些专业需要各种技能，如外科决策。研究也没有考虑诊断、患者特征或就医地点的差异。

参考资料：

https://arxiv.org/pdf/2412.10849

https://x.com/deedydas/status/1869049071346102729

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

机器人缝伤口、打结，手真不会抖，Hopkins、斯坦福ALOHA作者打造

机器之心Pro 2024-07-18 15:52:31
0 跟贴 0
AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

量子位 2024-09-08 13:27:35
71 跟贴 71

8岁小孩哥上手用AI制作游戏，全程2小时，引来50多万人围观

机器之心Pro 2024-09-03 14:38:55
41 跟贴 41

LeCun八年前神预言，大模型路线再颠覆？OpenAI宣告：强化学习取得稳定性突破

新智元 2024-12-23 13:10:17
10 跟贴 10
自动识别、实时感知，让企业风险预警准确率达100%丨创新场景

钛媒体APP 2024-07-25 17:17:23
0 跟贴 0

晚期肺癌治疗6年肿瘤消失啦！我的4点抗癌成功经验你也能做到！

与癌共舞论坛 2024-12-20 17:39:30
7 跟贴 7

上海爷叔知青近郊，半路顶替做医生，工龄40多年退休金多少？

魔都溜达 2024-12-19 06:00:00
10 跟贴 10
男子患自动酿酒综合征，医生移植他女儿大便成功治愈

青岛广播 2024-12-20 21:13:50
29 跟贴 29

父母的小把戏，医生一句话就看破了

金鑫影视 2024-12-21 17:25:48
54 跟贴 54
王楚钦看病被医生曝光隐私

主持人钰峰 2024-12-22 10:47:36
0 跟贴 0
盘点各国被中文逼疯的老外，哈佛学生当场崩溃，直呼：太难学了！

尜尜姑姑 2024-12-21 11:28:40
0 跟贴 0
美女大姐腰疼，没想到医生一句话，看出了不专业！

咚咚搞笑说 2024-12-22 17:38:54
1 跟贴 1
确诊晚期，已全身转移！浙江女子懵了: 完全没感觉！医生痛心：错过太多次机会

FM93浙江交通之声 2024-12-21 16:16:00
905 跟贴 905
浙江一女子癌症晚期已全身转移，4年前发现肺结节心太大没当回事，医生痛心：错过太多次机会

城市大眼睛 2024-12-21 23:34:58
6 跟贴 6
如何判断心脏支架是否成功，中度狭窄到底要不要手术？医生讲清楚

重症医生张伟 2024-12-20 18:33:15
8 跟贴 8
医生提醒：这三类高血压非常危险，但多数人没有注意，还不当回事

郑博隆医生 2024-12-19 18:00:00
17 跟贴 17
医生提醒：增强CT有风险！该做再做，不该做别没事找事！

王星科普 2024-12-19 18:11:03
18 跟贴 18
宝宝在医生手里就像面团一样

嗨普陀 2024-12-19 09:40:43
0 跟贴 0
医生之间开玩笑的方式也太离谱了

单格聊影视 2024-12-19 08:50:54
0 跟贴 0
海草状物体缠断了宝宝小手，爸爸：能从脚上移不？能移我的不？

协和手足外科陈江海 2024-12-23 09:00:00
0 跟贴 0
AI读片诊断肺结节靠谱吗？资深胸外科医生吐露心声

TopMD 2024-12-19 07:00:00
0 跟贴 0
“吃饭八分饱”错了？医生提醒：65岁后老人吃饭要尽量做到这3点

青烟小先生 2024-12-19 06:30:02
18 跟贴 18
王楚钦在长沙看病被医生公开隐私，包括其心电图等身体检查事项，涉事医院：扣除该医护奖金后续会出通报

城市大眼睛 2024-12-20 23:04:13
0 跟贴 0
美女不怀孕去看医生，差点没把给医生气晕，俩人的对话太搞笑了

佩佩动物世界 2024-12-20 11:23:14
0 跟贴 0
湖南中医大教授潘敏求，公开叫板西医，专收医院不收的癌症患者

小彭谈历史 2024-12-23 00:13:54
51 跟贴 51
宝宝做斜颈治疗被“甩来甩去”，医生“玩”得不亦乐乎，宝宝全程不哭不闹

青岛资讯 2024-12-20 18:19:20
0 跟贴 0
妇产科医生分享剖宫产手术过程，看到最后泪目了

青观察 2024-12-22 11:15:56
0 跟贴 0
医生实拍手术过程，看到最后才知道这是什么，见证了生命的诞生

汤细目生活 2024-12-22 09:42:36
0 跟贴 0
12月22日俄乌最新：划时代的一战

西楼饮月 2024-12-22 19:21:47
12168 跟贴 12168
医生提醒：高血压患者在冬季，要警惕这3个隐患，别拿生命开玩笑

陈晓斌医生 2024-12-21 11:05:05
0 跟贴 0
山东妈妈晒1m9儿子去儿科，彪形大汉不满13岁，网友误认为医闹

熙熙说教 2024-12-19 17:34:31
153 跟贴 153
医院真有办法，仅用一招，就让开药的人少了

猫小狸同学 2024-12-21 16:20:03
78 跟贴 78
狗狗被主治医生喂饭，狗狗坚定不移，这梁子算是结下了

万物皆搞笑 2024-12-23 08:57:59
1 跟贴 1
老人关节疼，医生的治疗方式，隔着屏幕都感觉生理不适

趁家爱生活 2024-12-19 15:17:07
0 跟贴 0
儿童生肺炎一定要拍CT吗？会对儿童带来哪些危害，有没有替代

呼吸科大夫胡洋 2024-12-19 15:46:11
6 跟贴 6
萌娃看医生时被戳中笑点笑个不停，现场一度失控

BRTV新闻 2024-12-20 22:28:27
0 跟贴 0
医生叮嘱：高血压的朋友，晚上牢记2不做2不吃

李医生课堂 2024-12-20 18:00:00
0 跟贴 0
这几个方法可以缓解便秘

医路向前巍子 2024-12-22 18:17:03
5 跟贴 5
他是哈佛学霸，父亲是前外交部部长李肇星，岳父著名歌唱家阎维文

吐不满的痰娱 2024-12-21 20:20:02
0 跟贴 0
美女来看医生，心跳有些加速，美女你摸来摸去能不快吗？

女神搞笑站 2024-12-23 14:22:14
0 跟贴 0

54岁的苏慧伦咋还这么年轻貌美，怎么看都像35岁左右的人！

54岁的苏慧伦咋还这么年轻貌美，怎么看都像35岁左右的人！

人情皆文史

2024-11-22 21:04:28

裁员补偿到账了，14万2千多，顿时心里五味杂陈，没有一丝的喜悦

裁员补偿到账了，14万2千多，顿时心里五味杂陈，没有一丝的喜悦

人情皆文史

2024-11-17 00:04:59

女排世俱杯个人技术排名出炉：总得分、扣球、拦网、一传谁第一？

女排世俱杯个人技术排名出炉：总得分、扣球、拦网、一传谁第一？

知轩体育

2024-12-23 01:13:43

李世民与武则天洞房当夜，创下史上最高纪录，至今也无人能打破！

李世民与武则天洞房当夜，创下史上最高纪录，至今也无人能打破！

猫眼观史

2024-12-20 09:56:19

中美芯片战，打的就是时间差！中国EUV光刻机，需三至五年才成熟

中美芯片战，打的就是时间差！中国EUV光刻机，需三至五年才成熟

猫小狸同学

2024-12-23 13:40:02

可口可乐紧急公关：发布莎头海报，销量大跌，女老总伤了球迷心

可口可乐紧急公关：发布莎头海报，销量大跌，女老总伤了球迷心

沧海一书客

2024-12-22 21:27:40

公务员双休取消或将提上日程，山东率先试点！

公务员双休取消或将提上日程，山东率先试点！

黯泉

2024-12-22 23:51:04

外媒：中国近期购买125万吨美国大豆

外媒：中国近期购买125万吨美国大豆

参考消息

2024-12-22 11:51:11

遮羞布彻底遮不住了！刘德华赖文慧关系曝光：除了结婚证啥都给了

遮羞布彻底遮不住了！刘德华赖文慧关系曝光：除了结婚证啥都给了

橘子大娱社

2024-12-21 19:30:02

借房给闺蜜住3年，她却当嫁妆给婆家住还撵我滚，我：房本我的名

借房给闺蜜住3年，她却当嫁妆给婆家住还撵我滚，我：房本我的名

初遇你

2024-12-20 17:19:34

儿子坐副驾驶，汪小菲开跑车拉风开心比耶网友：老父亲笑中带泪

儿子坐副驾驶，汪小菲开跑车拉风开心比耶网友：老父亲笑中带泪

西瓜爱娱娱

2024-12-23 14:32:27

广东一公司裁员80%，因为要搬迁越南！又一批人要提早回家过年了

广东一公司裁员80%，因为要搬迁越南！又一批人要提早回家过年了

小人物看尽人间百态

2024-12-23 07:12:03

“丹凤眼”有多罕见？看一眼就再难忘，精致到骨子里的眼型

“丹凤眼”有多罕见？看一眼就再难忘，精致到骨子里的眼型

星光历史

2024-12-22 10:37:17

上午10点！CBA官宣广东双喜临门，35岁超巨表扬，杜锋收最佳拍档

上午10点！CBA官宣广东双喜临门，35岁超巨表扬，杜锋收最佳拍档

美人茶话会

2024-12-23 12:40:48

78年我提干后回家探亲，未及时告诉未婚妻，她第二天就提出退婚

78年我提干后回家探亲，未及时告诉未婚妻，她第二天就提出退婚

农村情感故事

2024-12-19 07:17:29

台军刚到货的M1A2T主战坦克还没有焐热，中国保利集团就贴脸开大

台军刚到货的M1A2T主战坦克还没有焐热，中国保利集团就贴脸开大

星辰故事屋

2024-12-22 22:29:05

MSCI中国A50互联互通指数期货涨幅扩大至1%，富时中国A50指数期货涨近1%

MSCI中国A50互联互通指数期货涨幅扩大至1%，富时中国A50指数期货涨近1%

澎湃新闻

2024-12-23 10:40:10

51岁父亲再婚，叫我去参加婚礼，当看到挺着孕肚的继母时我愣住了

51岁父亲再婚，叫我去参加婚礼，当看到挺着孕肚的继母时我愣住了

民间精选故事汇

2024-12-12 12:10:03

完了！老板赔死！上海一塔吊倒塌砸中运行地铁，事发瞬间画面曝光

完了！老板赔死！上海一塔吊倒塌砸中运行地铁，事发瞬间画面曝光

冬天来旅游

2024-12-23 13:28:40

明天正面交锋！恩比德上次面对文班曾41中24狂轰70分18板5助

明天正面交锋！恩比德上次面对文班曾41中24狂轰70分18板5助

直播吧

2024-12-23 05:34:09

AI产业主平台领航智能+时代

11906文章数 65738关注度

往期回顾全部

科技要闻

官宣！本田日产达成基本协议：考虑整合

头条要闻

今年第9名正部级"老虎"落马 7天内2名"老虎"被判死缓

头条要闻

今年第9名正部级"老虎"落马 7天内2名"老虎"被判死缓

体育要闻

年终进球盛宴！这法老冲着金球奖来的？

娱乐要闻

影版《射雕》最新预告！肖战版郭靖大获好评

财经要闻

起底黑色产业链:信息黑洞出卖个人隐私

汽车要闻

柴油才对味大通星际X 2.5T舒适得不像皮卡

态度原创

健康

教育

数码

艺术

军事航空

花18万治疗阿尔茨海默病，值不值？

教育要闻

考研人数暴跌50万，董宇辉一句话打脸：可怕的是你把学历当废纸

数码要闻

蓝色外观，英特尔酷睿 Ultra 系列 2 处理器锁频版包装盒曝光

艺术要闻

故宫珍藏的墨迹《十七帖》，比拓本更精良，这才是地道的魏晋写法

军事要闻

专家解读美军为何会击落己方战机

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版