网易首页 > 网易号 > 正文 申请入驻

微软潘海峰华盛顿大学王晟团队发布首个全切片数字病理学模型

0
分享至



编辑 | ScienceAI

近年来,数字病理学的蓬勃发展成为了精准医学加速突破的重要组成部分。在癌症护理过程中,利用全切片成像技术将肿瘤组织样本转换为高分辨率的数字图像,已经成为常规技术。高达十亿像素级别的病理学图片包含多样的肿瘤微环境信息,为癌症分型诊断,生存率分析以及精准免疫治疗提供了前所未有的契机。

近期,生成式人工智能革命为准确感知、分析病理学图片中的海量信息提供了强有力的解决方案。与此同时,多模态生成式人工智能技术的突破更将助力从时空多尺度理解数字病理学图片并与其他生物医学模态相融合,从而更好刻画患者疾病演变、发展过程,协助医生进行临床诊断和治疗。

然而,由于数字病理学图片的大规模、高像素、特征复杂等特点,从计算角度高效处理和理解其中的复杂模式十分具有挑战性。每张全切片数字化转型之后将包含数十亿像素,其面积达到自然图像的十几万倍,应用现有的计算机视觉模型难度较大。传统的视觉模型,如Vision Transformer,其计算复杂度随着输入图片的大小的增加快速上升。同时,临床医学数据具有跨尺度、多模态和高噪声等特点,而现有的病理学模型大多基于标准公开数据集,依然同现实世界的应用具有不小的距离。

为此,来自微软研究院、美国Providence的医疗网络和华盛顿大学的研究人员,共同提出了首个全切片尺度的数字病理学模型GigaPath。

GigaPath模型采取两阶段的级联结构,和微软研究院近期开发的LongNet架构,高效解决了十亿像素级别图像的处理和理解问题。Providence的研究人员收集到旗下28家美国医院的3万病人授权的17万张全切片数字病理学图片,共计13亿张病理学图块。微软、华盛顿大学和Providence的研究人员合作将GigaPath在这些真实世界数据上进行了大规模预训练。

实验结果表明,GigaPath在26个任务,包含9个癌症分型和17项病理组学任务,在其中25项任务取得领先效果,在18项任务中显著高于现有方法。

研究人员相信,该研究展示了全切片尺度层面的建模和大规模真实世界数据的预训练极其重要,同时,GigaPath也将为更加先进的癌症护理和临床发现提供全新可能。

值得一提的是,GigaPath的模型和代码已经开源,研究人员欢迎世界各地的研究者一道探索和使用GigaPath。

相关研究以《A whole-slide foundation model for digital pathology from real-world data》为题,于 5 月 22 日发布在《Nature》上。



论文链接:https://www.nature.com/articles/s41586-024-07441-w

模型开源地址:https://huggingface.co/prov-gigapath/prov-gigapath

代码开源地址:https://github.com/prov-gigapath/prov-gigapath

方法



图1:GigaPath模型示意图。

GigaPath采用两阶段课程学习,包括使用DINOv2的图块级预训练和使用带有 LongNet 的掩码自动编码器的全切片级预训练(见图1)。DINOv2是一种标准的自监督方法,在训练教师和学生Vision Transformer时结合了对比损失和掩码重建损失。然而,由于自注意力自身带来的计算挑战,其应用仅限于小图像,例如256 × 256图块。

对于全切片级建模,我们将扩张注意力(Dilated Attention)从LongNet (https://arxiv.org/abs/2307.02486)应用于数字病理学(见图2)。

为了处理整张全切片的长图像图块序列,我们引入了一系列递增的尺寸,用于将图块序列细分为给定尺寸的片段。对于较大的片段,LongNet引入稀疏注意力,稀疏性与片段长度成正比,从而抵消平方增长。最大的尺寸片段将覆盖整个全切片。这能够以系统的方式捕获远程依赖关系,同时保持计算的易处理性(上下文长度呈线性)。



图2:LongNet模型示意图。

主要实验结果

在癌症分型诊断方面,任务目标定位于根据病理切片对细粒度亚型进行分类。例如,对于卵巢癌,模型需要区分六种亚型:透明细胞卵巢癌、子宫内膜样卵巢癌、高级别浆液性卵巢癌、低级别浆液性卵巢癌、粘液性卵巢癌和卵巢癌肉瘤。

GigaPath在所有九项癌症分型任务中均获得领先效果,在其中六项癌症类别分型中准确率提升具有显著性。对于六种癌症(乳腺癌、肾癌、肝癌、脑癌、卵巢癌、中枢神经系统癌),GigaPath的AUROC达到90%或更高。这对于癌症诊断和预后等精准健康领域的下游应用来说是个好的开始。

在病理组学任务中,任务目标定位于仅根据全切片图像预测肿瘤是否表现出特定的临床相关基因突变。该预测任务有助于揭示组织形态和遗传途径之间难以被人类察觉的丰富联系。除了一些已知特定癌症类型和基因突变对之外,全切片图像中存在多少基因突变信号仍是一个尚无答案的问题。此外,在一些实验中,研究人员考虑了泛癌场景,即在所有癌症类型和非常多样化的肿瘤形态中识别基因突变的通用信号。

在如此具有挑战性的场景中,GigaPath在17项任务中的16项中再次达到了领先性能,并在其中12项任务中显著优于第二名。Gigapath可以在整个全切片水平上提取遗传相关的泛癌和亚型特异性形态特征,为真实世界场景下的复杂未来研究方向打开了大门。

此外,研究者通过引入病理报告进一步证明了GigaPath在多模态视觉语言任务上的潜力。此前,关于病理视觉语言预训练的工作往往集中在图块级别的小图像上。

相反,GigaPath探索全切片级别的视觉语言预训练。通过继续对病理学报告对进行预训练,利用报告语义来对齐病理学图像的隐空间表征。这比传统的视觉语言预训练更具挑战性,在不利用任何单个图像图块和文本片段之间的细粒度对齐信息的情况下,GigaPath在标准视觉语言任务中显著优于三种最先进的病理学视觉语言模型。

总结

通过丰富全面的实验,研究人员证明了GigaPath的相关研究工作是全切片层面预训练和多模态视觉语言建模层面的良好实践。

值得一提的是,尽管GigaPath在多任务上取得了领先效果,在某些特定任务层面依然具有较大的进步空间。同时,尽管研究人员探索了视觉语言多模态任务,但在朝向搭建病理学层面的多模态对话助手的道路上,依然有很多具体问题需要探索。

作者信息

GigaPath是横跨微软研究院、Providence医疗系统和华盛顿大学保罗艾伦计算机学院的合作项目。其中,来自微软研究院和华盛顿大学的二年级博士生许涵文和来自微软研究院的首席研究员Naoto Usuyama为论文共同第一作者。来自微软研究院Health Futures团队的General Manager Dr.Hoifung Poon(潘海峰), 华盛顿大学的王晟教授,以及Providence的Dr. Carlo Bifulco为论文的共同通讯作者。

许涵文:华盛顿大学二年级在读博士生。研究方向为AI和医学交叉。科研成果发表于Nature, Nature Communications, Nature Machine Intelligence, AAAI等。曾担任Nature Communications, Nature Computational Science等子刊审稿人。

王晟:华盛顿大学计算机系助理教授,研究方向专注于AI和医学交叉。科研成果发表于Nature, Science, Nature Biotechnology, Nature Machine Intelligence and The Lancet Oncology, 研究转化成果被Mayo Clinic, Chan Zuckerberg Biohub, UW Medicine,Providence等多个医疗机构使用。

潘海峰:微软研究院Health Futures General Manager,研究方向为生成式AI基础研究以及精准医疗应用。在多个AI顶会获最佳论文奖,在HuggingFace上发布的开源生物医学大模型总下载量达数千万次,部分研究成果开始在合作的医疗机构和制药公司中转化为应用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国最害怕的不是歼20,也不是高超音速导弹,而是中国的电动汽车

美国最害怕的不是歼20,也不是高超音速导弹,而是中国的电动汽车

文史达观
2024-06-26 14:39:39
7月1日凌晨,谢娜张杰,连夜冲上热搜!

7月1日凌晨,谢娜张杰,连夜冲上热搜!

紫雨说娱乐
2024-07-01 15:29:12
“新概念歼-40”试飞成功横空出世?就打明牌,美国你跟是不跟?

“新概念歼-40”试飞成功横空出世?就打明牌,美国你跟是不跟?

科学佣人
2024-07-01 08:36:55
为什么在双高知家庭中,特殊儿童出现频率偏高?网友的回答真相了

为什么在双高知家庭中,特殊儿童出现频率偏高?网友的回答真相了

阿燕姐说育儿
2024-07-01 16:40:37
74年中央为贺龙恢复名誉,叶帅直言:我和贺龙个人关系并不是很好

74年中央为贺龙恢复名誉,叶帅直言:我和贺龙个人关系并不是很好

历史龙元阁
2024-07-01 16:21:51
迪拜富豪宠物展,女人被当成牲畜,被宾客鞭打电击场面惨不忍睹!

迪拜富豪宠物展,女人被当成牲畜,被宾客鞭打电击场面惨不忍睹!

知心故事会
2023-06-04 18:25:24
朱德临终前,再三叮嘱李先念,一定要抓它,不抓后果不堪设想

朱德临终前,再三叮嘱李先念,一定要抓它,不抓后果不堪设想

今人说古
2024-06-28 23:40:01
网友说:降薪、裁员、下岗失业人员比比皆是,为什么旅游很火爆?

网友说:降薪、裁员、下岗失业人员比比皆是,为什么旅游很火爆?

IT职场人
2024-07-01 19:19:02
官宣:固态电池重大突破!

官宣:固态电池重大突破!

电动知家
2024-07-01 12:12:55
1958年,毛主席下令打雀,2亿麻雀一夜消失,竟引来一场灭顶之灾

1958年,毛主席下令打雀,2亿麻雀一夜消失,竟引来一场灭顶之灾

西橙历史
2024-07-01 10:22:33
谢晖真有眼光!仅用一天就为亚泰签下法甲宝藏强援,首秀征服球迷

谢晖真有眼光!仅用一天就为亚泰签下法甲宝藏强援,首秀征服球迷

评球论事
2024-07-01 16:39:37
太自信!日本女排公布奥运名单:只有五名边攻!带三自由人去巴黎

太自信!日本女排公布奥运名单:只有五名边攻!带三自由人去巴黎

金毛爱女排
2024-07-01 10:30:58
又一出农夫与蛇!中国帮印尼建高铁镍厂,印尼对中国商品征重税

又一出农夫与蛇!中国帮印尼建高铁镍厂,印尼对中国商品征重税

蓝色海边
2024-07-01 16:45:51
刚刚噩耗传来:中国绝密巨星陨落!

刚刚噩耗传来:中国绝密巨星陨落!

华人星光
2024-06-29 12:49:01
马丁内斯发布会:我的国籍并不重要 对明天的裁判我们很放心

马丁内斯发布会:我的国籍并不重要 对明天的裁判我们很放心

直播吧
2024-07-01 06:04:10
俄罗斯在制裁中盈利5万亿卢布

俄罗斯在制裁中盈利5万亿卢布

财联社
2024-06-30 16:16:07
外国企业在中国停止投资,不扩大生产,有订单继续做,没订单裁员

外国企业在中国停止投资,不扩大生产,有订单继续做,没订单裁员

泸沽湖
2024-06-25 13:03:49
96年性感尤物写真曝光!

96年性感尤物写真曝光!

我是娱有理
2024-07-01 07:19:17
母亲沉迷打麻将,4月婴儿被猪咬死,父亲回来后煮了四碗饺子

母亲沉迷打麻将,4月婴儿被猪咬死,父亲回来后煮了四碗饺子

一场奇遇日记
2023-11-15 19:53:21
150天生产1703亿块芯片,出口猛增21%,中国芯反杀海外市场

150天生产1703亿块芯片,出口猛增21%,中国芯反杀海外市场

蓝色海边
2024-07-01 20:22:54
2024-07-01 22:02:44
ScienceAI
ScienceAI
关注人工智能与其他前沿技术
527文章数 197关注度
往期回顾 全部

科技要闻

天兵科技巩义现场工作人员:正寻找黑匣子

头条要闻

刚履新两天 韩俊首次离京调研农业防汛抗旱

头条要闻

刚履新两天 韩俊首次离京调研农业防汛抗旱

体育要闻

他们距离创造历史,只差1分33秒

娱乐要闻

今年内娱最大的闹剧,该收场了

财经要闻

债牛疯狂不止,引央行“出手”!

汽车要闻

奥迪Q6 e-tron Sportback官图曝光

态度原创

房产
数码
亲子
本地
公开课

房产要闻

官宣去库存!海南这一区域商办产品,已无限接近住宅!

数码要闻

搭载锐龙 AI 9 HX 370,宏碁新款 Swift 14 笔记本现身 Geekbench

亲子要闻

十个孩子 九个脾胃有问题 咋回事

本地新闻

冷知识:东北雪糕才是最早的网红雪糕

公开课

连中三元是哪三元?

无障碍浏览 进入关怀版