网易首页 > 网易号 > 正文 申请入驻

精准预测RNA可变剪接,浙大多模态深度学习模型SpTransformer

0
分享至

组织特异性可变剪接分析算法 SpTransformer 的概念图。(来源:浙大)

作者 | 浙江大学良渚实验室沈宁/刘志红课题组

编辑 |ScienceAI

RNA 可变剪接(Alternative splicing)是基因转录后一种重要的调控机制,也是生物体多样性和蛋白质多功能性的重要来源之一。人类约 90% 以上的基因存在可变剪接,不同组织与细胞类型中可变剪接的多元性促进了细胞表型的多样性。同时,引起 RNA 可变剪接的变异也与人类多种遗传疾病相关。

值得注意的是,RNA 可变剪接具有组织特异性,相同的 pre-mRNA 序列能以组织特异性的形式发生可变剪接,从而产生多样性的转录组和蛋白质组表达。然而,现有算法无法预测组织特异性的可变剪接,因此亟需开发能够精准预测组织特异性可变剪接的算法工具,加深我们对于遗传变异的解读及后续研究。

近日,浙江大学良渚实验室沈宁/刘志红课题组开发了基于 Transformer 架构的多模态深度学习模型 SpliceTransformer(简称 SpTransformer),用于预测 pre-mRNA 序列中的组织特异性可变剪接位点。SpTransformer 可以用于解析组织特异性剪接变异相关的疾病,为疾病相关遗传变异提供基于可变剪接机制的全新见解。

相关研究以《SpliceTransformer predicts tissue-specific splicing linked to human diseases》为题,于 2024 年 10 月 23 日发表在《Nature Communications》上。

论文链接:https://www.nature.com/articles/s41467-024-53088-6

SpTransformer:基于 Transformer 的计算架构

SpTransformer 在训练数据和算法架构上均有所创新。

图 1:SpTransformer 模型仅以序列为输入,预测 15 种人体组织中的组织特异性剪接。该模型可用于评估遗传变异并预测组织特异性的剪接变化,其性能明显优于其他已有算法。(来源:论文)

SpTransformer 基于 GTEx 人体组织 RNA-seq 数据和额外的哺乳动物(恒河猴、小鼠、大鼠)组织的 RNA-seq 数据训练,从多个数据集中学习可变剪接相关的序列特征。模型使用 one-hot 编码的 pre-mRNA 序列作为输入。序列经过卷积编码器处理后,通过一个 8 层包含自注意力模块的 Transformer 网络,输出多标签分类结果。

该方法基于 9000nt~15000nt 的长序列上下文信息,对输入序列中央的 1000nt 长度序列同时做预测,既能预测出序列中存在的可变剪接位点,也能为每个位点进行多标签分类,预测位点在 15 个主要人体组织中是否会被使用到。

为了考虑尽可能长的序列上下文信息,模型结合了卷积编码和 Sparse Sinkhorn Attention 稀疏注意力算法,鼓励模型考虑远端序列之间以片段为单位的互作效果,而避免逐一计算碱基和碱基之间的长距离互作关系,这样的做法允许模型以线性复杂度处理大量数据,从而规避了传统 Transformer 模型处理超长序列时无法承受显存开销的问题。最终,该模型对可变剪接的预测结果明显优于已有算法,且创新地实现了对组织特异性剪接的预测(图 1)。

之后,研究者针对模型的可解释性进行了探索。研究者通过可视化分析模型考虑不同序列元件的权重,发现 SpTransformer 模型可以成功发现 1000 bp 以外的远端序列调控元件对可变剪接的影响。同时,模型在预测不同组织的可变剪接时,会考虑不同的序列 motif,其中既有已知的经典序列调控元件,也包含未被研究过的 de novo motif。

预测疾病相关的组织特异性可变剪接

随后,研究者应用 SpTransformer 预测单核苷酸突变(single nucleotide variant,SNV)对组织特异性剪接的影响。通过分别预测突变前序列和突变后序列的剪接情况,并计算它们预测分数的差异,模型以数学方法将突变对目标区域可变剪接的影响量化为 ΔSplice 分数(图 2)。

图 2:SpTransformer 模型可用于评估突变对剪接的影响。(来源:论文)

研究者批量预测了大型数据库ClinVar 中收录的 1,273,053 个 SNV,发现突变的致病性和影响可变剪接的情况有较强的关联。在非编码区域突变中,通过 SpTransformer 给出的 ΔSplice 分数,能以超过 0.98 的 ROC-AUC 区分致病(Pathogenic)和良性(Benign)突变。同时,模型将大量原本标注为效果未知(Uncertain significance)的突变注释为影响可变剪接,一定程度上填补了突变效应注释的空白。

图 3:SpTransformer 模型可用于评估突变对组织特异性剪接的影响,并从大规模数据分析中识别可能影响组织特异性剪接的突变及其富集的基因。(来源:论文)

尽管可变剪接的组织特异性早已为人所知,但突变如何影响这种特异性剪接仍然是个未充分探索的领域。为评估单核苷酸变异(SNV)对组织特异性剪接的影响,研究者开发了 Tissue z-score 分数,用以衡量突变对特定组织中剪接模式的影响是否显著高于其他组织。

通过分析 GTEx RNA-seq 数据中的非组织特异性剪接位点,并模拟这些位点附近发生随机突变,研究者建立了用于参考的统计学分布。当待预测 SNV 的 Tissue z-score 明显大于参考分布中的值时,就认为该 SNV 具有组织特异性。利用这种方法,研究者从 ClinVar数据库中识别出可能影响组织特异性剪接的突变及其富集的基因(图 3)。研究结果显示,这些基因多与相关组织的遗传疾病有关,但不一定表现出组织特异性的表达模式。

图 4:算法针对三种精神疾病数据展开分析,从组织特异性剪接改变角度解读精神疾病发生的潜在机制。(来源:论文)

为了深入探讨 SpTransformer 在疾病诊断和治疗中的应用潜力,研究团队利用该算法分析了与自闭症(Autism),精神分裂症(Schizophrenia)和双相精神障碍(Bipolar disorder)相关的超过 17 万个样本的全外显子组测序结果。这些样本涵盖了患者、患者家庭成员和健康对照组。从超过千万的未知突变中,SpTransformer 筛选出大量可能影响可变剪接的突变。

研究者深入分析了这些影响剪接的突变,发现脑组织特异性的剪接改变在三种类型的精神疾病中均有显著富集。进一步的基因表达量分析揭示,这些突变所在的基因,不仅包括在大脑中特异性表达的,也包含在多数组织中广泛表达的基因,表现出双峰分布的特点。

GO 富集分析(Gene Ontology enrichment analysis)显示,由模型筛选出的基因与脑组织功能存在紧密联系(图 4),在脑组织中特异性表达的基因通常与突触信号传导通路相关,而非组织特异性表达的基因则富集在细胞骨架相关通路。这一发现进一步揭示了脑组织中特异性剪接和特异性表达之间存在相对独立性,即使是在多种组织中普遍表达的基因,也可能通过剪接变异对脑组织产生重要影响,进而可能引发相关疾病。

同时,虽然从这三种精神疾病中筛选出的基因富集到了某些相同的通路,但每种疾病有其独特的致病基因及突变。大规模文献搜索结果显示,由 SpTransformer 识别的许多基因已有相关文献支持其与特定疾病的关联,证明了该工作预测的准确性。此外,还有较多新发现的基因,目前尚未有相关研究报道,这些基因可能为未来的精神疾病研究提供新的线索和方向。

此外,研究者也针对肾脏特异性剪接进行了进一步的数据分析。模型在糖尿病肾病相关数据上进行实战,经由 RNA-seq 方法进行验证,以 83% 的准确率预测出了影响肾脏中可变剪接的突变。

具有临床价值,且开源

以上结果表明,SpTransformer 从组织特异性可变剪接的角度出发,有潜力发现传统基因表达量分析无法找到的疾病成因。这为理解疾病背后的遗传因素提供了除基因表达水平以外的重要视角。进一步地,基于组织特异性的可变剪接分析,有望成为解析复杂疾病遗传机制的关键方法之一。

综上,该研究开发了一个精准地预测具有组织特异性的可变剪接的算法工具 SpTransformer,并通过大量真实突变数据,验证了其在遗传诊断中预测组织特异性影响 RNA 可变剪接的致病突变的能力,具有重要临床价值和研究意义。

文章相关代码已开源,发布在 GitHub 平台(https://github.com/ShenLab-Genomics/SpliceTransformer)。

此外,研究者还提供了一个便捷的在线服务平台(http://tools.shenlab-genomics.org/tools/SpTransformer),使用户能利用 SpTransformer 快速预测突变对组织特异性剪接的影响。

团队介绍及招聘

浙江大学良渚实验室沈宁研究员和刘志红院士为该论文的共同通讯作者,交叉培养博士生游宁远为本文的第一作者。浙江大学管敏鑫研究员、裴善赡研究员、南京大学蒋松博士、施劲松博士、复旦大学孙思琦研究员协助监督指导了本项工作,良渚实验室多位研究员及沈宁课题组多名成员对该工作作出了重要贡献。

良渚实验室沈宁课题组围绕「组学与精准医学分析算法开发与应用」开展临床转化密切相关的研究,运用生物信息学数据整合分析与人工智能算法,并结合实验筛选平台进行药物研发与精准治疗。

课题组目前有多项具有重要应用价值的课题正在推进,与著名医学专家主导的实验室有合作关系,诚招具有实验生物、计算生物背景的博士后和研究助理。

详细招聘信息见:https://person.zju.edu.cn/shenning

简历投递(有意者请将个人简历等材料发送至):shenningzju@zju.edu.cn

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
3年9100万!骑士签约神塔赚大了,哈登一来,他从蓝领变成高级货

3年9100万!骑士签约神塔赚大了,哈登一来,他从蓝领变成高级货

球盲姐
2026-02-21 17:05:54
养伤175天!巴萨21岁金童回来了:第2次重伤复出 队友祝贺

养伤175天!巴萨21岁金童回来了:第2次重伤复出 队友祝贺

叶青足球世界
2026-02-20 20:30:47
1954年的中央会议上,周恩来特意叮嘱陈赓:“你带枪坐在高岗身后”

1954年的中央会议上,周恩来特意叮嘱陈赓:“你带枪坐在高岗身后”

寄史言志
2026-01-27 11:08:17
李亚鹏前妻带娃回村过年,山里盖三层小楼,院子大到能遛弯

李亚鹏前妻带娃回村过年,山里盖三层小楼,院子大到能遛弯

松林侃世界
2026-02-20 20:37:08
内马尔承认年底考虑退役!巴萨签新星达协议!卡里克想长留曼联!

内马尔承认年底考虑退役!巴萨签新星达协议!卡里克想长留曼联!

足球侦探
2026-02-21 20:06:11
英国议员加入乌军亚速旅,国际奥委会拒绝给俄罗斯运动员发手机

英国议员加入乌军亚速旅,国际奥委会拒绝给俄罗斯运动员发手机

史政先锋
2026-02-20 14:26:29
“岳父岳母要来长住,我坚决不同意”引热议,说出已婚男人的清醒

“岳父岳母要来长住,我坚决不同意”引热议,说出已婚男人的清醒

夜深爱杂谈
2026-02-20 23:18:27
中俄舰艇都到了,美军还打不打伊朗?特朗普一句话,信号不简单

中俄舰艇都到了,美军还打不打伊朗?特朗普一句话,信号不简单

钦点历史
2026-02-21 14:31:50
7名中国游客贝加尔湖遇难,目击者发声:车两三分钟就沉了;有旅行社“贝加尔湖冬日游”人均16888元起

7名中国游客贝加尔湖遇难,目击者发声:车两三分钟就沉了;有旅行社“贝加尔湖冬日游”人均16888元起

极目新闻
2026-02-20 23:13:15
你见识过那些父母的无效人脉吗?网友:简单问题硬是给复杂化

你见识过那些父母的无效人脉吗?网友:简单问题硬是给复杂化

另子维爱读史
2026-02-09 20:07:56
为什么北京的地铁总感觉那么挤,上海地铁却不是很挤?

为什么北京的地铁总感觉那么挤,上海地铁却不是很挤?

小李子体育
2026-02-21 15:51:23
48小时大变脸!美国紧急撤回名单,高市急用简体中文向中国低头

48小时大变脸!美国紧急撤回名单,高市急用简体中文向中国低头

铁锤简科
2026-02-21 00:01:59
一家三口春节返乡途中突生变故:车辆抛锚,患病儿子离世……之后的事太暖心

一家三口春节返乡途中突生变故:车辆抛锚,患病儿子离世……之后的事太暖心

台州交通广播
2026-02-20 12:14:08
东北人,为啥都爱打扮和穿名牌?

东北人,为啥都爱打扮和穿名牌?

冰咖
2026-02-19 15:17:03
东契奇轰38+11仍无缘今日最佳!对不起,你碰到创纪录的华子了

东契奇轰38+11仍无缘今日最佳!对不起,你碰到创纪录的华子了

世界体育圈
2026-02-21 14:08:27
小学生“倒数第一”试卷又火了,老师:这孩子智商太高,我教不了

小学生“倒数第一”试卷又火了,老师:这孩子智商太高,我教不了

浩源的妈妈
2026-01-27 06:29:07
儿子被外婆打了一下,老公停顿了5秒转身说:我们这就回自己家

儿子被外婆打了一下,老公停顿了5秒转身说:我们这就回自己家

黄小乖的日记
2026-02-21 11:21:01
妈祖事件后续发酵!福建老板集体放话,今后绝不与姓许的合作往来

妈祖事件后续发酵!福建老板集体放话,今后绝不与姓许的合作往来

一盅情怀
2026-02-21 13:45:26
载8名中国游客汽车在贝加尔湖落水,7名中国游客溺亡

载8名中国游客汽车在贝加尔湖落水,7名中国游客溺亡

界面新闻
2026-02-20 19:27:17
“这是输了?”得知关税被判违法,特朗普暴怒 在场州长:感觉他头都气炸了

“这是输了?”得知关税被判违法,特朗普暴怒 在场州长:感觉他头都气炸了

红星新闻
2026-02-21 12:42:33
2026-02-21 20:31:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1234文章数 224关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

美大法官"大战"总统撕开财政千亿黑洞 特朗普闪电反击

头条要闻

美大法官"大战"总统撕开财政千亿黑洞 特朗普闪电反击

体育要闻

冬奥第一"海王"?一人和13国选手都有关系

娱乐要闻

镖人反超惊蛰无声拿下单日票房第二!

财经要闻

一觉醒来,世界大变,特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

数码
健康
教育
手机
家居

数码要闻

开盖版Ryzen 7 9850X3D来了!价格小贵 性能释放暴增20W

转头就晕的耳石症,能开车上班吗?

教育要闻

新春走基层 | 慢飞天使捏出 “年的形状”

手机要闻

小米POCO X8 Pro系列外观曝光,Pro Max版疑似升级双LED闪光灯

家居要闻

本真栖居 爱暖伴流年

无障碍浏览 进入关怀版