网易首页 > 网易号 > 正文 申请入驻

精准预测RNA可变剪接,浙大多模态深度学习模型SpTransformer

0
分享至

组织特异性可变剪接分析算法 SpTransformer 的概念图。(来源:浙大)

作者 | 浙江大学良渚实验室沈宁/刘志红课题组

编辑 |ScienceAI

RNA 可变剪接(Alternative splicing)是基因转录后一种重要的调控机制,也是生物体多样性和蛋白质多功能性的重要来源之一。人类约 90% 以上的基因存在可变剪接,不同组织与细胞类型中可变剪接的多元性促进了细胞表型的多样性。同时,引起 RNA 可变剪接的变异也与人类多种遗传疾病相关。

值得注意的是,RNA 可变剪接具有组织特异性,相同的 pre-mRNA 序列能以组织特异性的形式发生可变剪接,从而产生多样性的转录组和蛋白质组表达。然而,现有算法无法预测组织特异性的可变剪接,因此亟需开发能够精准预测组织特异性可变剪接的算法工具,加深我们对于遗传变异的解读及后续研究。

近日,浙江大学良渚实验室沈宁/刘志红课题组开发了基于 Transformer 架构的多模态深度学习模型 SpliceTransformer(简称 SpTransformer),用于预测 pre-mRNA 序列中的组织特异性可变剪接位点。SpTransformer 可以用于解析组织特异性剪接变异相关的疾病,为疾病相关遗传变异提供基于可变剪接机制的全新见解。

相关研究以《SpliceTransformer predicts tissue-specific splicing linked to human diseases》为题,于 2024 年 10 月 23 日发表在《Nature Communications》上。

论文链接:https://www.nature.com/articles/s41467-024-53088-6

SpTransformer:基于 Transformer 的计算架构

SpTransformer 在训练数据和算法架构上均有所创新。

图 1:SpTransformer 模型仅以序列为输入,预测 15 种人体组织中的组织特异性剪接。该模型可用于评估遗传变异并预测组织特异性的剪接变化,其性能明显优于其他已有算法。(来源:论文)

SpTransformer 基于 GTEx 人体组织 RNA-seq 数据和额外的哺乳动物(恒河猴、小鼠、大鼠)组织的 RNA-seq 数据训练,从多个数据集中学习可变剪接相关的序列特征。模型使用 one-hot 编码的 pre-mRNA 序列作为输入。序列经过卷积编码器处理后,通过一个 8 层包含自注意力模块的 Transformer 网络,输出多标签分类结果。

该方法基于 9000nt~15000nt 的长序列上下文信息,对输入序列中央的 1000nt 长度序列同时做预测,既能预测出序列中存在的可变剪接位点,也能为每个位点进行多标签分类,预测位点在 15 个主要人体组织中是否会被使用到。

为了考虑尽可能长的序列上下文信息,模型结合了卷积编码和 Sparse Sinkhorn Attention 稀疏注意力算法,鼓励模型考虑远端序列之间以片段为单位的互作效果,而避免逐一计算碱基和碱基之间的长距离互作关系,这样的做法允许模型以线性复杂度处理大量数据,从而规避了传统 Transformer 模型处理超长序列时无法承受显存开销的问题。最终,该模型对可变剪接的预测结果明显优于已有算法,且创新地实现了对组织特异性剪接的预测(图 1)。

之后,研究者针对模型的可解释性进行了探索。研究者通过可视化分析模型考虑不同序列元件的权重,发现 SpTransformer 模型可以成功发现 1000 bp 以外的远端序列调控元件对可变剪接的影响。同时,模型在预测不同组织的可变剪接时,会考虑不同的序列 motif,其中既有已知的经典序列调控元件,也包含未被研究过的 de novo motif。

预测疾病相关的组织特异性可变剪接

随后,研究者应用 SpTransformer 预测单核苷酸突变(single nucleotide variant,SNV)对组织特异性剪接的影响。通过分别预测突变前序列和突变后序列的剪接情况,并计算它们预测分数的差异,模型以数学方法将突变对目标区域可变剪接的影响量化为 ΔSplice 分数(图 2)。

图 2:SpTransformer 模型可用于评估突变对剪接的影响。(来源:论文)

研究者批量预测了大型数据库ClinVar 中收录的 1,273,053 个 SNV,发现突变的致病性和影响可变剪接的情况有较强的关联。在非编码区域突变中,通过 SpTransformer 给出的 ΔSplice 分数,能以超过 0.98 的 ROC-AUC 区分致病(Pathogenic)和良性(Benign)突变。同时,模型将大量原本标注为效果未知(Uncertain significance)的突变注释为影响可变剪接,一定程度上填补了突变效应注释的空白。

图 3:SpTransformer 模型可用于评估突变对组织特异性剪接的影响,并从大规模数据分析中识别可能影响组织特异性剪接的突变及其富集的基因。(来源:论文)

尽管可变剪接的组织特异性早已为人所知,但突变如何影响这种特异性剪接仍然是个未充分探索的领域。为评估单核苷酸变异(SNV)对组织特异性剪接的影响,研究者开发了 Tissue z-score 分数,用以衡量突变对特定组织中剪接模式的影响是否显著高于其他组织。

通过分析 GTEx RNA-seq 数据中的非组织特异性剪接位点,并模拟这些位点附近发生随机突变,研究者建立了用于参考的统计学分布。当待预测 SNV 的 Tissue z-score 明显大于参考分布中的值时,就认为该 SNV 具有组织特异性。利用这种方法,研究者从 ClinVar数据库中识别出可能影响组织特异性剪接的突变及其富集的基因(图 3)。研究结果显示,这些基因多与相关组织的遗传疾病有关,但不一定表现出组织特异性的表达模式。

图 4:算法针对三种精神疾病数据展开分析,从组织特异性剪接改变角度解读精神疾病发生的潜在机制。(来源:论文)

为了深入探讨 SpTransformer 在疾病诊断和治疗中的应用潜力,研究团队利用该算法分析了与自闭症(Autism),精神分裂症(Schizophrenia)和双相精神障碍(Bipolar disorder)相关的超过 17 万个样本的全外显子组测序结果。这些样本涵盖了患者、患者家庭成员和健康对照组。从超过千万的未知突变中,SpTransformer 筛选出大量可能影响可变剪接的突变。

研究者深入分析了这些影响剪接的突变,发现脑组织特异性的剪接改变在三种类型的精神疾病中均有显著富集。进一步的基因表达量分析揭示,这些突变所在的基因,不仅包括在大脑中特异性表达的,也包含在多数组织中广泛表达的基因,表现出双峰分布的特点。

GO 富集分析(Gene Ontology enrichment analysis)显示,由模型筛选出的基因与脑组织功能存在紧密联系(图 4),在脑组织中特异性表达的基因通常与突触信号传导通路相关,而非组织特异性表达的基因则富集在细胞骨架相关通路。这一发现进一步揭示了脑组织中特异性剪接和特异性表达之间存在相对独立性,即使是在多种组织中普遍表达的基因,也可能通过剪接变异对脑组织产生重要影响,进而可能引发相关疾病。

同时,虽然从这三种精神疾病中筛选出的基因富集到了某些相同的通路,但每种疾病有其独特的致病基因及突变。大规模文献搜索结果显示,由 SpTransformer 识别的许多基因已有相关文献支持其与特定疾病的关联,证明了该工作预测的准确性。此外,还有较多新发现的基因,目前尚未有相关研究报道,这些基因可能为未来的精神疾病研究提供新的线索和方向。

此外,研究者也针对肾脏特异性剪接进行了进一步的数据分析。模型在糖尿病肾病相关数据上进行实战,经由 RNA-seq 方法进行验证,以 83% 的准确率预测出了影响肾脏中可变剪接的突变。

具有临床价值,且开源

以上结果表明,SpTransformer 从组织特异性可变剪接的角度出发,有潜力发现传统基因表达量分析无法找到的疾病成因。这为理解疾病背后的遗传因素提供了除基因表达水平以外的重要视角。进一步地,基于组织特异性的可变剪接分析,有望成为解析复杂疾病遗传机制的关键方法之一。

综上,该研究开发了一个精准地预测具有组织特异性的可变剪接的算法工具 SpTransformer,并通过大量真实突变数据,验证了其在遗传诊断中预测组织特异性影响 RNA 可变剪接的致病突变的能力,具有重要临床价值和研究意义。

文章相关代码已开源,发布在 GitHub 平台(https://github.com/ShenLab-Genomics/SpliceTransformer)。

此外,研究者还提供了一个便捷的在线服务平台(http://tools.shenlab-genomics.org/tools/SpTransformer),使用户能利用 SpTransformer 快速预测突变对组织特异性剪接的影响。

团队介绍及招聘

浙江大学良渚实验室沈宁研究员和刘志红院士为该论文的共同通讯作者,交叉培养博士生游宁远为本文的第一作者。浙江大学管敏鑫研究员、裴善赡研究员、南京大学蒋松博士、施劲松博士、复旦大学孙思琦研究员协助监督指导了本项工作,良渚实验室多位研究员及沈宁课题组多名成员对该工作作出了重要贡献。

良渚实验室沈宁课题组围绕「组学与精准医学分析算法开发与应用」开展临床转化密切相关的研究,运用生物信息学数据整合分析与人工智能算法,并结合实验筛选平台进行药物研发与精准治疗。

课题组目前有多项具有重要应用价值的课题正在推进,与著名医学专家主导的实验室有合作关系,诚招具有实验生物、计算生物背景的博士后和研究助理。

详细招聘信息见:https://person.zju.edu.cn/shenning

简历投递(有意者请将个人简历等材料发送至):shenningzju@zju.edu.cn

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
户口本莫名多出个儿子,我没急,偷偷给他办理退国籍,真家长疯了

户口本莫名多出个儿子,我没急,偷偷给他办理退国籍,真家长疯了

星宇共鸣
2025-07-28 17:57:58
全国政协常委有确定的级别吗?怎么认定?

全国政协常委有确定的级别吗?怎么认定?

蓝色海边
2025-07-31 13:39:28
动真格了!机关事业单位人员,这10种情况不主动汇报,视为违纪!

动真格了!机关事业单位人员,这10种情况不主动汇报,视为违纪!

书中自有颜如玉
2025-07-31 14:11:13
俄第20近卫集团军哗变,损失惨重,拒绝执行指挥官命令?

俄第20近卫集团军哗变,损失惨重,拒绝执行指挥官命令?

井普椿的独白
2025-07-25 14:47:48
火箭队排第一!美媒晒休赛期7大赢家:休城8换1抄底KD剑指总冠军

火箭队排第一!美媒晒休赛期7大赢家:休城8换1抄底KD剑指总冠军

锅子篮球
2025-07-31 16:01:29
李念带3个孩子逛集市,小腹鼓起被疑怀四胎,13岁大女儿又瘦又高

李念带3个孩子逛集市,小腹鼓起被疑怀四胎,13岁大女儿又瘦又高

观察鉴娱
2025-07-31 08:47:55
1997年,英国连香港都归还了,为何拒绝归还没啥经济价值的马岛?

1997年,英国连香港都归还了,为何拒绝归还没啥经济价值的马岛?

红梦史说
2025-07-31 07:40:03
你知道白人和黑人女性的体味差异吗?网友分享真实经历。

你知道白人和黑人女性的体味差异吗?网友分享真实经历。

特约前排观众
2025-07-29 00:20:03
美财长发出最新威胁:或将对中国加征100%关税

美财长发出最新威胁:或将对中国加征100%关税

壹航运
2025-07-30 14:41:13
中国国家网信办就芯片安全问题约谈英伟达公司,外交部回应

中国国家网信办就芯片安全问题约谈英伟达公司,外交部回应

澎湃新闻
2025-07-31 15:38:31
孙兴慜:我很高兴再次来到中国香港,希望能好好享受这次旅程

孙兴慜:我很高兴再次来到中国香港,希望能好好享受这次旅程

懂球帝
2025-07-31 16:16:16
少林寺新方丈释印乐,上任仅一天,就被人扒出和美女大量的合照!

少林寺新方丈释印乐,上任仅一天,就被人扒出和美女大量的合照!

自娱众乐
2025-07-30 18:29:28
12亿票房到账就设儿子基金!佟丽娅的5%抽成,让陈思诚后槽牙咬碎

12亿票房到账就设儿子基金!佟丽娅的5%抽成,让陈思诚后槽牙咬碎

TVB的四小花
2025-07-31 10:41:13
上海中产洗头店凉了,我的百万投资打了水漂

上海中产洗头店凉了,我的百万投资打了水漂

19号商研社
2025-07-30 21:33:45
拿到欧盟1.8亿美元后,塔利班对中企翻了脸,中阿油田合作被终止

拿到欧盟1.8亿美元后,塔利班对中企翻了脸,中阿油田合作被终止

流年拾光
2025-06-21 22:32:26
女儿美国读高中花掉110万,单亲妈妈发起募捐:求捐200万读大学

女儿美国读高中花掉110万,单亲妈妈发起募捐:求捐200万读大学

游古史
2025-07-30 10:16:25
释永信落网后,郑州的房和女大学生彻底曝光,两位吹哨人再爆猛料

释永信落网后,郑州的房和女大学生彻底曝光,两位吹哨人再爆猛料

石辰搞笑日常
2025-07-30 21:32:37
雷军遭愤怒网友集体请愿

雷军遭愤怒网友集体请愿

大厂观察
2025-07-31 08:37:43
没蚊子又凉快的六朝古都,火炉城市羡慕哭了

没蚊子又凉快的六朝古都,火炉城市羡慕哭了

新周刊
2025-07-30 19:04:40
局面失控!张碧晨风波扯出5位顶流,已经不是道德问题这么简单

局面失控!张碧晨风波扯出5位顶流,已经不是道德问题这么简单

小杨侃事
2025-07-28 16:17:07
2025-07-31 16:51:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1041文章数 214关注度
往期回顾 全部

科技要闻

微软年赚1000亿美元,盘后市值冲破4万亿

头条要闻

美国对台关税"大限"将至 岛内哀叹:税率或高达30%

体育要闻

梅西:今天赢球很重要 德保罗为球队带来很多东西

娱乐要闻

站位暴露咖位:C位亮了

财经要闻

吴晓求刘煜辉对谈:讲透A股未来趋势

汽车要闻

连续掉头/丝滑避让 传祺向往S7辅助驾驶有点东西

态度原创

健康
亲子
房产
公开课
军事航空

呼吸科专家破解呼吸道九大谣言!

亲子要闻

科普|我的孩子怎么了?VS我的父母怎么了?一场关于亲子关系的误解与靠近

房产要闻

突发!那位绿地海南的“男神”区域总被带走了!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄乌冲突再创“无人机空战”新模式