网易首页 > 网易号 > 正文 申请入驻

精准预测RNA可变剪接,浙大多模态深度学习模型SpTransformer

0
分享至



组织特异性可变剪接分析算法 SpTransformer 的概念图。(来源:浙大)

作者 | 浙江大学良渚实验室沈宁/刘志红课题组

编辑 |ScienceAI

RNA 可变剪接(Alternative splicing)是基因转录后一种重要的调控机制,也是生物体多样性和蛋白质多功能性的重要来源之一。人类约 90% 以上的基因存在可变剪接,不同组织与细胞类型中可变剪接的多元性促进了细胞表型的多样性。同时,引起 RNA 可变剪接的变异也与人类多种遗传疾病相关。

值得注意的是,RNA 可变剪接具有组织特异性,相同的 pre-mRNA 序列能以组织特异性的形式发生可变剪接,从而产生多样性的转录组和蛋白质组表达。然而,现有算法无法预测组织特异性的可变剪接,因此亟需开发能够精准预测组织特异性可变剪接的算法工具,加深我们对于遗传变异的解读及后续研究。

近日,浙江大学良渚实验室沈宁/刘志红课题组开发了基于 Transformer 架构的多模态深度学习模型 SpliceTransformer(简称 SpTransformer),用于预测 pre-mRNA 序列中的组织特异性可变剪接位点。SpTransformer 可以用于解析组织特异性剪接变异相关的疾病,为疾病相关遗传变异提供基于可变剪接机制的全新见解。

相关研究以《SpliceTransformer predicts tissue-specific splicing linked to human diseases》为题,于 2024 年 10 月 23 日发表在《Nature Communications》上。



论文链接:https://www.nature.com/articles/s41467-024-53088-6

SpTransformer:基于 Transformer 的计算架构

SpTransformer 在训练数据和算法架构上均有所创新。



图 1:SpTransformer 模型仅以序列为输入,预测 15 种人体组织中的组织特异性剪接。该模型可用于评估遗传变异并预测组织特异性的剪接变化,其性能明显优于其他已有算法。(来源:论文)

SpTransformer 基于 GTEx 人体组织 RNA-seq 数据和额外的哺乳动物(恒河猴、小鼠、大鼠)组织的 RNA-seq 数据训练,从多个数据集中学习可变剪接相关的序列特征。模型使用 one-hot 编码的 pre-mRNA 序列作为输入。序列经过卷积编码器处理后,通过一个 8 层包含自注意力模块的 Transformer 网络,输出多标签分类结果。

该方法基于 9000nt~15000nt 的长序列上下文信息,对输入序列中央的 1000nt 长度序列同时做预测,既能预测出序列中存在的可变剪接位点,也能为每个位点进行多标签分类,预测位点在 15 个主要人体组织中是否会被使用到。

为了考虑尽可能长的序列上下文信息,模型结合了卷积编码和 Sparse Sinkhorn Attention 稀疏注意力算法,鼓励模型考虑远端序列之间以片段为单位的互作效果,而避免逐一计算碱基和碱基之间的长距离互作关系,这样的做法允许模型以线性复杂度处理大量数据,从而规避了传统 Transformer 模型处理超长序列时无法承受显存开销的问题。最终,该模型对可变剪接的预测结果明显优于已有算法,且创新地实现了对组织特异性剪接的预测(图 1)。

之后,研究者针对模型的可解释性进行了探索。研究者通过可视化分析模型考虑不同序列元件的权重,发现 SpTransformer 模型可以成功发现 1000 bp 以外的远端序列调控元件对可变剪接的影响。同时,模型在预测不同组织的可变剪接时,会考虑不同的序列 motif,其中既有已知的经典序列调控元件,也包含未被研究过的 de novo motif。

预测疾病相关的组织特异性可变剪接

随后,研究者应用 SpTransformer 预测单核苷酸突变(single nucleotide variant,SNV)对组织特异性剪接的影响。通过分别预测突变前序列和突变后序列的剪接情况,并计算它们预测分数的差异,模型以数学方法将突变对目标区域可变剪接的影响量化为 ΔSplice 分数(图 2)。



图 2:SpTransformer 模型可用于评估突变对剪接的影响。(来源:论文)

研究者批量预测了大型数据库ClinVar 中收录的 1,273,053 个 SNV,发现突变的致病性和影响可变剪接的情况有较强的关联。在非编码区域突变中,通过 SpTransformer 给出的 ΔSplice 分数,能以超过 0.98 的 ROC-AUC 区分致病(Pathogenic)和良性(Benign)突变。同时,模型将大量原本标注为效果未知(Uncertain significance)的突变注释为影响可变剪接,一定程度上填补了突变效应注释的空白。



图 3:SpTransformer 模型可用于评估突变对组织特异性剪接的影响,并从大规模数据分析中识别可能影响组织特异性剪接的突变及其富集的基因。(来源:论文)

尽管可变剪接的组织特异性早已为人所知,但突变如何影响这种特异性剪接仍然是个未充分探索的领域。为评估单核苷酸变异(SNV)对组织特异性剪接的影响,研究者开发了 Tissue z-score 分数,用以衡量突变对特定组织中剪接模式的影响是否显著高于其他组织。

通过分析 GTEx RNA-seq 数据中的非组织特异性剪接位点,并模拟这些位点附近发生随机突变,研究者建立了用于参考的统计学分布。当待预测 SNV 的 Tissue z-score 明显大于参考分布中的值时,就认为该 SNV 具有组织特异性。利用这种方法,研究者从 ClinVar数据库中识别出可能影响组织特异性剪接的突变及其富集的基因(图 3)。研究结果显示,这些基因多与相关组织的遗传疾病有关,但不一定表现出组织特异性的表达模式。



图 4:算法针对三种精神疾病数据展开分析,从组织特异性剪接改变角度解读精神疾病发生的潜在机制。(来源:论文)

为了深入探讨 SpTransformer 在疾病诊断和治疗中的应用潜力,研究团队利用该算法分析了与自闭症(Autism),精神分裂症(Schizophrenia)和双相精神障碍(Bipolar disorder)相关的超过 17 万个样本的全外显子组测序结果。这些样本涵盖了患者、患者家庭成员和健康对照组。从超过千万的未知突变中,SpTransformer 筛选出大量可能影响可变剪接的突变。

研究者深入分析了这些影响剪接的突变,发现脑组织特异性的剪接改变在三种类型的精神疾病中均有显著富集。进一步的基因表达量分析揭示,这些突变所在的基因,不仅包括在大脑中特异性表达的,也包含在多数组织中广泛表达的基因,表现出双峰分布的特点。

GO 富集分析(Gene Ontology enrichment analysis)显示,由模型筛选出的基因与脑组织功能存在紧密联系(图 4),在脑组织中特异性表达的基因通常与突触信号传导通路相关,而非组织特异性表达的基因则富集在细胞骨架相关通路。这一发现进一步揭示了脑组织中特异性剪接和特异性表达之间存在相对独立性,即使是在多种组织中普遍表达的基因,也可能通过剪接变异对脑组织产生重要影响,进而可能引发相关疾病。

同时,虽然从这三种精神疾病中筛选出的基因富集到了某些相同的通路,但每种疾病有其独特的致病基因及突变。大规模文献搜索结果显示,由 SpTransformer 识别的许多基因已有相关文献支持其与特定疾病的关联,证明了该工作预测的准确性。此外,还有较多新发现的基因,目前尚未有相关研究报道,这些基因可能为未来的精神疾病研究提供新的线索和方向。

此外,研究者也针对肾脏特异性剪接进行了进一步的数据分析。模型在糖尿病肾病相关数据上进行实战,经由 RNA-seq 方法进行验证,以 83% 的准确率预测出了影响肾脏中可变剪接的突变。

具有临床价值,且开源

以上结果表明,SpTransformer 从组织特异性可变剪接的角度出发,有潜力发现传统基因表达量分析无法找到的疾病成因。这为理解疾病背后的遗传因素提供了除基因表达水平以外的重要视角。进一步地,基于组织特异性的可变剪接分析,有望成为解析复杂疾病遗传机制的关键方法之一。

综上,该研究开发了一个精准地预测具有组织特异性的可变剪接的算法工具 SpTransformer,并通过大量真实突变数据,验证了其在遗传诊断中预测组织特异性影响 RNA 可变剪接的致病突变的能力,具有重要临床价值和研究意义。

文章相关代码已开源,发布在 GitHub 平台(https://github.com/ShenLab-Genomics/SpliceTransformer)。

此外,研究者还提供了一个便捷的在线服务平台(http://tools.shenlab-genomics.org/tools/SpTransformer),使用户能利用 SpTransformer 快速预测突变对组织特异性剪接的影响。

团队介绍及招聘

浙江大学良渚实验室沈宁研究员和刘志红院士为该论文的共同通讯作者,交叉培养博士生游宁远为本文的第一作者。浙江大学管敏鑫研究员、裴善赡研究员、南京大学蒋松博士、施劲松博士、复旦大学孙思琦研究员协助监督指导了本项工作,良渚实验室多位研究员及沈宁课题组多名成员对该工作作出了重要贡献。

良渚实验室沈宁课题组围绕「组学与精准医学分析算法开发与应用」开展临床转化密切相关的研究,运用生物信息学数据整合分析与人工智能算法,并结合实验筛选平台进行药物研发与精准治疗。

课题组目前有多项具有重要应用价值的课题正在推进,与著名医学专家主导的实验室有合作关系,诚招具有实验生物、计算生物背景的博士后和研究助理。

详细招聘信息见:https://person.zju.edu.cn/shenning

简历投递(有意者请将个人简历等材料发送至):shenningzju@zju.edu.cn

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

新SOTA,AI增强医学蛋白质组数据分析,扩散模型驱动的从头肽测序

返回网易首页 下载网易新闻客户端
相关推荐
热点推荐
“灵修尼姑”胡晓慧被捕,九名男弟子透露:入门要先看“慧根”

“灵修尼姑”胡晓慧被捕,九名男弟子透露:入门要先看“慧根”

天梦见证
2025-03-25 15:21:51
李谷一与丈夫的夫妻双穴合葬墓,刻着名字,网友:李谷一还健在呢

李谷一与丈夫的夫妻双穴合葬墓,刻着名字,网友:李谷一还健在呢

火山诗话
2025-04-05 12:08:14
一周反腐档案|重庆市政协副主席“落马”;这名纪检系统出身的副部清明节前被查

一周反腐档案|重庆市政协副主席“落马”;这名纪检系统出身的副部清明节前被查

大众日报
2025-04-07 09:52:17
一个披着资本主义外衣的共产主义国家

一个披着资本主义外衣的共产主义国家

小刀99
2025-04-02 17:56:00
172cm视觉暴击|黑裙高跟材质战|秒变人群焦点

172cm视觉暴击|黑裙高跟材质战|秒变人群焦点

小熊猫健身
2025-03-07 08:30:58
马德兴:备战之殇致U17国足提前出局,上村健一对高原作战准备不足

马德兴:备战之殇致U17国足提前出局,上村健一对高原作战准备不足

雷速体育
2025-04-07 09:41:12
甜美又性感的比基尼模特,极品身材,谁看谁喜欢

甜美又性感的比基尼模特,极品身材,谁看谁喜欢

傲娇的马甲线
2025-04-06 17:55:03
张本美和彻底没戏!陈幸同立大功,国乒包揽多哈世乒赛前四号种子

张本美和彻底没戏!陈幸同立大功,国乒包揽多哈世乒赛前四号种子

阿心文史
2025-04-07 12:21:21
突然崩了!游客高喊:退票!

突然崩了!游客高喊:退票!

每日经济新闻
2025-04-06 00:07:22
国乒新情报:4月7日,向鹏陈幸同联程直赴太原

国乒新情报:4月7日,向鹏陈幸同联程直赴太原

大嘴说台球
2025-04-07 08:51:07
医生告诫:最易升高胆固醇的,不是吃蛋黄!而是无意中常吃这4物

医生告诫:最易升高胆固醇的,不是吃蛋黄!而是无意中常吃这4物

今日养生之道
2025-03-27 01:53:47
中考取消化学引发争议:谁在动摇科技强国的根基?

中考取消化学引发争议:谁在动摇科技强国的根基?

侃故事的阿庆
2025-04-07 00:36:59
太可怕了!一天20万!

太可怕了!一天20万!

龙行天下虎
2025-04-07 10:27:22
上海五姐妹将3斤辣椒水灌进父亲喉咙,母亲瘫坐床边不敢吭声

上海五姐妹将3斤辣椒水灌进父亲喉咙,母亲瘫坐床边不敢吭声

悬案解密档案
2025-04-02 11:44:17
4月5日俄乌:德国资助乌克兰替换星链,英法将很快向乌派遣军队

4月5日俄乌:德国资助乌克兰替换星链,英法将很快向乌派遣军队

山河路口
2025-04-05 19:14:08
脸打得啪啪响!《哪吒2》票房或超第四名《泰坦尼克号》,仅差9亿

脸打得啪啪响!《哪吒2》票房或超第四名《泰坦尼克号》,仅差9亿

火山诗话
2025-04-05 18:10:32
我是真没想到啊,湖人还可以这么用詹姆斯:史上最强3D要出炉了

我是真没想到啊,湖人还可以这么用詹姆斯:史上最强3D要出炉了

两兄弟养牛
2025-04-07 01:32:33
陕西65岁阿姨感染艾滋,探查原因后,医生:这个细节被忽视了

陕西65岁阿姨感染艾滋,探查原因后,医生:这个细节被忽视了

青青会讲故事
2025-04-03 17:10:48
有意思,快船队哈登暗中嘲讽拉塞尔·威斯布鲁克和保罗·乔治

有意思,快船队哈登暗中嘲讽拉塞尔·威斯布鲁克和保罗·乔治

好火子
2025-04-07 04:12:16
日舰敢挑衅我国山东舰,是想逼中国出手吗?他们哪里来的自信

日舰敢挑衅我国山东舰,是想逼中国出手吗?他们哪里来的自信

Hi秒懂科普
2025-04-06 11:25:10
2025-04-07 13:15:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
859文章数 213关注度
往期回顾 全部

科技要闻

大瓜来了!Llama 4 陷刷榜争议

头条要闻

关键时刻 人民日报重磅发声:天塌不下来

体育要闻

刷屏中文互联网,甲亢哥是怎么火的?

娱乐要闻

汪小菲身旁的朋友,对马筱梅的评价

财经要闻

创业板指跌9.74% 逾3700只个股跌超9%

汽车要闻

极狐阿尔法S6/T6售19.58万元起 搭华为三激光智驾

态度原创

房产
家居
亲子
游戏
时尚

房产要闻

被合生珠光朱氏兄弟拖垮的村民们

家居要闻

通透开放 富有人文关怀

亲子要闻

小女孩爬到半空中骄傲的跟妈妈炫耀,妈妈看到后都惊了。

外媒体验switch2鼠标模式!坦言不太喜欢甚至讨厌

这才是大龄女性春夏该有的打扮,超级好学,时髦显瘦又有气质