【编者按】:在第一篇总述()中,我们回顾了《自然通讯》杂志计算生物学方法亮点论文,展望了未来的领域发展。从本篇开始,将对各细分领域的亮点论文进行评述,首先会总述此领域的当前研究进展,随后会挑选若干篇例文进行内容介绍与评论,最后展望此领域的发展方向。
(一) 总述
2024年,单细胞组学算法依然在计算生物学领域占有重要篇幅。经典的下游任务算法涵盖了细胞聚类、差异基因分析、细胞类型注释、多批次多模态数据整合、细胞通讯预测以及基因调控网络预测等通用算法。此外,针对特定生物学问题的分析任务也出现新的算法,例如疾病特异性可变剪切分析、跨模态单细胞数据模拟器、罕见细胞发现算法、细胞分化路径与RNA速率预测、扰动预测以及metacell巨型细胞模拟分析。
从2024年下半年开始,图谱级单细胞数据预训练的基础模型逐渐崭露头角。例如,scGPT、scFoundation、Geneformer等利用生成式AI构建了单细胞多组学基础模型,能够有效提炼关键生物学观点,并在多种下游应用中展现出卓越性能。这些基础模型的出现,为解决上述复杂任务提供了新的思路和工具。
一方面,新的算法在已有问题的基础上不断寻找缺陷并突破瓶颈,展现出更优的分析效果。另一方面,深度学习和人工智能领域的算法革新,为解决传统问题提供了全新的模式。客观来看,针对现有问题的解决方案正逐渐形成完整的体系,读者们对使用新算法解决已有问题的要求和期待也在不断提高。算法的创意、对具体生物学问题的建模解决能力以及算法的普适价值 (如性能、算力、成本等) 已成为当前领域内追求的核心目标。
(二)四篇文章的详细介绍与点评
论文1:单细胞Hi-C 和 RNA-seq 数据的整合定义了不同的染色体三维结构调节和生物背景依赖的细胞亚群
来自威斯康星医学院的Victor Jin 等人研发了一种工具,能够将单细胞Hi-C数据和单细胞转录组数据进行有效整合。
【原文链接】:https://doi.org/10.1038/s41467-024-52440-0
【详细介绍】:核内的三维 (3D) 染色质结构可以由染色体构象捕获相关技术构建,研究者们已经同时开发了许多计算方法来分析这些数据,包括计算 A/B 区室,检测显著的相互作用等等。此外,为了描绘群体细胞的异质性,已经新开发了单细胞 Hi-C (scHi-C) 方法来以单细胞分辨率鉴定 3D 染色质结构。然而,这些方法都没有设计用于算法集成 scHi-C 和单细胞 (sc) RNA-seq 数据。因此,开发一种综合整合单细胞染色质结构域和单细胞基因表达的方法来精确定义 3D 调控的细胞亚群势在必行。来自威斯康星医学院的Victor Jin团队开发了MUDI算法,用于整合这两种模态。
MUDI算法的计算过程如图1-1a所示。通过整合拓扑保守的关联结构域 (CADs) 和每个 scRNA-seq 簇的差异表达基因 (DEGs) ,并结合经验定量公式,能够获得拓扑信息整合的细胞亚类 (TISP) 。
图1-1 MUDI的计算流程与benchmark比较
为了进一步测试和证明 MUDI 的生物学功能,研究者们产生了乳腺癌细胞系 MCF7,MCF7M1 和 MCF7TR 高质量的 scHi-C 和 scRNA-seq 数据,通过进行模态整合,他们发现细胞周期相关基因与CADs关联很大,证明了通过MUDI整合分析,能够说明乳腺癌发生发展的生物学过程,并识别出细分亚群(图1-2)。
图1-2 精确鉴定染色质三维结构调控的癌细胞亚群
【资深编辑短评】:单细胞Hi-C数据能够揭示细胞内染色质的三维空间结构,而单细胞转录组数据则反映了基因的表达水平。将两者整合,可以同时从基因表达和染色质结构两个层面理解细胞的调控机制。MUDI针对具体的细胞亚型的类群对两个模态的信息做了有效的整合。整合结果能够帮助研究人员更好地理解基因表达与染色质结构之间的相互关系。例如,通过分析染色质互作网络与基因表达模式的关联,可以揭示基因调控的复杂机制,也对于研究细胞命运决定机制具有重要意义。
论文2:探究单细胞 RNA 剪接图谱,定义具有生理相关性的新细胞身份
来自清华大学的杨雪瑞课题组 (Xuerui Yang) 基于可变剪接景观信息对单细胞进行聚类,探究RNA剪接的异质性。
【原文链接】:https://doi.org/10.1038/s41467-024-46480-9
【详细介绍】:在单细胞转录组分析中,细胞聚类是极其关键的一步,对精准定义细胞异质性及理解组织微环境都有着重要意义。然而,当下主流分析方法仅停留在基因层面,仅能反映基因总体表达丰度,几乎完全忽略了RNA可变剪接这一重要的转录后调控机制对细胞异质性的影响。为此,清华大学生命学院杨雪瑞课题组开发了生物信息工具SCASL (single-cell clustering based on alternative splicing landscapes),通过解析RNA剪接谱重新定义细胞亚群。
此方法使用单细胞转录组测序数据进行输入,通过对不同的可变剪接模式进行定量化表征、使用kNN插补解决数据稀疏性问题,最后通过谱聚类方法对数据进行无监督聚类(图2-1)。
图2-1 SCASL分析流程图
作者使用了七套已发表的单细胞RNA-seq数据,对SCASL剪接谱异质性分析结果的生物学意义进行了深入挖掘和讨论。例如,SCASL重现了小鼠胚胎肝脏中肝母细胞发育为肝细胞和胆管细胞的两个谱系,明确定义了分化谱系中的时序过渡态细胞(图2-2)。在对肿瘤免疫微环境的分析中,SCASL完成了对肿瘤相关T细胞亚型的精细鉴定,为理解免疫细胞浸润等过程提供了新的线索。
图2-2 SCASL重现小鼠胚胎肝细胞发育谱系
【资深编辑短评】:通过RNA的可变剪切的调控来研究细胞的发育和疾病的发生与发展是精准医学当前的一个热门课题。单细胞层面的可变剪切分析可以帮助识别与这些具体的生物学过程相关的剪接变体,为疾病的诊断和治疗提供潜在的生物标志物。SCASL算法通过单细胞可变剪切分析,识别出在特定细胞类型或状态下特异性表达的剪接变体。该方法不依赖于预先定义的转录组注释,因此可以恢复已知和新的可变剪切,从分配给相同 5’或 3’的可变剪切的连接读取比例推断出概率,然后使用概率值来估算缺失值,从而对细胞进行聚类。
论文3:使用 CrossChat 检测细胞间通信中的全局和局部层次结构
加州大学尔湾分校的Axel A. Almet 和 Qing Nie 提出了一种新的细胞通讯“Chat”预测方法CrossChat,该方法能够检测细胞间通讯中的全局和局部层次结构。
【原文链接】:https://doi.org/10.1038/s41467-024-54821-x
【详细介绍】:细胞间通讯是一个复杂的过程,它能够跨越不同的生物尺度,从大细胞群间的相互作用到单个细胞间的直接接触。从全局视角看,细胞通讯可能发生在细胞簇/子群之间,在局部层面,一群细胞作为信号发送者或信号接收者,可能会展现出独特的信号特性,进一步丰富了细胞间通讯的复杂性。当前的研究方法在推断细胞间通讯时存在一定的局限性。它们主要依赖于测序数据,通常只能分析特定细胞类群之间的通讯,但忽略了表达特定配受体的细胞相互通讯的视角。为了解决这个问题,加州大学尔湾分校的聂青课题组开发了名为CrossChat的新型计算框架,使用两种互补的方法来推断和分析细胞间通讯的层次结构。
这两种方法分别称为CrossChatH和CrossChatT(图3-1)。CrossChatH选用层级结构树的方式,输入一个单细胞转录组学数据,采用随机游走的方式聚合信息,通过调整分辨率进而将细胞聚类成不同的层次,进而计算两个层次树之间不同细胞亚群的互作关系。CrossChatT则选用计算基因-基因相关图的方式,通过寻找完全子图将众多配体层次结构化,进而使用CellChat计算富集各配体的细胞和富集各受体的细胞之间的细胞间通讯,此方法可以同时计算多对多受体-配体关系。
图3-1 CrossChatH 和 CrossChatT 的方法概述
研究者们使用CrossChat完成了各种下游应用。例如,使用CrossChatT 对小鼠皮肤创伤愈合组织进行分析,模型能够发现表达配体 Ocln 的细胞是表达配体 Igf2 的细胞的子集,Ocln 是其本身的受体(图4-2)。在空间转录组 E16.5小鼠Stereo-seq数据集中,CrossChatT也能发现Igf2-Igf2r 相互作用主要发生在中胚层这样的生物学结论,此外也有一些关键的生物学通路。
图3-2 CrossChatT 在小鼠皮肤创伤愈合过程中的应用
【资深编辑短评】:CrossChat提出的层次结构具有概念上的创新性,它从单细胞转录组和空间转录组学数据中检测 细胞交互通讯的层次结构,它从互补的全局和局部视角推断和分析层次化结构,同时可视化层次化细胞组之间的通讯过程,按这一模式进行下游分析。相比较经典的细胞通讯算法,譬如CellChat 或 CellPhoneDB,CrossChat 满足了当研究人员想要在多个聚类分辨率而不是单一尺度上分析细胞组之间的通讯的需求。同时在研究由细胞间通讯诱导的特定于信号配体/受体的结构时,无需考虑预定义的细胞类型注释。
论文4:通过深度生成模型和主动学习实现半定量分析,推进大规模单细胞研究。
麦吉尔大学的丁俊 (Jun Ding) 通过整合大规模bulk测序数据和从少数代表性样本中获得的单细胞测序数据,推断出大型群体中的单细胞特征。
【原文链接】:https://doi.org/10.1038/s41467-024-50150-1
【详细介绍】:单细胞测序是生物研究中的一项突破性技术,推动了生物标志物发现和个性化治疗的重大进展。然而,其高昂的成本极大地限制了其在复杂疾病队列等大规模研究中的应用。为了降低成本,之前的研究一般使用“去卷积”方法,从更经济的bulk测序数据中推断细胞类型比例。但它们只能提供细胞群体水平的估计。为了利用经济实惠的bulk数据来提供更具成本效益的单细胞数据,麦吉尔大学丁俊课题组设计了一种深度生成AI方法,结合主动学习,精确且高效地生成疾病队列的单细胞水平数据。
该方法主要分为两个部分:代表性样本选择和使用生成模型推断单细胞数据(图4-1)。在第一部分,模型先依据Bulk数据对样本进行一定的聚类,选择最接近中心的样本作为代表样本,进行真实的单细胞测序。随后进入第二部分,利用生成模型建立代表样本单细胞-Bulk数据的联系,随后生成非代表样本 (即目标样本) 的单细胞数据,模型通过融入“生成的单细胞数据的平均值应该与其bulk数据相似”这一先验信息保证了生成数据的准确性。此外,为了减少代表选择的偏差,模型使用主动学习迭代选取代表样本。
图4-1 scSemiProfiler方法概览
研究者们在多样化的数据集上验证了scSemiProfiler。结果表明,scSemiProfiler在所有数据集中始终生成与实际单细胞数据集非常匹配的单细胞数据。这种准确性对于可靠的下游分析至关重要,包括可视化、生物标志物发现、解卷积、富集分析、细胞-细胞相互作用分析、拟时序等(图4-2)。
图4-2 COVID-19数据集生成数据和真实测序数据集的比较
【资深编辑短评】:scSemiProfiler是一个有创新设计的单细胞模拟数据生成计算框架,它通过结合大规模测序与精准分析,并优化数据利用效率,在保持与传统单细胞测序结果高度一致的同时,显著降低了实验成本。这个工具不仅用于生成数据,还确保所获得的单细胞信息在多种下游分析中具有高度可靠性,特别是对于大规模和队列研究,提供了经济高效而全面的方法。
(三)总结与展望
如前所述,这些文章的意义不止于提出新的算法结构并展示其卓越的准确度,它们更聚焦于明确且具体的生物学问题,并精心设计出高效的算法。在多种数据集的测试中,这些算法不仅表现出色,还揭示了具有重要生物学意义的发现。随着测序技术的不断革新、数据量的急剧增加以及算法的持续创新,未来的单细胞数据分析算法有望在数据挖掘和处理方面实现更深入的突破,为生命科学研究带来更强大的工具和更深刻的见解。同时,统计方法、线性或非线性模型以及预训练的大模型在不同下游任务中的性能比较,也必将成为该领域内备受关注的热门话题之一。
制版人:十一
BioArt
Med
Plants
人才招聘
会议资讯
BioART战略合作伙伴
(*排名不分先后)
BioART友情合作伙伴
(*排名不分先后)
转载须知
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.