编辑 | 萝卜皮
保留时间(Retention time,RT)比对是基于液相色谱-质谱(LC-MS)的蛋白质组学和代谢组学实验中的关键步骤,特别是对于大型队列研究。最流行的对齐工具是基于扭曲函数方法和直接匹配方法。然而,现有工具很难同时处理单调和非单调 RT 平移。
国家蛋白质科学中心(北京)和北京工业大学的研究团队开发了一种基于深度学习的 RT 对齐工具 DeepRTAlign,用于大型队列 LC-MS 数据分析。
通过在多个真实数据和模拟蛋白质组学和代谢组学数据集上,与当前 SOTA 方法进行基准测试,DeepRTAlign 被证明具有改进的性能。并且,DeepRTAlign 可以在不影响定量准确性的情况下提高识别灵敏度。此外,使用 DeepRTAlign 对齐的 MS 特征,研究人员训练了一个强大的分类器来预测肝细胞癌的早期复发。
该研究以「DeepRTAlign: toward accurate retention time alignment for large cohort mass spectrometry data analysis」为题,于 2023 年 12 月 11 日发布在《Nature Communications》。
在蛋白质组学实验中,液相色谱 (LC) 通常与质谱 (MS) 结合使用,以分离复杂的样品。MS 数据中每种分析物的保留时间 (RT) 通常会因多种原因而发生变化,包括基质效应和仪器性能。因此,在任何涉及多个样品的实验中,在定量、比较或统计分析之前必须绘制相应的分析物。这个过程称为通信。换句话说,这个问题可以定义为在多个样本中找到「相同的化合物」。
一般来说,在蛋白质组学中,可以根据肽鉴定来进行对应。然而,由于数据依赖采集(DDA)模式下的数据依赖离子选择过程,只有15%~25%的前体具有相应的鉴定。即使对于数据独立采集(DIA)数据,仍然存在许多未识别的前体(潜在的肽),由于复杂的MS/MS谱图,在后续分析中无法考虑这些前体。
大多数现有的 DDA 和 DIA 数据分析工具,例如 MaxQuant4、PANDA、MSFragger 和 DIA-NN,使用运行间匹配 (MBR) 功能执行 RT 比对,以在任意两次 LC-MS 运行之间将已识别的序列转移到未识别的前体 。
尽管MBR可以在一定程度上增加鉴定总数,但它被集成到特定的软件工具中并依赖于已鉴定的肽,这限制了其在临床蛋白质组学研究中从未鉴定的前体中探索新的生物标志物的进一步应用。
在代谢组学中,特征对齐是识别和定量的先决条件。理论上,特征对齐的准确性取决于 MS 数据中的 m/z 和 RT 信息。目前,高分辨率质谱仪可以将 m/z 偏移限制在 10 ppm 以下。因此,RT 比对对于准确分析大规模蛋白质组学和代谢组学研究数据尤为重要。
RT 比对有两种类型的计算方法。一种称为翘曲法。但是,由于翘曲函数是单调的,因此这种方法无法校正非单调平移。另一种方法是直接匹配方法,它尝试仅根据运行之间的特定信号之间的相似性来执行对应,而不使用扭曲函数。
据报道,由于 MS 信号的不确定性,现有直接匹配工具的性能不如使用扭曲函数的工具。无论如何,这些工具很难同时处理单调和非单调 RT 移位。因此,应用机器学习或深度学习技术来解决这个问题。目前还没有基于深度学习的 LC-MS 数据分析比对算法。
国家蛋白质科学中心和北京工业大学的研究团队提出了提出了一种基于深度学习的工具 DeepRTAlign,用于大型队列蛋白质组和代谢组数据分析中的 RT 对齐。
DeepRTAlign 结合了粗对齐(伪扭曲函数)和基于深度学习的模型(直接匹配),可以处理单调移位和非单调移位。
图:DeepRTAlign算法图解。(来源:论文)
研究人员证明 DeepRTAlign 可以在不影响量化精度的情况下比对更多相应特征,从而优于其他现有比对工具,并确定了其在多个蛋白质组学和代谢组学数据集上的通用性边界。
与现有的流行工具相比,该工具已经在几个蛋白质组学和代谢组学数据集中证明了其高准确性和敏感性。此外,DeepRTAlign 使科学家能够直接准确地将 MS 特征应用于下游生物分析,例如生物标志物发现或预后预测,这可以补充传统的基于 identification(ID)的方法。
DeepRTAlign 灵活且稳健,具有不同的特征提取工具,可以帮助研究人员获得准确且可重复的研究数据。同时,由于理论上对齐对量化的影响小于特征提取,该团队将在未来的工作中尝试通过同时优化特征提取和特征对齐来提高量化精度。
研究人员将 DeepRTAlign 应用于 HCC 早期复发预测作为真实实验的示例。结果表明,与肽和蛋白质相比,对齐的 MS 特征具有更有效的信息。DeepRTAlign 预计将有助于寻找低丰度的生物标志物(这些生物标志物通常只有低质量的 MS/MS 谱图),并且可能在蛋白质组学驱动的精准医学中发挥关键作用。
论文链接:https://www.nature.com/articles/s41467-023-43909-5
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.