撰文 | 存中一贯
全基因组关联研究(Genome-wide association studies,GWAS)阐明了复杂性状的遗传结构,促进了疾病风险预测,建立了性状之间的因果关系,以及鉴定了潜在的治疗靶点【1-3】。然而,从已发表的结果来看,许多这样的见解并不明显,还需要下游的详细分析来进行阐释【4】。GWAS的下游分析主要来源于四种资源:一是全套GWAS汇总数据,包括p值、等位基因频率、效果大小以及每个变体的标准差等信息,这些数据能从一些公共数据库获得;二是基因注解,包括基因组、表观遗传组、转录组、蛋白组、蛋白相互作用以及信号通路数据等;三是一些生物信息学分析方法总结了GWAS汇总数据和基因注解,总结的数据上传到相关数据平台;四是一些基因专家从文献中提取相关知识进行手工整理【5】。
大约从2015年开始,一项关注2型糖尿病的大型专业数据库开始建立,此数据库为T2DKP(Type 2 Diabetes Knowledge Portal)。这个数据库旨在解决现有数据库的两个不足之处,一是一些疾病数据库因为范围太窄而影响其使用;二是一些数据的分析必须要联合多个数据库资源才能完成【6】。T2DKP通过聚集和整合多种类型的数据和方法来解决这些问题,但同时仅仅关注于2型糖尿病这一种疾病。
近日,来自美国博德研究所的Jason Flannick和Noel P. Burtt团队在Cell Metabolism杂志上发表了他们最新的成果,他们以The Type 2 Diabetes Knowledge Portal: An open access genetic resource dedicated to type 2 diabetes and related traits为题,对2型糖尿病大型数据库的应用做了详细的阐述,分别为非遗传学家和遗传学家应用此数据库提出了简易的操作规程。
T2DKP包含基因相关性汇总数据、基因组注解、生物信息学分析结果、T2D和相关性状的专业分析知识、血糖和人体数据以及代谢组等。数据的范围是由AMP-T2D(Accelerating Medicines Partnership in T2D)联盟确定的,其中包括学术界、制药工业界、政府以及非营利组织的相关专家。T2DKP的网站界面包含了一组“核心页面”,用于基因、变体以及其他感兴趣内容的查询,同时,它还未专家用户提供了一些复杂的应用工具。在T2DKP的运行过程中,它的数据一直处于不断扩增中,这给数据库的使用带来了一些困难。
T2DKP数据库分析
至2022年10月,T2DKP数据库已经包含了382个GWAS汇总数据,每一个都包含至少一个性状的相关结果。它能从公开的T2D和相关性状汇总统计数据中提取综合关联资源,并进行分析,比所有其他数据库包含的数据更多。
T2DKP数据库中关于基因的注解已经增加到5418条,其中304条是T2DKP独有的。另外,T2DKP的大部分注释(5073条)描述了相关基因的顺式调控元件,数据来自ATAC-seq、DNase-seq、ChIP-seq等,而剩下的345条记录则来自单细胞数据检测。这些数据储存在T2DKP的一个关联数据库CMDGA(Common Metabolic Diseases Genome Atlas)中。
目前,登录T2DKP系统的人中,49.3%的人仅关注核心页面,比如“变体”“基因”“表型”等,而48.8%的人则进入信息页面,仅仅3.9%的人使用了复杂工具。与之类似,全部94条对T2DKP的引用中,81(86.2%)个引用仅使用了T2DKP核心页面的简单信息。以上数据表明,非遗传性专家可能仅仅关注T2DKP的核心页面,并且并没有真正意识到怎么去分析或者解释T2DKP中的数据;对于那些经常使用T2DKP的研究人员来说,他们可能没有意识到T2DKP中一些复杂工具的作用,也可能是由于有些工具是最近才添加进去的。
对于非遗传学家,应用T2DKP查询感兴趣基因的功能是最有用的。在首页搜索相关基因,页面会转到“区域页面”,在此页面包含一个广泛现象相关研究(genome-wide association study, PheWAS),即具有全基因组显著关联的性状图。点击基因号可进入“基因页面”,PheWAS性状图显示了常见变体的基因层面相关性。“变体页面”还列出了基因附近每个变体相关性的来源。除此之外,使用者还能通过“预测效应基因”(Predicted Effector Genes)来预测与T2D或者相关性状存在最强联系的基因列表。
对于遗传学家,下面几种较为复杂的工具是他们可以使用的。一是分析多个性状之间的相关性,在“变体”页面,通过信号筛选可以从设定的性状中确定相关性,与之类似,通过“Gene Finder”能够筛选性状相关的基因名。T2DKP的第二个高级应用是探索GWAS关联的变体、细胞类型、调控元件和因果基因。第三个高级应用工具命名为GAIT(Genetic Association Interactive Tool),它能对编码变体的自定义集合进行关联分析,或者是通过细化关联信号,确定最重要的变体。T2DKP还有一些其他的应用,后续也会继续开发深入的应用工具。
总之,本文简单介绍了2型糖尿病数据库T2DKP的构成以及应用说明,对于2型糖尿病的研究人员具有非常重要的意义,值得相关科研人员学习利用此数据库。
https://doi.org/10.1016/j.cmet.2023.03.001
制版人:十一
参考文献
1. Claussnitzer, M., Cho, J.H., Collins, R., Cox, N.J., Dermitzakis, E.T., Hurles, M.E., Kathiresan, S., Kenny, E.E., Lindgren, C.M., MacArthur, D.G., et al. (2020). A brief history of human disease genetics.Nature577, 179–189.
2. Zhang, Y., Qi, G., Park, J.H., and Chatterjee, N. (2018). Estimation of complex effect-size distributions using summary-level statistics from genome-wide association studies across 32 complex traits.Nat. Genet.50, 1318–1326.
3. Vilhja´ lmsson, B.J., Yang, J., Finucane, H.K., Gusev, A., Lindstro¨ m, S., Ripke, S., Genovese, G., Loh, P.R., Bhatia, G., Do, R., et al. (2015). Modeling linkage disequilibrium increases accuracy of polygenic risk scores.Am. J. Hum. Genet.97, 576–592.
4. Pasaniuc, B., and Price, A.L. (2017). Dissecting the genetics of complex traits using summary association statistics.Nat. Rev. Genet.18, 117–127.
5. Wei, C.H., Kao, H.Y., and Lu, Z. (2013). PubTator: a web-based text mining tool for assisting biocuration.Nucleic Acids Res.41, W518–W522.
6. Grotz, A.K., Gloyn, A.L., and Thomsen, S.K. (2017). Prioritising causal genes at Type 2 diabetes risk loci.Curr. Diab. Rep.17, 76.
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.