不一样的遗传变异数据库|PGG.SNV

大家好,今天为大家解读一篇去年10月发表在Genome Biology上的一篇数据库文章[PGG.SNV:understanding the evolutionary and medical implications of human single nucleotide variations in diverse populations, IF=14.028]。为了从群体遗传学和分子进化的角度理解遗传变异的含义,作者开发了一个数据库PGG.SNV (https://www.pggsnv.org),它提供了对全球数百个不同群体遗传多样性和进化参数的估计,并且该数据库对以前调查不足的亚洲土著人群给予了更高的权重。
 
PGG.SNV:了解人类单核苷酸变异在不同人群中的进化和医学意义
 
数据库特点
PGG.SNV为不同的人类群体提供参考基因组资源,特别是那些来自亚洲土著的群体。PGG.SNV拥有一套全面的遗传变异和注释目录,能够研究在经过充分论证的群体中罕见或不存在的变异,并提供不同群体中变异的群体患病率,几乎没有祖先偏见,并进一步指导孟德尔遗传疾病图谱研究。PGG.SNV记录了许多古代基因组,并将它们与当代人类基因组进行比较,使研究人员能够了解遗传变异的进化轨迹以及基因流动。此外,这个数据库改善了孟德尔疾病的假定致病位点的解释、种群分化分析以及全球人口对当地环境的适应。
 
数据收集
为了改进对人类遗传多样性的研究,作者从不同的人类群体中收集了基因组数据。新生成的全基因组测序数据(来自16个亚洲民族的1009个基因组)由AAGC进行测序;同时,对不同东亚和东南亚人群的基因变异进行了测序或基因分型;收集了相应的基因组数据集(如千人基因组计划)和等位基因频率数据(如GnomADESP);另外还收集了古人基因组,涵盖了人类进化史上的基因组多样性图谱。
人群与祖先分配
将样本量极大、样本点清晰的种群分为不同的亚群,如汉族基因组中的汉族人,先前的研究已经显示了其亚结构。每个种群被进一步划分为以下8个地理类群,其祖先来自该类群所在的大陆:非洲、美洲、中亚等。古代基因组基于时间和地理的群体分配有助于追踪历史上等位基因频率的波动,从而了解特定变异的遗传起源。所有人口及其祖先信息可以从PGG.SNV网站上用户指南部分获得。
 
注释
作者使用变异效应预测因子来估计变异效应和保守评分。根据相应人群的基因型计数,计算各人群变异的人群患病率。按照Weir和Cockerham的方法衡量每对人群之间的群体分化。使用SelScan来分析自然选择,利用VCFtools实时计算基因组多样性和连锁不平衡。对于个体水平上没有可用基因型的测序数据集,如gnomAD数据集,PGG.SNV不能进行自然选择、基因组多样性和连锁不平衡的分析。
 
孟德尔遗传病变异的人群患病率分析
与孟德尔疾病相关的变异是从ClinVar获得的,其中变异根据ACMG/AMP标准将疾病的严重程度分为五类:(1)致病性,(2)可能致病性,(3)不确定的重要性,(4)可能良性和(5)良性。由于所关注的是孟德尔遗传疾病,这些疾病变异可能比其他变异有更严重的影响,它们在人类中的出现频率相对较低,而且通常在人群中不会高度分化。作者观察了PGG.SNV数据库中疾病变异的等位基因频率分布,观察到频率最高的5%在0.1左右。因此,将频率分化大于0.1的变异定义为群体间或者祖先间差异较大的变异。
不同群体的综合遗传多样性和变异注释
PGG.SNV目前由220147个现代人类基因组组成,包括852个不同的遗传祖先(非洲、美洲、亚洲、西伯利亚等)(图A)。与其他数据集相比,PGG.SNV记录了更多的基因组(图B),并代表了全球人口更全面的基因组多样性(图C)。PGG.SNV包括来自16个民族的1009个新产生的全基因组序列,特别是生活在东亚和东南亚的许多土著群体,他们的基因组以前没有测序过。除了现代的人类种群,该数据库还整合了1018个古代基因组,这些基因组在其他现有的数据库中很少被提及。
PGG.SNV储存了2.65亿SNV,根据许多方面对每个变异进行了注释,包括(1)基本信息和变异浏览器,(2)群体患病率或等位基因频率,(3)古代和古代的频率,(4)变异效应注释,(5)结果预测,(6)群体分化,(7)自然选择信号,(8)基因组多样性,(9)连锁不平衡(下表)。注释(1)和(4)提供了每个变异的基因组位置、变异类型和基因含量等信息。注释(2)提供了现代群体中变异的群体患病率,这有益于群体中罕见或不存在变异的相关研究。注释(3)提供了古代群体中变异的种群患病率,有助于理解遗传变异的进化轨迹及基因流动。注释(6)、(7)和(8)能够检测人类基因组中遗留的(物种内)遗传信息。注释(5)使用不同的算法,如CADD和GERP,主要基于物种之间的保守信息,来预测每个变异的功能结果。注释(9)提供了给定变异与其周围位点之间的遗传联系,这可能会改进对表型-基因型关联研究的解释。
数据库引导
PGG.SNV不仅支持数据可访问性,而且还支持结果可视化。通过物理位置或RSID搜索遗传变异,如果相应的变异已包含在数据库中,PGG.SNV当前将返回相应变异的9个注释。通过基因组区域、官方基因符号或Ensembl基因名称的查询,该网站返回所有符合要求的变异,用户可以进一步选择一个来可视化注释网络。每种类型的注释图都附带有交互式网站元素(如鼠标悬停和滚轮滚动)的图表或表格来说明结果(图A)。例如,在rs186996510的“人口患病率注释”部分中,PGG.SNV最初返回一个交互式图(图B),在全球地图上绘制每个人群的等位基因频率饼图,其中地理位置代表相应人群的切片位置。通过将鼠标悬停在每个切片上,用户可以获得该切片所表示的总体的详细信息,例如人口名称、血统和样本大小(图B阴影框中的文本)。通过滚动鼠标,用户可以放大和缩小,以调整分辨率。
此外,用户可以定制在返回的结果中显示的特定数据集、祖先或种群,并且可以将结果模式从图切换到表以获得txt等文件格式的结果。除了人群患病率外,该网站还总结了指定数据集中衍生等位基因的患病率模式(图D),此功能区分了不同数据集之间的等位基因频率差异,从而有助于在分析等位基因患病率时理解数据集偏差。比如说,在图D中,AAGC数据集中的衍生等位基因G频率7.6%)高于其他数据集(<2.0%),因为AAGC包含更多的东亚人口。PGG.SNV还嵌入了一个基于网络的工具(https://www.pggsnv.org/tools.html),便于用户上传自己的分析后生成图形。
孟德尔遗传性疾病变异在人群中的普遍性
PGG.SNV包含来自不同祖先的不同群体的大量遗传变异,以研究孟德尔遗传疾病变异在整个人类中的稀缺性和评估其在不同种族群体中的患病率。作者基于PGG.SNV系统评估了孟德尔遗传性疾病相关等位基因(DAA)的人群患病率,结果显示,尽管ClinVar中的大多数DAA很少见(图A),但根据PGG.SNV收集的所有基因组的等位基因频谱,这些变异中有7.0%的人的等位基因频率大于0.05(图B),这意味着在人类进化史上,由这些变异引起的表型对适合度的影响很小,变异越严重,致病等位基因就越罕见。
孟德尔遗传病变异的群体分化
作者调查了DAA的频率是否在不同的群体或祖先之间有所不同。根据所识别的大量变异显示了种族之间的差异,大量的孟德尔遗传病变异虽然频率很小(包括致病或有害的变异),但在人群和祖先中存在差异,反映了健康差异在人类群体和祖先中广泛存在,这种模式很可能是由复杂的人口历史以及早期人类或其后代在人口分化后经历的局部适应引起的。因此,在绘制孟德尔遗传病的致病变异图谱时,侧重点应该在于那些不同遗传背景的人群和家系上。
文献解读

文献解读:LncRNA的m6A修饰调控ceRNA机制

2020-3-26 20:52:17

文献解读

文献解读:NSCLC T细胞综合分析

2020-3-29 8:10:44

声明 本网站部分文章源于互联网,出于传递更多信息和学习之目的转载,并不保证内容正确或赞同其观点。
如转载稿涉及失效、版权等问题,请立即联系管理员;我们会予以修改、删除相关文章,请留言反馈
Notice: When your legal rights are being violated, please send an email to: [email protected]
搜索