ngsLD:一个快速计算LD 软件

ngsLD 文献

由于不同基因座的某些等位基因经常连锁在一起遗传,而连锁的基因并非完全随机地组成单倍型,有些基因总是较多地在一起出现,导致使某些单倍型在群体中出现的频率较高,从而引起连锁不平衡。连锁不平衡(LD)可以测量遗传基因座之间的相关性,对于关联作图和群体遗传非常有用。由于许多研究依赖于所谓的基因型来估计LD,因此其结果可能会受到数据不确定性的影响,尤其是在采用低覆盖测序。ngsLD与基于基因型调用的方法相比,可直接从测序数据中获得的全部信息,并提供了不同的连锁不平衡表示模式。

安装依赖环境

  • 强制性
    • gcc: >= 4.9.2 tested on Debian 7.8
    • zlib: v1.2.7 tested on Debian 7.8
    • gsl : v1.15 tested on Debian 7.8
  • 可选
    • md5sum
    • Perl packages: Getopt::Long, Graph::Easy, Math::BigFloat, and IO::Zlib
    • R packages: optparse, tools, ggplot2, reshape2, plyr, gtools, and LDheatmap

下载&安装

% git clone https://github.com/fgvieira/ngsLD.git
% cd ngsLD
% make
% make test

像我们这种不能连接外网的服务器就麻烦一点了,要先下载到本地电脑再上传至服务器解压后make

运行

这个软件运行起来很简单,就一行代码

% ./ngsLD [options] --geno glf/in/file --n_ind INT --n_sites INT --out output/file

准备一下输入文件 –geno glf/in/file

第一列为marker 的header(这里是用染色体_位置的形式)
第二列往后为基因型信息,一个个体一列

  • -1:缺失
  • 0:跟reference基因型一致
  • 1:杂合
  • 2:跟alternative基因型一致

准备一下输入文件 –pos FILE

输入文件

第一列为染色体
第二列为位置


接下来就是运行了

基因型文件要先压缩

gzip Chr1.gene.vcf.ngsLD
ngsLD --geno Chr1.gene.vcf.ngsLD.gz --pos Chr1.gene.pos --n_ind 350 --n_sites 2370 --max_kb_dist 2000 --n_threads 30 --out Chr1.gene.vcf.ngsLD.LDresults

当时运行的时候,在这个地方折腾半天,很奇怪文件形式没有错,程序也没有错,但是就是有个报错存在

后来才发现,原来我的程序传到windos过,里面的换行符发生改变,这个软件只能用linux换行符,所以如果你的文件时在windos处理过,那dos和linux就需要先转化一下了

dos2unix Chr1.gene.vcf.ngsLD
gzip Chr1.gene.vcf.ngsLD
ngsLD --geno Chr1.gene.vcf.ngsLD.gz --pos Chr1.gene.pos --n_ind 350 --n_sites 2370 --max_kb_dist 2000 --n_threads 30 --out Chr1.gene.vcf.ngsLD.LDresults

输出文件只有一个

  • 第一列和第二列是两个marker的ID
  • 第三列是两个marker之间的距离
  • 第四列:r^2 from pearson correlation between expected genotypes
  • 第五列:D from EM algorithm
  • 第六列:D’ from EM algorithm
  • 第七列: r^2 from EM algorithm

另外再给大家推荐几个计算LD的软件

  • Plink(快速、高效、目前较常用)http://www.cog-genomics.org/plink/2.0/
  • Haploview (windows版本,可操作性强,不过计算速度很慢,适合marker数少的时候)https://www.broadinstitute.org/haploview/haploview
  • PopLDdecay(支持直接读取 VCF 格式的文件,跟plink比不用进行格式转化)https://github.com/BGI-shenzhen/PopLDdecay
  • Arlequinhttp://cmpg.unibe.ch/software/arlequin35/
  • GCTA-LDShttps://cnsgenomics.com/software/gcta/#ComputingLDscores
工具介绍

最出名的TCGA表达相关数据库GEPIA2介绍

2020-4-29 15:05:14

工具介绍

最出名的TCGA表达相关数据库GEPIA2介绍(二)

2020-4-30 1:31:19

声明 本网站部分文章源于互联网,出于传递更多信息和学习之目的转载,并不保证内容正确或赞同其观点。
如转载稿涉及失效、版权等问题,请立即联系管理员;我们会予以修改、删除相关文章,请留言反馈
Notice: When your legal rights are being violated, please send an email to: [email protected]
搜索