前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何在Windows电脑上使用LDSC软件(3) ------ LDSC实操与结果解读

如何在Windows电脑上使用LDSC软件(3) ------ LDSC实操与结果解读

作者头像
生信与临床
发布2022-08-21 17:43:12
2.8K3
发布2022-08-21 17:43:12
举报

前两期的内容带大家学习了如何在windows系统上安装Linux子系统以及LDSC的安装,今天我将带大家正式开展LDSC分析并解读相关结果。

LDSC分析主要由两部分组成:

(1)数据格式整理,主要使用munge_sumstats.py模块;

(2)基于单核苷酸多态性(SNP)的可遗传度(heritability)与遗传关联度分析(genetic correlation),主要使用ldsc.py模块。

在使用汇总数据(GWAS summary statistics)进行分析之前,我们需要下载好相关数据:

首先下载GWAS summary文件,这里使用bipolar disorder和schizophrenia这两个表型的GWAS数据,相关文献请参考PMID:

代码语言:javascript
复制
wget -O pgc.bip.full.2012-04.txt.gz https://figshare.com/ndownloader/files/28169301 # PMID: 21926972
gunzip pgc.bip.full.2012-04.txt.gz # 解压缩文件
wget -O pgc.scz.2012-04.zip https://figshare.com/ndownloader/files/28169736 # PMID: 21926974
unzip pgc.scz.2012-04.zip # 解压缩文件

需要注意的是,.zip文件解压缩后有3个文件,我们主要使用“pgc.scz.full.2012-04.txt”这个文件。

代码语言:javascript
复制
wget https://data.broadinstitute.org/alkesgroup/LDSCORE/w_hm3.snplist.bz2
tar -jxvf w_hm3.snplist.bz2 # SNP数据
wget https://data.broadinstitute.org/alkesgroup/LDSCORE/eur_w_ld_chr.tar.bz2
tar -jxvfeur_w_ld_chr.tar.bz2 # LD信息

把如上数据准备好之后,我们就可以开始分析了。

分析之前,咱们先看一下GWAS summary数据的格式:

代码语言:javascript
复制
head pgc.bip.full.2012-04.txt
代码语言:javascript
复制
head pgc.scz.full.2012-04.txt

LDSC的输入文件必须具备如下信息:唯一的SNP标识(比如rsID);效应等位基因(effect allele);非效应等位基因(non-effect allele);样本量(不同的SNP可能具有不同的样本量,尤其是来自meta分析的GWAS数据);SNP的P值;SNP的效应统计量(比如beta值,OR值或者Z值)。在示例文件中,snpid就是rsID,a1就是效应等位基因,a2就是非效应等位基因,or就是效应统计量(OR值),这里没有样本量这一列,通过查阅文献可知bipolar的样本量是11810. 而schizophrenia的样本量是17115。

第一步,数据格式整理,代码如下:

代码语言:javascript
复制
./munge_sumstats.py \
--sumstats pgc.bip.full.2012-04.txt \
--N 11810 \
--out bip \
--merge-alleles w_hm3.snplist

./munge_sumstats.py \
--sumstats pgc.scz.full.2012-04.txt \
--N 17115 \
--out scz \
--merge-alleles w_hm3.snplist

完成如上的两行python代码后,我们会得到bip.sumstats.gz和scz.sumstats.gz这两个文件,接下来进行可遗传度和遗传关联度的分析:

代码语言:javascript
复制
./ldsc.py \
--rg scz.sumstats.gz,bip.sumstats.gz \
--ref-ld-chr eur_w_ld_chr/ \
--w-ld-chr eur_w_ld_chr/ \
--out scz_bip

具体结果如下图所示:

从上图可以看出schizophrenia的可遗传度是0.7063,bipolar是0.6327,整体来看是挺高的,两者的遗传关联度是0.6903,说明两个表型密切相关(正相关)。

以上就是关于使用LDSC计算可遗传度与遗传关联度的讲解,希望能给大家带来帮助。

本文参与?腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-05-06,如有侵权请联系?cloudcommunity@tencent.com 删除

本文分享自 生信与临床 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com