前两期的内容带大家学习了如何在windows系统上安装Linux子系统以及LDSC的安装,今天我将带大家正式开展LDSC分析并解读相关结果。
LDSC分析主要由两部分组成:
(1)数据格式整理,主要使用munge_sumstats.py模块;
(2)基于单核苷酸多态性(SNP)的可遗传度(heritability)与遗传关联度分析(genetic correlation),主要使用ldsc.py模块。
在使用汇总数据(GWAS summary statistics)进行分析之前,我们需要下载好相关数据:
首先下载GWAS summary文件,这里使用bipolar disorder和schizophrenia这两个表型的GWAS数据,相关文献请参考PMID:
wget -O pgc.bip.full.2012-04.txt.gz https://figshare.com/ndownloader/files/28169301 # PMID: 21926972
gunzip pgc.bip.full.2012-04.txt.gz # 解压缩文件
wget -O pgc.scz.2012-04.zip https://figshare.com/ndownloader/files/28169736 # PMID: 21926974
unzip pgc.scz.2012-04.zip # 解压缩文件
需要注意的是,.zip文件解压缩后有3个文件,我们主要使用“pgc.scz.full.2012-04.txt”这个文件。
wget https://data.broadinstitute.org/alkesgroup/LDSCORE/w_hm3.snplist.bz2
tar -jxvf w_hm3.snplist.bz2 # SNP数据
wget https://data.broadinstitute.org/alkesgroup/LDSCORE/eur_w_ld_chr.tar.bz2
tar -jxvfeur_w_ld_chr.tar.bz2 # LD信息
把如上数据准备好之后,我们就可以开始分析了。
分析之前,咱们先看一下GWAS summary数据的格式:
head pgc.bip.full.2012-04.txt
head pgc.scz.full.2012-04.txt
LDSC的输入文件必须具备如下信息:唯一的SNP标识(比如rsID);效应等位基因(effect allele);非效应等位基因(non-effect allele);样本量(不同的SNP可能具有不同的样本量,尤其是来自meta分析的GWAS数据);SNP的P值;SNP的效应统计量(比如beta值,OR值或者Z值)。在示例文件中,snpid就是rsID,a1就是效应等位基因,a2就是非效应等位基因,or就是效应统计量(OR值),这里没有样本量这一列,通过查阅文献可知bipolar的样本量是11810. 而schizophrenia的样本量是17115。
第一步,数据格式整理,代码如下:
./munge_sumstats.py \
--sumstats pgc.bip.full.2012-04.txt \
--N 11810 \
--out bip \
--merge-alleles w_hm3.snplist
./munge_sumstats.py \
--sumstats pgc.scz.full.2012-04.txt \
--N 17115 \
--out scz \
--merge-alleles w_hm3.snplist
完成如上的两行python代码后,我们会得到bip.sumstats.gz和scz.sumstats.gz这两个文件,接下来进行可遗传度和遗传关联度的分析:
./ldsc.py \
--rg scz.sumstats.gz,bip.sumstats.gz \
--ref-ld-chr eur_w_ld_chr/ \
--w-ld-chr eur_w_ld_chr/ \
--out scz_bip
具体结果如下图所示:
从上图可以看出schizophrenia的可遗传度是0.7063,bipolar是0.6327,整体来看是挺高的,两者的遗传关联度是0.6903,说明两个表型密切相关(正相关)。
以上就是关于使用LDSC计算可遗传度与遗传关联度的讲解,希望能给大家带来帮助。