当前位置:首页 >> 生物学 >>

基于全基因组snp数据如何进行主成分分析


1)全基因组 snp 数据格式为 .vcf 2)利用 vcftools 软件进行格式转换:vcftools --vcf tmp.vcf --plink --out tmp 此时会生成两个文件:tmp.ped 和 tmp.map 3) 利用 plink 软件进行数据格式转换: ./plink --noweb --file tmp --make-bed --out tmp 注意, 输入文件和输出文件都不需要文件名的后缀, 此时生成 3 个文件: tmp.bed, tmp.bim 和 tmp.fam 4)利用 gcta 软件进行 pca 构建 4.1 ./gcta --bfile tmp --make-grm --autosome --out tmp 此时生成一个文件:tmp.grm.gz 4.2 ./gcta --grm tmp --pca 3 --out pcatmp 此时生成两个文件:pcatmp.eigenval 和 pcatmp.eigenvec 5)将生成的 pcatmp.eigenvec 用文本编辑器打开,在最上面加入一行:1 2 pc1 pc2 pc3 (之间以空格隔开) ,保存 6)打开 R 软件 6.1 输入文件:a <- read.table("D:/pcatmp.eigenvec", header=TRUE) 6.2 绘 散 点 图 : plot(a$pc1,a$pc2, pch=c(1,2,3,4,5,6,7,8,9,10),

col=c(1,2,3,4,5,6,7,8,9,10) , main="pca",xlab="pc1",ylab="pc2") 6.3 添 加 图 例 : legend("bottomleft", pch=c(1,2,3,4,5,6,7,8,9,10),

c("CL","IN","GZ","DA","PP","YN","DX","JY","NP","SL"), col=c(1,2,3,4,5,6,7,8,9,10)) 文件 > 另存为 > Jpeg or Tiff

That's all, Game over. 再次向基因组-health (213256700)予以致谢!


赞助商链接
相关文章:
更多相关标签: