当前位置:首页 >> 生物学 >>

统计方法在生物信息学“精细定位”(fine-mapping)中的应用


【生物大数据】统计方法在生物信息学“精细定位” (fine-mapping)中的应用
之前我们发过一篇文章,文章中说如何寻找与某个疾病相关的遗传信息,简单复习一下: 我们每个人所带的基因是差不多的,之所以有的人卷发,有的人直发,有这么丰富多彩的变化,就是因为一些基因 发生了改变。 目前,科学家已经对糖尿病、冠心病、肺癌、前列腺癌、肥胖、精神病等多种复杂疾病进行了 GWAS 分析,并找 到了疾病相关的多个易感位点。 携带某种基因易感位点的人,就会有很大概率换上某种疾病。 我们通过全基因组关联分析(GWAS)找出来与某个疾病关联最大的基因位点集合(SNP 或说 variant),GWAS 分析的思想如下:

原文请戳这里:?【数说·大数据圈】机器学习在生物大数据应用的一个例子 到这里,其实并没有结束,最终找出来的若干基因易感位点(我们不妨称为易感 SNP 集合,每一个位点,简单理 解为一个 SNP 吧),是一个集合,里面包含了可能不止一个易感位点。它们都是在统计意义上的显著,是有一定 犯错概率的,也没有经过生物学的证实。 本文要说的精细定位, 就是要进一步缩减候选的基因易感位点, 排除掉一些“假”的位点。 精细定位, 叫做 fine-mapping。

必备前提 在做 fine-mapping 之前,有三个前提一定要具备: 第一,区域中所有的 common SNP 都已经被 genotyped 或者 imputed。这个前提是为了确保真正致病的那个 SNP 已经包含在这“若干基因易感位点”之中了。 第二,已经做过严格的 quality control。 第三,大样本,确保提供足够的 power。 满 足必备前提之后,我们进行 fine-mapping,分成两部分,statistical fine-mapping 和 functional fine-mapping。 本文的重点是 statistical fine-mapping,简单介绍一下统计方法在 fine-mapping 中的应用。

statistical fine-mapping 这一部分是本文的重点。 在此步骤中,我们对 GWAS 中选出来的易感 SNP 集合进行统计分析,比较、排序其中 SNP 的重要次序,甚至删 除掉一些不重要的 SNP,缩小易感 SNP 集合的范围。 大概有三种方法,一一列举如下: 方法 1:conditional regression

我们在回归模型中,将最显著的那个 SNP 作为协变量进行控制,看其他 SNP 对疾病的影响是否还显著。选出 P 值 最显著的几个易感 SNP(P 值通常要小于 10 的-8 次方,因为要校正,所以视 SNP 的数量决定,参考?浅议 P 值 校正),缩小范围,精细定位。

我们可以在 plink 中利用命令:

plink -bfilemydata --linear --condition covariateSNP 来实现。

下面是一个例子, "Fine mapping analysis of HLA-DP/DQ gene clusterson chromosome 6 reveals multiple susceptibility loci for HBV infection"

这篇文献中,作者想要看一下前人发现的,HLA-DP/DQ 这两个基因簇与乙型肝炎(HBV)的显著关系,是否可以 再具体定位到某个 SNP 或者 block 中。

注:染色体、基因、block 和 SNP 这四者大致是什么关系?

(不专业的比喻,帮助理解一下,勿喷哈~)

如果把 SNP 看做是一个具体的房子或者建筑物,那么 block 就是一片小区,基因大概就是一个城市,染色体差不 多是一个省了。

其中就使用到了 conditional regression 的方法

垂直轴代表作为协变量的基因簇,水平轴代表需要 detected 的基因簇。白色代表显著,灰色代表不显著:

HBV = HLA-DP + (HLA-DQ + other covariates)

HBV = HLA-DQ + (HLA-DP + other covariates)

从两个白色区域可以看出,HLA-DP 和 HLA-DQ 都是显著的,因此,作者的第一个结论是:

之前发现的 HLA-DP 和 HLA-DQ 两个基因簇对乙型肝炎的显著影响,是相互独立的。

此外,作者又对 HLA-DP 上的三个 block 做了 conditional regression:

block 3 位于 HLA-DPA1,block 5 位于 HLA-DPB1,block 4 位于 HLA-DPA1 和 HLA-DPB1 的 overlap 区域。

block block 3

location
in HLA-DPA1

in HLA-DPA1/B1 overlapping

block 4
region

in HLA-DPB1

block 5

首先以 block 3 作为 covariate,看其他两个是否显著:

HBV = block 4 + ( block 3 + other covariates)

HBV = block 5 + ( block 3 + other covariates)

发现都是显著的;

其次以 block 4 作为 covariate,

HBV = block 3 + ( block 4 + other covariates)

HBV = block 5 + ( block 4 + other covariates)

发现 block 5 是显著的;

最后以 block 5 作为 covariate,

HBV = block 3 + ( block 3 + other covariates)

HBV = block 4 + ( block 3 + other covariates)

发现都不显著。

因此,作者的第二个结论:

HLA-DPB1 上的 block 5,是该区域中对 HBV 作用最显著的易感位点。

方法 2: Bayesian posterior probability

P 值判断的方法有几个缺点,因为每一个 P 值的计算都受到样本量、MAF(Minor Allele Frequency)等因素的影 响,每个研究的样本量不一样,不同研究的 P 值之间不好直接比较,而 Bayesian posterior probability 可以很好的 回避这些问题。

对某区域上的每个 SNP,计算一个 pp(posterior probability)。

选出的易感 SNP 集合,其所有的 pp 之和等于 99%,也即丢弃掉的 SNP,其 PP 之和为 1%。

该方法可以使用一个叫 BIMBAM 的程序来实现。

比如,

"Bayesian refinement of association signals for 14 loci in 3 common diseases"

这篇文献就使用该方法对三种疾病进行 fine-mapping。感兴趣的可以自己看一下,这里只展示一张图:

图中黄色和紫色的点点, 就是 99%的易感 SNP 集合, 它们的 PP 加起来为 99%。 其中, 黄色的点点, 是 95%集合, 它们加起来为 95%。

方法 3:High LD with lead SNP

这个方法很简单,就是选出 GWAS 中,与最最显著的 SNP 高 LD 的 SNP,作为缩小的易感 SNP 集合。

以上三种方法的适用情形, 是我们有原始的 genotype 数据, 如果没有呢?我们可以尝试只用 summary association statistical 信息。

方法 4:Summary association statistics

没有原始的 genotype 数据,我们可以利用一些 summary 的信息,典型的方法有 CAVIAR、PAINTOR 等。

CAVIAR 方法的流程如下图所示:

PAINTOR 方法也是只利用 summary 的统计量和成对的相关系数矩阵来完成。

functional fine-mapping

functional 的 fine-mapping 主要是对 SNP 做一些功能阐述。用到的数据库有 ANNOVAR、VEP、HaploReg 等,不 多说了。

Summary

最后总结一下整个流程:

参考资料:

Strategies for fine-mapping complex traits,Sarah L.,2015

Fine mapping analysis of HLA-DP/DQ gene clusters on chromosome 6 reveals multiple susceptibility loci for HBV infection, Jingjing Tao, 2015

Bayesian refinement of association signals for 14 loci in 3 common diseases, Julian B Maller, 2012


赞助商链接
相关文章:
生物信息学的内容及发展
一、 生物信息学的定义与定位生物信息学(Bioinformatics)是在生命科学的研究中,...这包括了从应用数学、 计算机科学以及统计学等学科衍生而来各种方法,并以此 在大...
浅谈生物信息学在生物学研究中的应用
浅谈生物信息学在生物学研究中的应用_生物学_自然科学...核苷酸序列信息分析、基因定位、新基因的发现和鉴定等...因此,进行二级结构预测需要通过统计和分析发现这些倾向...
生物信息学在生命科学研究中的应用
生物信息学在生命科学研究中的应用摘要: 生物信息学是当今生命科学的重要组成部分, 它已经成为生命科学研究的前沿领域之 一。 它可以方便快捷地处理在生命科学研究中...
生物信息学在蛋白质结构与功能预测中的应用
生物信息学在蛋白质结构与功能预测中的应用_生物学_自然科学_专业资料。简介生物...Chou-Fasman 方法对已知晶体 结构做精细研究后, 统计出 20 种氨基酸在不同二级...
生物信息学及应用复习题
生物信息学应用复习题_教育学_高等教育_教育专区。...(4)统计模型:如隐马尔可夫模型(hidden Markov model...亚细胞定位 (2)序列数据库搜索 相似性搜索,模体的...
生物信息学复习资料
中的各种生物信息,或者也可以说成是生命科 学中的...如果我们试图做蛋白质亚细胞定位分析, 应使用 ()。...目前应用于基因芯片表达数据统计分析的主要方法()...
生物信息学基础
(英国)Human Genome Mapping Project Resource Centre...生命科学中的计算机应用? (Computer Applications in ...2002. 生物信息学方法与实践. 北京: 科学出版社. ...
生物信息学在医学领域的应用前沿
主要定位于人 6 号染色体,该基因定位于细胞质中,MTT 结果显 示该基因能明显...2.3 生物信息学在药物研发中的应用 传统的药物研发方法具有耗时长、成本高等缺...
生物信息学期末考试答案
的全长 cDNA,在此基础上也能够实现基因作图定位。 ...2、举例说明生物信息学的主要应用? 答: a. 获取...研究对象分为相对同质的群组(clusters)的统计分析技...
生物信息学总结
信息科学中的理论和方法,以计算机为工具对生物学...(Draft) 需要几年的时间 得到精细图谱 第七章 ...100% 氨基酸对(二肽)含量统计:残基 i 和残基 j...
更多相关标签: