当前位置:首页 >> 生物学 >>

GWAS原理


全基因组关联分析(Genome-wide Association Study)是利用高通量基因分型技术,分 析数以万计的单核苷酸多态性(SNPs)以及这些 SNPs 与临床表型和可测性状的相关性。简 单地理解全基因组关联分析,GWAS 就是标记辅助选择在全基因组范围上的应用,在全基 因组层面上开展大样本的、多中心的、重复验证的技术,并对相关基因与复杂性状进行关联 研究,从而全面地揭示出不同复杂性状的遗传机制和基础。GWAS 是一项开创性的研究方 法,因为它可以在以前很难达到的分辨率水平上对成千上万无关样本的全基因组进行研究, 且不受与疾病有关的先验性假设的限制,GWAS 在全基因组范围、零假设性较候选基因研 究都迈出了重要的一步,而且随着高通量测序成本的降低,GWAS 在人类疾病以及畜禽经 济性状的研究上都表现出巨大的优势。

GWAS 的优势除了可以一次性检测到数以万计的 SNPs 信息, 从而提高试验效率以及检 验功效以外,其还有其他两个显著的优势,主要表现在: (1)对未知信息的基因进行定位探 索。传统的 QTL 定位仅仅限于对已知的候选基因进行分析探索,而 GWAS 是对全基因组的 范围内的所有位点进行关联分析, 因此其拥有更广泛的关联信息, 相比候选基因分析 GWAS 更有可能找到与性状真正关联的候选基因,因此不再受到预先假设的候选基因的限制。 (2) 对于 GWAS 在研究不同的复杂性状之前,不需要像以往的研究一样“盲目地”预设一些假定 条件,而是通过在病理和对照组中,有目的地比较全基因组范围内所有 SNPs 的等位基因频 率或者通过家系进行传递不平衡检验(TDT, Transmission disequilibrium test) ,从而找出与 复杂性状显著相关的序列变异。 到目前为止, 利用全基因组关联分析研究已经挖掘出众多与 各种复杂性状相关联的基因和染色体区域, 在这些被新鉴定出的位点和区域中, 只有小部分 结果位于以前对这些性状研究的区域之中或者附近,绝大多数位于以前从未被研究过的区 域,GWAS 的研究结果表明以前没有被纳入研究的未知区域有可能对于复杂性状也是十分

重要的, 这也是以往的研究水平所不能达到的。 全基因组关联分析为进一步研究复杂性状的 遗传机理提供了新的线索,为复杂性状的研究开辟了新的研究道路。

1、 全基因组关联分析 SNPs 分型及质量控制

1.1 基因分型过程

基因分型技术的发展在 GWAS 变成现实的过程中起着重要作用。现在上百万的遗传变 异可以在预先设计的寡核苷酸微阵列(Affymetrix 或 Illumina)中同时检测到。这些芯片多 数检测的是 SNPs, 同时有些芯片可以检测到拷贝数变异 (copy number variants, CNV) 。 DNA 基因分型产生一系列的杂交强度,这需要转变成实际的基因型,这个过程称为基因分型 (genotype calling) 。

1.2 分型 SNPs 的质量控制

质量控制是用于评价样本和基因分型芯片的基因型性能的操作。在试验中存在很多影 响因素,如 DNA 降解,加样错误或是芯片杂交失败等,因此在下一步基因型分析之前评价 试验性能是很重要的。同时,确定和排除那些很有可能确实或者错误分型的 SNPs 是十分重 要的。

对于某一个单个样本的质控标准主要包括: (1)样本检出率(sample call rate) ,是指对 于某个样本个体而言,通过测序并成功判型的 SNPs 与所有检测的 SNPs 的比值,通常的标 准应当在 80%或 90%以上。 (2)杂合型的程度(heterozygosity) ,这个标准过高即被排除, 因为过度的杂合说明样本可能被污染, 从而导致杂合基因型数目不相称。 通常的标准应当控 制在 23%-30%之间。

对于单核苷酸多态性的质量控制主要包括了: (1)SNP 检出率(SNP call rate) ,同样指 对于某一个 SNP 位点,被成功检测到的样本与所有样本的比值,一般要求在 90%以上。 (2) 较小等位基因频率(minor allele frequency,MAF) ,对于那些 MAF 较小的 SNPs,能得到的 信息量很少,而且目前 GWAS 对这些 SNP 的检验效能也不高。通常对于 MAF 的要求需要 在 3%以上。 (3)哈代-温伯格平衡(Hardy-Weinberg equilibrium,HWE)检验,HWE 可以 有助于确定那些有明显基因分型错误的 SNPs。 因此一般要求位点 SNP 的等位基因频率符合 哈代-温伯格平衡。

1.3 GWAS 结果多重检验校正

多重假设检验所引起的 I 型错误扩大和假阳性关联是全基因组关联分析研究面临的难 题之一。 多重假设检验的次数取决于待研究的基因组标记的数量, 而检验的效率又取决于多 重假设检验的次数。如今,有多种方法可以用来校正 GWAS 中多重检验后的 P 值,用来减 少假阳性的出现。

1.4 Bonferroni 校正法

即对于每个检验位点的校正阈值,将原本的显著性阈值(0.05)除以进行假设检验的次 数设定为校正后的显著性阈值,再与假设检验得到的每个位点的 P 值进行比较,如果小于 校正阈值,则可判断该位点与性状之间的关联存在显著性。这种校正方法是多重比较中对 P 值的调整最为严格和保守的一种方法, 虽然确保而且减低了假阳性的发生率, 但是过度的校 正反而容易导致加阴性的概率。

1.5 臵换检验法

臵换检验的核心思想就是数据重排(permutation) ,数据重排的观念最早是由 Fisher 和 Yates 在 1949 年提出的。该方法的主要有两种思路: (1)将分析样本的表型值固定,然后将 其基因型随机地进行打乱重排(一般保证在 10000 次左右) ,每次重排都可以计算得出一个 P 值,然后对所有的 P 值构建一个经验分布,并设定 5%处的 P 值为校正后的显著性阈值, 最后与实际关联分析得出的 P 值进行比较,若小于校正阈值,则说明与性状关联。 (2)将 分析样本的基因型值固定,对表型进行随机重排,后续工作与前者相同。

1.6 控制错误发现率法

控制错误发现率 (FDR,False discovery rate)法,即 FDR 法是由 Benjamini 和 Hochberg 提出的通过控制错误发现的概率对 P 值进行调整的方法。该方法与递减调整法有相似之处, 同样先将关联分析得到的所有 P 值从小到大进行排列,但最后乘以的系数有所改变,FDR 的加成系数是总检验次数即所有位点数除以该检验位点在从小到大排序的排位。 最后得到的 校正 P 值与显著性阈值 0.05 进行比较,若小于 0.05 则说明性状与该位点显著关联。

2 基因型数据

本研究中的 60 个无关个体的耳组织利用天根试剂盒进行 DNA 提取, 后均采用 Illumina 公司的 Porcine SNP 70K Beadchip(Illumina Inc., San Diego, CA)芯片进行 SNP 分型。利用 Illumina 公司提供的 BeadStudio 软件将测序的原始数据进行可视化处理并导出成文本格式文 件。 通过运用 R 语音程序编写对文件进行编译修改成满足 PLINK 软件包对 GWAS 分析所需 要的文件格式。 进一步通过 R 语言编辑成满足 ROADRTRIPS 在关联分析上需要的文件格式。

2.1 Illumina Porcine SNP 60K Beadchip

由 Illumina 公司和 Genseek 公司共同开发出来的 Porcine SNP 60K Beadchip 是在之前 Illumina 公司开发的 Porcine SNP 60K Beadchip 的基础上研发出来的,共有 64232 个标记。 。 这些位点主要包括了与猪的免疫,生长,肉质等性状相关联的 SNP 标记位点,并且标记在 各个染色体上的分布也相对均匀。

2.2 试验猪 DNA 样本提取

本研究所用的样品为 98 头香猪。

本试验采用试剂盒天根组织 DNA 提取试剂盒从血液提取基因组 DNA,具体步骤如下:

(1) 取 200ul 血液样本并装入一个洁净的 1.5ML 离心管中。

(2) 加入 250μl 缓冲液 GS,用眼科剪将样品组织均匀剪碎至糊状。

(3) 加入 25μl 蛋白酶 K 以及 250μl 缓冲液 GB,涡旋混匀。

(4) 放臵于 56℃水浴锅(或杂交炉) ,消化 3 -5 小时。消化结束时液体应清亮无絮状沉淀, 取出离心管。

(5) 向离心管中加入 200μl 无水乙醇,颠倒混匀,此时可能会出现絮状沉淀。

(6) 将离心管中液体倒入对应的吸附柱中,12000rpm 离心 1min,弃废液。

(7) 加 500μl 缓冲液 GD,12000rpm 离心 1min,弃废液。

(8) 加 700μl 漂洗液 PW,12000rpm 离心 1min,弃废液。

(9) 加 500μl 缓冲液 GD,12000rpm 离心 1min,弃废液。

(10) 空甩,12000 rpm,2 min。

(11) 开盖,将吸附柱转入新离心管中,弃去收集管,室温放臵 5-10 min,散尽酒精。

(12) 向吸附柱中间位臵悬空加入 50μl 在 56℃预热的洗脱液 TB,室温放臵 10min 或 4℃过 夜,使 TE 充分溶解 DNA 沉淀。

(13) 12000 rpm 离心 2min,弃去吸附柱,将溶液收集到离心管中,既得 DNA 溶液,用

NANODROP2000 紫外分光光度计和凝胶电泳检测提取质量。

(14) 将检测合格的基因组 DNA 放臵于 4℃保存或-20℃长期保存。

2.3 质量控制

借鉴以往对 Case-Control 试验设计以及对全基因组关联分析质量控制的方法, 在对基因 型数据与表型数据进行关联分析之前,对原始基因型的 64232 个 SNPs 数据进行质量控制。 参考今年来全基因组关联分析的质量控制标准,本研究的标准控制如下:

1. SNPs 的 call rate 保证在 90%以上,有 2667 个位点不符合要求剔除;

2. 个体中 SNP 的 call rate 保证在 90%以上,97 头个体均符合要求;

3. 最小等位基因频率不得小于 5%的 SNP 位点,有 15351 个位点不符合要求剔除;

4. 剔除偏离或严重偏离哈代-温伯格平衡检验,即显著性 P 值小于 10-6 的 SNP 位点,共

有 3976 个位点不符合要求剔除

通过质量控制之后,共收集到 40909 个 SNPs 位点用于后续的全基因组关联分析。

在本试验中,我们利用 PLINK 软件进行关联分析,PLINK 软件是一个功能强大的主要针对 全基因组关联分析的软件。结合基因组控制(Genomic Control)所估计出的统计量对试验群 体进行群体分层校正, 其主要原理是基于估计出的统计量与原假设进行比较, 若严重偏离原 假设 1 就说明存在群体分层现象。 对香猪的全基因组关联分析可以是对二分类性状的关联分 析,利用 PLINK 软件单标记卡方检验,对其进行 Bonferroni 校正得出的显著性 P 值,进行 对数转换后,利用 R 语言作图。

2.4 群体分层的 Q-Q 图

通过 PLINK 软件的基因组控制方法,对试验群体的分层情况进行估计,利用计算得出 的卡方值得中位数作为统计量即基因组膨胀因子的值,计算结果为 1.71,偏离原假设 1。因 此,对试验群体进行群体分层校正。

对于群体分层一直都是 GWAS 研究中十分重要的问题, 为了反映研究群体的分层情况, 一般利用 Q-Q 图(Quantile-quantile plot)来其进行检测。从 Q-Q 图上可以看出从群体中检 测得到的显著性位点是否与期望的更多。 如果有没有发现的群体分层的出现, 则会导致整个 分布偏离原来预期的没有 SNP 与目标性状相关联的零假设分布。根据观测值可以计算出相 应的统计量, 与零假设下计算出的统计量的分布进行比较判断, 检验是否存在群体分层或者 是够存在显著与疾病相关的位点。

通过对 GWAS 结果得出的各个位点的 p 值通过基因组控制进行校正后,利用校正后的

p 值做 Q-Q 图。

2.5 基因组关联分析的显著性检验

本研究也采用臵换检验的方法来建立检验统计量的经验分布,同时对统计量进行多重 检验的校正。臵换检验的方法主要是根据试验群体,固定个体的基因型不便,对表型进行随 机重排, 从而进行全基因组水平的关联分析得出相应的检验统计量的值。 每次臵换或者重排 之后,都会得出检验统计量新的数值,通过大量的随机重排之后,就可以利用大量的关联分 析统计量数值构建出这个统计量的经验分布。然后选取 95 分为点作为全基因组关联分析 0.05 的显著性水平阈值,即通过试验群体的表型值对某 SNP 进行的关联分析得到的检验统 计量数值如果小于该阈值,就表明该 SNP 在 0.05 水平下是不显著的,即其相伴概率是大于 0.05 的。 本试验中进行的随机重排的次数是 5000 次。由 PLINK 软件利用基因型数据对试验 群体进行了群体分层校正,因此本试验主要对 PLINK 的试验结果进行臵换检验。

利用臵换检验的方法在全基因组水平下, 对于香猪最好产仔数性状而言所得到的经验分布的 显著性 0.05 的阈值应为 1.31× 10-6。利用此阈值对所有检测出的位点 P 值进行比较,最终发 现与性状显著相关联的 29 个 SNP 位点。


赞助商链接
相关文章:
GWAS原理
GWAS原理 - 全基因组关联分析(Genome-wide Association Study)是利用高通量基因分型技术,分析数 以万计的单核苷酸多态性(SNPs)以及这些 SNPs 与临床表型...
GWAS结果图
GWAS结果图_生物学_自然科学_专业资料。Annotated Manhattan plots and QQ plots for GWAS using R, Revisited Stephen D. Turner http://www.Step ...
R语言制作GWAS-曼哈顿图-自编教程
R语言制作GWAS-曼哈顿图-自编教程_畜牧兽医_农林牧渔_专业资料。自己制作的教程,简单易懂易操作!R 语言制作曼哈顿图-自编教程 一、TXT 文件格式 (1)在 excel ...
MASSARRAY原理_图文
MASSARRAY原理_交通运输_工程科技_专业资料。MassARRAY 图〔1〕 MassARRAY 系统...GWAS 分析发现了 9 个位点的显著差 异,利用 sequenom massarray 系统在 5182...
全基因组关联分析在畜禽上的应用
随着数量遗传学、分子生物学以及计算机水平的高速发展,出现了数量遗 传学与分子遗传学的结合, 动物育种中也不断出现新的方法,全基因组关联分析 (GWAS)以及全基因...
全基因组关联分析
全基因组关联分析 (Genome-wide association study,GWAS) 是一种对全基因组范围内的常 见遗传变异: 单核苷酸多态性(Single nucleotide polymorphism , SNP) 进行...
【科普】精准医疗与遗传基因检测的行业分析(上)
GWAS 通常侧重于研究单核苷 酸多态性(SNPs)和一些有性状的主要疾病的关联性。最常见的此类研究方法称为表型检测,即把参与者根据 他们的临床表现特征分成两组,比如...
2017年基因检测现状研究及发展前景趋势 (目录)
GWAS 全基因组关联研究进展 2.4.2 大数据分析在基因检测中的应用 2.4.3 纳米...测序的原理和流程 6.5.3 第二代 DNA 测序的主要设备 6.5.4 第二代 DNA...
2016-2022年中国基因检测行业竞争格局现状及十三五竞争...
GWAS 全基因组关联研究进展 2.4.2 大数据分析在基因检测中的应用 2.4.3 纳米...测序的原理和流程 6.5.3 第二代 DNA 测序的主要设备 6.5.4 第二代 DNA...
外显子组测序数据分析流程_图文
示例图 4 融合基因预测[1] 示例图 4 大量样本的 GWAS 分析结果[2] 示例图 5 肿瘤样本高频率突变基因统计[3] 示例图来源文献 [1]. Kangaspeska, S., et...
更多相关标签: