当前位置:首页 >> 能源/化工 >>

GWAS原理


全基因组关联分析(Genome-wide Association Study)是利用高通量基因分型技术,分析数 以万计的单核苷酸多态性(SNPs)以及这些 SNPs 与临床表型和可测性状的相关性。简单地 理解全基因组关联分析,GWAS 就是标记辅助选择在全基因组范围上的应用,在全基因组层 面上开展大样本的、多中心的、重复验证的技术,并对相关基因与复杂性状进行关联研究, 从而全面地揭示出不同复杂性状的遗传机制和基础。GWAS 是一项开创性的研究方法,因为 它可以在以前很难达到的分辨率水平上对成千上万无关样本的全基因组进行研究, 且不受与 疾病有关的先验性假设的限制,GWAS 在全基因组范围、零假设性较候选基因研究都迈出了 重要的一步,而且随着高通量测序成本的降低,GWAS 在人类疾病以及畜禽经济性状的研究 上都表现出巨大的优势。 GWAS 的优势除了可以一次性检测到数以万计的 SNPs 信息,从而提高试验效率以及检验功 效以外,其还有其他两个显著的优势,主要表现在: (1)对未知信息的基因进行定位探索。 传统的 QTL 定位仅仅限于对已知的候选基因进行分析探索,而 GWAS 是对全基因组的范围 内的所有位点进行关联分析, 因此其拥有更广泛的关联信息, 相比候选基因分析 GWAS 更有 可能找到与性状真正关联的候选基因,因此不再受到预先假设的候选基因的限制。 (2)对于 GWAS 在研究不同的复杂性状之前, 不需要像以往的研究一样 “盲目地” 预设一些假定条件, 而是通过在病理和对照组中,有目的地比较全基因组范围内所有 SNPs 的等位基因频率或者 通过家系进行传递不平衡检验(TDT, Transmission disequilibrium test) ,从而找出与复杂性 状显著相关的序列变异。 到目前为止, 利用全基因组关联分析研究已经挖掘出众多与各种复 杂性状相关联的基因和染色体区域, 在这些被新鉴定出的位点和区域中, 只有小部分结果位 于以前对这些性状研究的区域之中或者附近, 绝大多数位于以前从未被研究过的区域, GWAS 的研究结果表明以前没有被纳入研究的未知区域有可能对于复杂性状也是十分重要的, 这也 是以往的研究水平所不能达到的。 全基因组关联分析为进一步研究复杂性状的遗传机理提供 了新的线索,为复杂性状的研究开辟了新的研究道路。 全基因组关联分析 SNPs 分型及质量控制 1.1 基因分型过程 基因分型技术的发展在 GWAS 变成现实的过程中起着重要作用。 现在上百万的遗传变异可以 在预先设计的寡核苷酸微阵列(Affymetrix 或 Illumina)中同时检测到。这些芯片多数检测的 是 SNPs,同时有些芯片可以检测到拷贝数变异(copy number variants,CNV) 。DNA 基因分 型产生一系列的杂交强度,这需要转变成实际的基因型,这个过程称为基因分型(genotype calling) 。 1.2 分型 SNPs 的质量控制 质量控制是用于评价样本和基因分型芯片的基因型性能的操作。 在试验中存在很多影响因素, 如 DNA 降解,加样错误或是芯片杂交失败等,因此在下一步基因型分析之前评价试验性能 是很重要的。同时,确定和排除那些很有可能确实或者错误分型的 SNPs 是十分重要的。 对于某一个单个样本的质控标准主要包括: (1)样本检出率(sample call rate) ,是指对于某 个样本个体而言, 通过测序并成功判型的 SNPs 与所有检测的 SNPs 的比值, 通常的标准应当 在 80%或 90%以上。 (2)杂合型的程度(heterozygosity) ,这个标准过高即被排除,因为过 度的杂合说明样本可能被污染,从而导致杂合基因型数目不相称。通常的标准应当控制在 23%-30%之间。 对于单核苷酸多态性的质量控制主要包括了: (1)SNP 检出率(SNP call rate) ,同样指对于 某一个 SNP 位点,被成功检测到的样本与所有样本的比值,一般要求在 90%以上。 (2)较 小等位基因频率(minor allele frequency,MAF) ,对于那些 MAF 较小的 SNPs,能得到的信

息量很少, 而且目前 GWAS 对这些 SNP 的检验效能也不高。 通常对于 MAF 的要求需要在 3% 以上。 (3)哈代-温伯格平衡(Hardy-Weinberg equilibrium,HWE)检验,HWE 可以有助于 确定那些有明显基因分型错误的 SNPs。因此一般要求位点 SNP 的等位基因频率符合哈代-温 伯格平衡。 1.3 GWAS 结果多重检验校正 多重假设检验所引起的 I 型错误扩大和假阳性关联是全基因组关联分析研究面临的难题之一。 多重假设检验的次数取决于待研究的基因组标记的数量, 而检验的效率又取决于多重假设检 验的次数。如今,有多种方法可以用来校正 GWAS 中多重检验后的 P 值,用来减少假阳性的 出现。 1.4 Bonferroni 校正法 即对于每个检验位点的校正阈值,将原本的显著性阈值(0.05)除以进行假设检验的次数设 定为校正后的显著性阈值, 再与假设检验得到的每个位点的 P 值进行比较, 如果小于校正阈 值, 则可判断该位点与性状之间的关联存在显著性。 这种校正方法是多重比较中对 P 值的调 整最为严格和保守的一种方法, 虽然确保而且减低了假阳性的发生率, 但是过度的校正反而 容易导致加阴性的概率。 1.5 置换检验法 置换检验的核心思想就是数据重排(permutation) ,数据重排的观念最早是由 Fisher 和 Yates 在 1949 年提出的。该方法的主要有两种思路: (1)将分析样本的表型值固定,然后将其基 因型随机地进行打乱重排 (一般保证在 10000 次左右) , 每次重排都可以计算得出一个 P 值, 然后对所有的 P 值构建一个经验分布,并设定 5%处的 P 值为校正后的显著性阈值,最后与 实际关联分析得出的 P 值进行比较,若小于校正阈值,则说明与性状关联。 (2)将分析样本 的基因型值固定,对表型进行随机重排,后续工作与前者相同。 1.6 控制错误发现率法 控制错误发现率(FDR,False discovery rate)法,即 FDR 法是由 Benjamini 和 Hochberg 提出 的通过控制错误发现的概率对 P 值进行调整的方法。 该方法与递减调整法有相似之处, 同样 先将关联分析得到的所有 P 值从小到大进行排列,但最后乘以的系数有所改变,FDR 的加成 系数是总检验次数即所有位点数除以该检验位点在从小到大排序的排位。 最后得到的校正 P 值与显著性阈值 0.05 进行比较,若小于 0.05 则说明性状与该位点显著关联。 2 基因型数据 本研究中的 60 个无关个体的耳组织利用天根试剂盒进行 DNA 提取,后均采用 Illumina 公司 的 Porcine SNP 70K Beadchip(Illumina Inc., San Diego, CA)芯片进行 SNP 分型。利用 Illumina 公司提供的 BeadStudio 软件将测序的原始数据进行可视化处理并导出成文本格式文件。通 过运用 R 语音程序编写对文件进行编译修改成满足 PLINK 软件包对 GWAS 分析所需要的文件 格式。进一步通过 R 语言编辑成满足 ROADRTRIPS 在关联分析上需要的文件格式。 2.1 Illumina Porcine SNP 60K Beadchip 由 Illumina 公司和 Genseek 公司共同开发出来的 Porcine SNP 60K Beadchip 是在之前 Illumina 公司开发的 Porcine SNP 60K Beadchip 的基础上研发出来的,共有 64232 个标记。 。这些位点 主要包括了与猪的免疫,生长,肉质等性状相关联的 SNP 标记位点,并且标记在各个染色 体上的分布也相对均匀。 2.2 试验猪 DNA 样本提取 本研究所用的样品为 98 头香猪。 本试验采用试剂盒天根组织 DNA 提取试剂盒从血液提取基因组 DNA,具体步骤如下: (1) 取 200ul 血液样本并装入一个洁净的 1.5ML 离心管中。 (2) 加入 250μ l 缓冲液 GS,用眼科剪将样品组织均匀剪碎至糊状。

(3) 加入 25μ l 蛋白酶 K 以及 250μ l 缓冲液 GB,涡旋混匀。 (4) 放置于 56℃水浴锅(或杂交炉) ,消化 3 -5 小时。消化结束时液体应清亮无絮状沉淀, 取出离心管。 (5) 向离心管中加入 200μ l 无水乙醇,颠倒混匀,此时可能会出现絮状沉淀。 (6) 将离心管中液体倒入对应的吸附柱中,12000rpm 离心 1min,弃废液。 (7) 加 500μ l 缓冲液 GD,12000rpm 离心 1min,弃废液。 (8) 加 700μ l 漂洗液 PW,12000rpm 离心 1min,弃废液。 (9) 加 500μ l 缓冲液 GD,12000rpm 离心 1min,弃废液。 (10) 空甩,12000 rpm,2 min。 (11) 开盖,将吸附柱转入新离心管中,弃去收集管,室温放置 5-10 min,散尽酒精。 (12) 向吸附柱中间位置悬空加入 50μ l 在 56℃预热的洗脱液 TB,室温放置 10min 或 4℃过 夜,使 TE 充分溶解 DNA 沉淀。 (13) 12000 rpm 离心 2min,弃去吸附柱,将溶液收集到离心管中,既得 DNA 溶液,用 NANODROP2000 紫外分光光度计和凝胶电泳检测提取质量。 (14) 将检测合格的基因组 DNA 放置于 4℃保存或-20℃长期保存。 2.3 质量控制 借鉴以往对 Case-Control 试验设计以及对全基因组关联分析质量控制的方法,在对基因型数 据与表型数据进行关联分析之前,对原始基因型的 64232 个 SNPs 数据进行质量控制。参考 今年来全基因组关联分析的质量控制标准,本研究的标准控制如下: 1. SNPs 的 call rate 保证在 90%以上,有 2667 个位点不符合要求剔除; 2. 个体中 SNP 的 call rate 保证在 90%以上,97 头个体均符合要求; 3. 最小等位基因频率不得小于 5%的 SNP 位点,有 15351 个位点不符合要求剔除; 4. 剔除偏离或严重偏离哈代-温伯格平衡检验,即显著性 P 值小于 10-6 的 SNP 位点,共有 3976 个位点不符合要求剔除 通过质量控制之后,共收集到 40909 个 SNPs 位点用于后续的全基因组关联分析。 在本试验中,我们利用 PLINK 软件进行关联分析,PLINK 软件是一个功能强大的主要针对全 基因组关联分析的软件。结合基因组控制(Genomic Control)所估计出的统计量对试验群体 进行群体分层校正, 其主要原理是基于估计出的统计量与原假设进行比较, 若严重偏离原假 设 1 就说明存在群体分层现象。 对香猪的全基因组关联分析可以是对二分类性状的关联分析, 利用 PLINK 软件单标记卡方检验,对其进行 Bonferroni 校正得出的显著性 P 值,进行对数转 换后,利用 R 语言作图。 2.4 群体分层的 Q-Q 图 通过 PLINK 软件的基因组控制方法,对试验群体的分层情况进行估计,利用计算得出的卡方 值得中位数作为统计量即基因组膨胀因子的值,计算结果为 1.71,偏离原假设 1。因此,对 试验群体进行群体分层校正。 对于群体分层一直都是 GWAS 研究中十分重要的问题, 为了反映研究群体的分层情况, 一般 利用 Q-Q 图(Quantile-quantile plot)来其进行检测。从 Q-Q 图上可以看出从群体中检测得 到的显著性位点是否与期望的更多。 如果有没有发现的群体分层的出现, 则会导致整个分布 偏离原来预期的没有 SNP 与目标性状相关联的零假设分布。根据观测值可以计算出相应的 统计量, 与零假设下计算出的统计量的分布进行比较判断, 检验是否存在群体分层或者是够 存在显著与疾病相关的位点。 通过对 GWAS 结果得出的各个位点的 p 值通过基因组控制进行校正后,利用校正后的 p 值 做 Q-Q 图。 2.5 基因组关联分析的显著性检验

本研究也采用置换检验的方法来建立检验统计量的经验分布, 同时对统计量进行多重检验的 校正。 置换检验的方法主要是根据试验群体, 固定个体的基因型不便, 对表型进行随机重排, 从而进行全基因组水平的关联分析得出相应的检验统计量的值。 每次置换或者重排之后, 都 会得出检验统计量新的数值, 通过大量的随机重排之后, 就可以利用大量的关联分析统计量 数值构建出这个统计量的经验分布。 然后选取 95 分为点作为全基因组关联分析 0.05 的显著 性水平阈值,即通过试验群体的表型值对某 SNP 进行的关联分析得到的检验统计量数值如 果小于该阈值,就表明该 SNP 在 0.05 水平下是不显著的,即其相伴概率是大于 0.05 的。本 试验中进行的随机重排的次数是 5000 次。由 PLINK 软件利用基因型数据对试验群体进行了 群体分层校正,因此本试验主要对 PLINK 的试验结果进行置换检验。 利用置换检验的方法在全基因组水平下, 对于香猪最好产仔数性状而言所得到的经验分布的 显著性 0.05 的阈值应为 1.31×10-6。利用此阈值对所有检测出的位点 P 值进行比较,最终 发现与性状显著相关联的 29 个 SNP 位点。


赞助商链接
相关文章:
GWAS原理
GWAS原理_能源/化工_工程科技_专业资料。全基因组关联分析(Genome-wide Association Study)是利用高通量基因分型技术,分析数 以万计的单核苷酸多态性(SNPs)以及这些...
全基因组关联分析(GWAS)解决方案
随着高通量测序技术的出现和不 断发展,一种广义的 GWAS 概念开始出现,即在全基因组范围内,利用关联分析的原理和方法进行各种组学研 究,不仅包括 SNP,还包括插入...
MASSARRAY原理_图文
MASSARRAY原理_交通运输_工程科技_专业资料。MassARRAY 图〔1〕 MassARRAY 系统...GWAS 分析发现了 9 个位点的显著差 异,利用 sequenom massarray 系统在 5182...
基因组测序术语解释
全基因组关联分析-GWAS 通过重测序对动植物重要种质资源进行全基因组基因型鉴定...对于调控蛋白在基因组上的结合靶点筛选、差异化表观遗传变异的原理 揭示提供了...
孤独症谱系障碍的病因学综述
与候选基因分析方法相比, GWAS 避免了预先假设致病基因, 因而能够找出所有的变异等位基因频率,让我们找 到了许多从前未曾发现的基因以及染色体区域, 为包括孤独症在...
10.15-10.16人类医学数据关联分析精品班通知
原理,数学模型,算 法实现,常用软件 R 语言基础; 使用 R 语言进行基础统计学分析、 连锁分析 和关联分析的实例练习 芯片技术原理及其优缺点; 基于芯片的 GWAS ...
2型糖尿病易感基因研究进展
可以说 GWAS 使糖尿病的病因学研究突破瓶颈,迎来了 新的曙光。 (1)GWAS 的基本原理和研究设计类型:GWAS 的设计基本原理与经典的病例 对照研究相同,即假设某个 ...
LOH检测
全基因组关联(GWAS)分析 检测原理如下: 1 1. 样本要求 基因组 DNA: 总量>1μg; 浓度>50ng/μl; 260/280 在 1.8-2.0 之间, 260/230>1.8; 电泳检测无...
下篇 题库
全基因组关联性分析(Genome-wide association study, GWAS) p173 7. 转录组(...p180 3. 试述药物蛋白质组学的主要研究方法及其相应的原理。 p211-214 4. ...
更多相关标签: