当前位置:首页 >> 生物学 >>

GWAS入门要点


背景:1996 年,Risch 最早提出了 GWAS 的设想。他认为未来人类复杂疾病的研究不再需 要候选基因的预测, 能够在全基因组水平检测每一个基因的变异, 进行更大规模的基因检测。 2001 年,Hansen 等最早应用 GWAS 在植物中对 Sea beet(海甜菜)的生长习性进行了分析 发现,决定海甜菜抽薹前是否需要进行春化处理的基因( B 基因)与分布于全基因组范围 内的 440 个 AFLP 标记中的 2 个显著关联;2005 年,Science 杂志上最早报道了 GWAS 应用于人类研究,Klein 等发现 complement factor H 基因(CFH)与具有年龄相关性的黄斑 变性病症显著相关(SNP 存在于 CFH 基因内) 。

定义:全基因组关联分析(genome wide association study,GWAS)是利用全基因组范围内 筛选出高密度的分子标记对所研究的群体进行扫描, 分析扫描得出的分子标记数据与表型性 状之间关联关系的方法。即,GWAS 就是利用全基因组范围内的 LD 来确定影响某些表型 性状或数量性状的基因。

流程:典型的 GWAS 案例通常由以下四个部分组成: (1)建立研究群体,选择尽可能大的 群体作研究样本,建立目标性状数据库。如果研究性状为疾病,要同时选择已感染疾病的群 体和健康群体作病例-对照组合; (2)提取样本 DNA 并进行质量控制以达到基因分型的要 求,对基因型数据进行检测和质量控制以达到后续关联分析的要求; (3)利用合适的统计模 型对 SNP 和目标性状进行关联分析; (4)对关联分析的结果进行高级分析及验证

分类:GWAS 研究统计分析原理分为以下几种情况: ( 1)基于无关个体 (Unrelated individual) 的关联分析:基于此法设计的关联分析包括病例对照分析法 (Case-control analysis ) 和基于随机群体的关联分析 (Population-based association analys is ) 。 前者主要检测病例组和对照组全基因组中基因型的分布特征和差异, 可用 4 格表 的卡方检验来比较基因频率在研究组和对照组间的差异, 若两者之间存在显著性差异则可能 表明该遗传差异和疾病有关联。病例-对照法常用于人类疾病易感基因的研究,主要关注质 量性状。基于随机群体的分析法主要应用于动植物中,主要关注数量性状。比如在研究动物 经济性状候选基因时可采用这种方法。 ( 2)基于家系的关联分析( Family-based association) :基于无关个体的关联分析可靠性会 受到样本群体分层或其他混杂因素的影响。 基于家系的关联分析可以有效提高分析的可靠性, 避免群体分层对关联分析结果的影响(如果利用多个家系同样有可能产生群体分层) 。当选 择的样本具有完整的系谱信息时,可以采用传递不平衡检验 (Transmisstion Disequilibrium Test, TDT) 法对 SNP 与所关注数量性状的关联效应进行分析。

试验设计: 一种是单阶段设计 ( One-stage design) , 另一种是两阶段设计 ( Two-stage design) 或多阶段设计( Multiple-stage design) 。单阶段设计中一次性选用足够大的样本量,对每一 个样本都进行 SNP 基因型分型,然后分析相关性状与每个 SNP 的关联效应。而两阶段或 多阶段设计中,首先选择一个小样本量进行 SNP 分型,统计分析时在较为宽松的 P 值条 件下先筛选出与目标性状呈显著相关的 SNPs ,然后在大样本中对已经第一步筛选出的 SNPs 进行分型,结合两个阶段的分析结果进行最后统计。二者相比,单阶段设计的最大缺

陷在于基因分型耗资巨大,两阶段或多阶段设计是一种即经济又高效的研究策略。

1. 资源群体:参见定位动物 QTL 的作图群体 GWAS 中样本量的大小取决于期望效应的大小 示例 1:

示例 2:本研究所用试验群体是以 4 头大白公猪与 16 头民猪母猪为 F0 代交配产生 F1 代个体,然后从 F1 代中挑选 9 头公猪和 46 头母猪在避免全同胞的前提下自交产 生的 F2 代群体。 示例 3:本研究选用苏尼特羊、德国肉用美利奴羊(德美羊)和杜泊羊三个绵羊品种, 所有的试验羊均为随机选择,无家系信息,共计 329 只,其中苏尼特羊 69 只(公 57 母 12) ,德美羊 161 只(公 71 母 90) ,杜泊羊 99 只(公 49 母 50) 。

2. 表型选择:遵循以下 3 个原则: (1)选择遗传力较高的表型,遗传度低的表型会降低遗传学关联研究的把握度; (2)性状优于疾病(表型) ,疾病(表型)的状态模糊不清,很难测量,有时则会出现多种 疾病(表型)混杂在一起而难以判断; (3)选择测量简单准确并且遗传力相对较高的数量表型,增加分析结果的可信度 3. 标记分型: 3..1 示例芯片:本研究使用的是 Illumina 公司研制 PorcineSNP60 BeadChip 全基因组芯片 (如图) ,包含超过 60000 个 SNP 位点,以步长平均每 40 kb 有一个标记,覆盖猪的基因 组。此芯片整合了多种猪的基因差异,包括杜洛克猪,长白猪,皮特兰猪和大白猪,其性价 比高,能提供足够的 SNP 密度,可应用于全基因组关联研究中。这张芯片可以测定 12 个 个体 GWAS.

3.2 实验流程: ( 1) DNA 定量 测定 DNA 浓度,并统一标化成 50 ng/μL。进行 Infinium 分析需要的 DNA 样本量为 500 ng~750 ng; ( 2) DNA 扩增产物孵育 在样本中加入 0.1N NaOH 使 DNA 变性为单链,经中和后加入 全基因组扩增试剂,在 37℃恒温条件下过夜孵育,扩增后的 DNA 总量可达初始上 样量的 2000~3000 倍,该过程不会产生等位基因偏向性扩增; ( 3) DNA 扩增产物片段化 扩增后的产物,经过可控的且不需要凝胶电泳的酶解处理, 成为片段化的 DNA。该过程利用终点式(End-point)片段化方法,以防止样本的过 度片段化; ( 4)DNA 沉淀和悬浮 加入异丙醇进行沉淀 DNA 片段过程,片段化的 DNA 在 4℃下离 心富集,从而得以纯化。将沉淀后的 DNA 在空气中进行干燥后,加入杂交缓冲试剂 使其重新溶解; ( 5)准备微珠芯片; ( 6) DNA 与芯片的杂交 将重悬后的 DNA 样本与准备好的微珠芯片杂交,置于杂交炉 内反应过夜。在杂交过程中,片段化后的 DNA 经过变性,与位点特异的 60 个碱基 退火,而这 60 个特异碱基连接在芯片的 60000 种微珠(Bead)中的一个上,一个微 珠类型对应检测一个 SNP 位点; ( 7)芯片的延伸、染色 洗去未杂交的和非特异杂交的 DNA,以便后续的染色和延伸。 以捕获到的 DNA 为模板,在芯片上进行单碱基的延伸反应,在芯片上加上可检测的 标签基团,从而区分样本的 SNP 类型; ( 8) 包被微珠芯片 将反应完成的芯片放入 XC4 试剂中, 使其表面包裹上一层粘性透明液 体,再将其放入真空环境下干燥 1 小时,从而将芯片包被,保护其信号稳定较长的时 间; ( 9)芯片的扫描 将处理好的芯片放入扫描仪中,利用激光激发芯片上单碱基延伸产物的 荧光基团,扫描仪获取由荧光基团发出的荧光,并生成高分辨率的图片。由此所得的 数据直接导入 BeadStudio 软件进行分析,从而就得到每个样本的 SNP 分型数据。

4. 质量控制: 样本质量控制:①用 Kolmogorov-Smirnov( K)方法进行数据的正态分布检验。对不符 合正态分布的数据使用 Minitab 15 软件进行 Johnson 转换。②应用最大似然法的 Cervus 程 序校验系谱信息和所使用 SNP 信息间的匹配情况。 基因型质量控制 (Quality Control, QC) : 就是对 BeadStudio 软件识别后导出的基因型, 进行一些初步的整理和分析,然后再应用于后续分析,可以提高全基因组关联分析的效力。 首先采用 Beadstudio 软件将芯片数据进行可视化处理,手工校正软件判型不准确的 SNP 位点后,并导出数据为文本形式。主要指标包括:①SNP call rate:指某一 SNP 被成功测量 的样本占所有样本的百分比, 一般要达到 95%以上; ②最小基因频率 (minor allele frequency, MAF) :一般应大于 1%;③Hardy-Weinberg( HWE )平衡检验,不符合的 SNPs 应去除;④ 重复样品检验结果的一致性: 一致性应在 99.5%以上。

5. 群体分层 在 GWAS 中,群体分成(population stratification )和多重假设检验(multiple testing adjusting )是引起研究结果分析误差的重要原因。一种可能的策略是采用基于家系的关联研 究,该方法可以避免群体分成对关联分析结果的影响。 所谓群体分层, 是指群体内存在等位基因频率不同的亚群体。 由于自然选择、 遗传漂变、

群体分层等诸多因素都会影响到群体中的连锁不平衡,因此,在进行关联分析时, 一些非原 因等位基因也可以同真实 QTL 形成连锁不平衡表现为与研究性状关联, 从而导致伪关联或 假阳性的出现。

6. 关联分析 在 GWAS 研究中,当涉及质量性状时一般采用 Logistic 回归模型进行分析,对于数 量性状的研究,主要采用线性回归模型进行关联分析。在 Logistic 回归模型中,基因型是 应变量, 群体结构和表型是自变量; 而在线性回归模型中, 表型是应变量, 其他品种、 性别、 群体结构和基因型数据则是自变量。 线性模型包括两种: 一般线性模型 (general linear model, GLM)和混合线性模型(mixed linear model,MLM)。复杂数量性状通常受到多种因素的共 同影响,而混合模型中可以加入固定效应和随机效应,因此,以研究数量性状的全基因组关 联分析方法常采用混合线性模型进行分析。

7. GWAS 局限性

① 可靠性:GWAS 主要依赖统计分析,因此可能会出现比较多的假阳性和假阴性结果, , 大量功能实验的验证才是根本解决办法 ② 重复性:同一变异在一个群体中呈显著,在另外群体中有时却并不显著,重复性不好。 这是由于不同群体中可能具有不同的等位基因频率,或者不同群体有不同的连锁不平衡 区域造成的,因此,GWAS 结果需要进行反复的大样本验证。 ③ 精确性:GWAS 可以确定与性状或疾病相关的位点而非直接确定基因本身。目前利用

GWAS研究已发现的与人类疾病关联的SNPs 中,约43%变异位于基因间,约45%位于内 含子区域,只有很少部分位于基因功能区。 ④ 有效性: GWAS 研究难以检测到罕见变异是导致其结果较难解释大部分复杂性疾病遗传 学特征的主要原因。目前利用 GWAS 研究发现的显著位点多为 MAF 大于 5%的常见变 异,平均频率约 36%,而很少能检测到少见变异(MAF 介于 0.5%~5%之间)或者罕见 变异(MAF< 0. 5% ) 。

自己的认识: 1. 基于无关个体的关联分析可能会产生群体分层,而仅采用单个家系(利用基于家系的关 联分析)不会产生群体分层,但采用多个家系的基于家系的关联分析,其结果同样可能 受群体分层的影响。 2. GWAS-QTL 定位-QTN GWAS 与 QTN: GWAS 揭示的是与目标性状显著关联的 SNP 标记,这些标记是高密度 的,因此显著关联的 SNP 有可能就是 QTN,这需要验证。但这种验证需要 QTN 的效应非 常大。大部分显著关联的 SNP 无法得到直接验证(它们可能是与 QTL 连锁的标记,也有可 能是效应比较低的 QTN) 。只能通过重复实验来验证它们与目标性状关联的可靠性。截止到 2012 年公认的 QTN 仅有 3 个: 猪的 IGF2 基因、 奶牛的 DGAT1 基因和绵羊的 GDF8 基因) , 但这需要验证。 GWAS 与 QTL 定位:QTL 定位所用的作图群体必须要有系谱信息,因此 GWAS 分型的 结果能否用于 QTL 定位,要根据所用资源群体而定。利用示例 3 资源群体进行的 GWAS 得 到的结果就无法用于 QTL 定位。但是利用 GWAS 的结果进行 QTL 定位是没有必要的。首 先,SNP 芯片是高密度的(几十 Kb 一个 SNP) ,因此可以在显著关联的 SNP 附近筛选候选 基因; 其次, 即使利用 GWAS 的结果进行 QTL 精细定位, 也只能将 QTL 定位在 5cM 左右, 同样也无法找到 QTN 或主基因。

参考文献: 1. 鸡胫长和胫围的全基因组关联分析 2. 中国荷斯坦牛乳房炎易感性及抗性的全基因组关联分析 3. 全基因组关联分析 4. 绵羊肉用性状全基因组关联分析 5. 奶牛重要经济性状全基因组关联分析 6. 猪肉质性状全基因组关联研究


赞助商链接
相关文章:
更多相关标签: