当前位置:首页 >> 医学 >>

全基因组关联分析的进展与反思


生理科学进展 2010年第 41卷第 2 期

87





全基因组关联分析的进展与反思
凃 欣 石立松 汪 樊 王 擎
( 华中科技大学生命科学与技术学院 , 华中科技大学人 类基因组研究中心 分子生物物理教育部重点实验室 , 华中科技大学 Cad ioX 心血 管创新研究团队 , 武汉 430074)

摘要 全基因组关联分析 ( genom ew ide assoc iatio n study, GWAS)是应用人类基因组中数以百万计的 单核苷酸多态性 ( sing le nuc leot id e po lym orph ism, SNP )为标记进行病例 对照关联分析 , 以期发现影 响复杂性疾病发生的遗传特征的一种新策略。 近年来 , 随着人类基因组计划和基因组单倍体图谱 计划的实施 , 人们已通过 GWAS 方法发现并鉴定了大量与人类性状或复杂性疾病关联的遗传变 异 , 为进一步了解控制人类复杂性疾病发生的遗传特征提供了重要的线索。 然而 , 由于造成复杂性 疾病 /性 状的因素较多 , 而且 GWAS 研究系统较为复杂, 因此目前 GWAS 本身亦存在诸多的问题。 本文将从研究方式、 研究对象、 遗传标记 , 以及统计分析等方面 , 探讨 GWAS 的研究现状以及存在 的潜在问题 , 并展望 GWAS 今后的发展方向。 关键词 全基因组关联分析; 复杂疾病 /性状 ; 遗传变异 ; 单核苷酸多态性 中图分类号 Q78 TU X in , S H I L i Song ,

Genom ew ide A ssociation S tudy : A dvan ces , Challenges and D elib eration

WANG F an , WANG Q in g (C enter f orH uman G enom e R esearch and College of L ife Science and T echnolo gy, K ey Laboratory of M olecular B iophysics of M inistry of Education, Cardio X Institu te, H uazhong Uni versity of Science and T echnology, W uhan 430074, China) Abstract Genom e w ide assoc ia t io n study ( GWAS) is a nove l strategy for d iscovering genetic basis of hu m an com plex disease or trai. t It utilizes m illions of sing le nuc leot id e po lym orphism s ( SNPs) , w h ich cov er the who le genom e , to conduct case control association studies . In recent years, fo llow ing the new ly es tablished H u m an Genom e P ro ject ( HGP ) and InternationalH u m anH ap M ap pro je c, t large number of hu m an com plex disease / tra it associated genetic varia nts have been ident ified through GWAS m ethod , w hich prov id es i m portant c lu es fo r understanding the m echanism s of re lated disorders. Due to the com p lex ity o f these m ulti factoria l d iseases/ traits and the com plicatio n o f GWAS system itsel, f the GWAS re m ain sm any problem s . In this rev iew, w e w ill discuss the potential issues in the fo llow ing aspects as research m eth ods , study sub jects , genetic m arkers and statist ica l analysis . K ey w ords genom ew id e associat io n study ; com plex disease / tra i; t genetic variations ; sing le nucleotide po lym orph ism 所有 的改变 , 即使是最 令人期待的 , 也有 令人惆怅的 一面 , 我们 抛在脑后 的一切仍 如影 随形。 ! ? ? ? 阿纳托尔 生命科学的重大突破为解决人类社会发展面临 的健康、 食物、 能源、 生态和环境等重大问题提供了 强有力的科技手段。人类基因组计 划 ( H um an Ge nom e P ro jec, t HGP) 的完成, 大量疾病相关基因的发 现 , 促进了传统生物医学 模式向可预测性、 可预防 性、 个体化和参与性的基因组医学模式转变, 为未来 法朗士 ( Anato le F rance , 1844~ 1924)

发展预防、 诊断、 治疗长期困扰人类的诸如癌症、 心 脑血管疾病、 糖尿病、 神经和精神疾病等重大复杂性 疾病开辟了新途径 , 也为基因科学的产业化提供了 良好的机遇。 遗传因素, 或其与环境因素之间的相互作用参 与了几乎所有的人类疾病的发生过程。根据导致疾

88

生理科学进展 2010年第 41 卷第 2期

病的基因数量, 传统上将有遗传因素参与的疾病分 为 单 基 因 疾 病 ( m onogenic disease /m ende lian d is ease)和复杂性疾病 ( com p lex d isease) 。 单基因疾病是指由于单个基因的突变导致的疾 病。近 20 年 来, 通过 家 系连 锁分 析 ( fam ily based linkage stud ies) 的 定 位克 隆 ( positional clon ing ) 方 法 , 研究者已发现了大量如囊性纤维化 ( cystic f ib ro sis)、 亨廷顿病 ( H unt ing ton 's disease) 等单基因疾病 的致病基因 , 这些基因的突变多改变了相应的编码 蛋白氨基酸序列或者产量 , 从而产生符合孟德尔遗 传方式的疾病表型 。但对于复杂性疾病 , 连锁分 析的作用非常有限。
[ 1]

复杂性疾病是指由于遗传和环境因素的共同作 用引起的疾病。很久以来, 人们已认识到大部分人 类性状和复杂性疾病的产生受到多个基因和环境因 素的影响 , 但是发现并鉴定这些影响 复杂性疾病 ! [ 2] 的遗传变异却困难重重 。近年 , 随着人类基因组 计划和基因组单倍体图谱计划 ( International H um an H ap M ap P ro je ct)的实施 , 研究者开始对影响人类性 状形成和复杂性疾病产生的遗传特征进行了探索。 短短几年内, 已经发现并鉴定了大量与人类性状或 复杂性疾病关联的遗传变异 ( 图 1) , 为进一步了解 控制人类复杂性疾病发生的遗传特征提供了重要线 [ 3, 4] 索 。

图 1

截至 2009年 6月 , 439 项 GWA S 发现的与人类性状或复杂性疾病关联 SNP 位点 ( P< 5 # 10- 8 ) 不同灰度圆点代表不同性状或疾病

全 基 因 组 关 联 分 析 ( genom ew ide assoc ia t io n stud ies, GWAS)是应用人类基因组中数以百万计的 单核 苷 酸 多 态 性 ( sing le nucleo tid e po lymo rph ism, SNP )为标记进行病例 对照关联分析 , 以期发现影 响复杂 性疾病 发生的 遗传 特征 的一 种新 策略 。 与以往 的候选 基因关 联分 析策略 明显 不同 的是 , GWAS 不再需要在研究之前构建任何假设 ( hypo th e sis free), 即不需要预先依据那些尚未充分阐明的生 物学基础来假设某些特定的基因或位点与疾病相关 联
[ 5] [ 2]

性视网膜黄斑变性 GWAS 结果 , 在医学界和遗传学 界引起了极大的轰动 ( K le in 等 . 2005) , 此后一系列 GWAS陆续展开。 2006 年, 波士顿大学医学院联合 哈佛大学等多个研究机构报道了基于佛明翰心脏研 究样本关于肥胖的 GWAS 结果 ( H erbert等 . 2006); 2007 年, Saxena等多个研究组联合报道了与 2型糖 尿病 ( T 2D )关联的多个位点 , Sam an i等则发表了冠 心病 GWAS 结果 ( Sam an i等 . 2007); 2008 年 , Barrett 等通过 GWAS 发现了 30 个与克罗恩病 ( C rohn s ' dis ease) 相关的易感位点; 2009 年, W e iss等通过 GWAS

。 2005 年, Science 杂 志首次报 道了年 龄相关

生理科学进展 2010年第 41卷第 2 期

89

发现了与具有高度遗传性的神经发育疾病 ? ? ? 自闭 症关联的染色体区域。我国学者则通 过对 12 000 多名汉族系统性红斑狼疮患者以及 健康对照者的 GWAS 发现了 5 个红斑狼疮易感基因, 并确定了 4 个新的易感位点 ( H an 等. 2009)。截至 2009 年 10 月 , 已经陆续报道了关于人类身高、 体重、 血压等主 要性状, 以及视网膜黄 斑、 乳腺癌、 前列腺癌、 白血 病、 冠心病、 肥胖症、 糖尿病、 精神分裂症、 风湿性关 节炎等几十种威胁 人类健康的 常见疾病 的 GWAS 结果, 累计发表了近万篇论文, 确定了一系列疾病发 病的致病 基因、 相 关基因、 易感区 域和 SNP 变异。 此外, 复杂疾病 GWAS 方法学 ( 如研究设计、 统计分 析、 结果的解 释 ) 也取得 了极大的 进步, 因此称为 GWAS 第一次浪潮 ! 。
[ 2]

生风险 ( 1. 1~ 1. 5 倍 ), 而这些变异仅可解释部分人 群中因遗传引起的表型变异
[ 3]



表 1 人类性状或复杂性疾病相关 位点数量 与遗 传度估计值
人类性状 /疾病 早发心肌梗死 身高 高密度脂蛋白 2型糖尿病 系统性红斑狼疮 克罗恩病 年龄相关性 黄斑变性
*

已发现相关 位点 ( 个 ) 9 40 7 18 6 32 5

遗传解释的 比例 ( % ) 2 .8 5 5 .2 6 15 20 50

遗传方式 表型变异 表型变异 表型变异 * 同胞再现风险 同胞再现风险 遗传风险 ( 倾向 ) 同胞再现风险

虽然 GWAS 结果在很大程度上 增加了人们对 人类疾病分子遗传机制的理解 , 但也显现出很大的 局限性。首先, 通过统计分析遗传因素和性状 /复杂 性疾病的关系, 确定与特定性状 /复杂性疾病关联的 功能性位点存在一定难度。通过 GWAS 发现的许 多 SNP 位点并不 影响蛋 白质中 氨基 酸, 甚 至许多 SNP 位 点不在 蛋白编 码开 放阅读 框 ( open read ing fram e , ORF )内 , 这为解释 SNP 位点与性 状 /复 杂性 疾病产生之间的关系造成了一定的困难。但是 , 由 于性状 /复杂性疾病很大程度上是由数量性状决定 , SNP 位点可能通过影响基因表达量对这些数量性状 产生轻微的作用 ( 如胰岛素基因启动子中的遗传变 异增加 1 型糖尿病风险 ) ( Kennedy 等 . 1995) , 它们 在 RNA 的转录或翻译效率上发挥作用 , 可能在基因 表达上产生短暂的或依赖时空的多种影响 , 刺激调 节基因的转录表达或影响其 RNA 剪接方式。因此 , 研究者在找寻疾病相关变异时 , 应同时注意到编码 区和调控区位点变异的重要性
[ 3]

表示调整年龄、 性别及糖尿病后的检验结果

再次 , 在一个群体中 GWAS 结果显著的 SNP 在 另外的群体中有时并不显著。 GWAS 目前主要集中 在欧洲人群, 其结果仅在少数其他人群中进行了基 因分型验证。已有结果提示 , 除非一个特定的 SNP 是已明确的功能性 SNP, 否则使用在一个人群中发 现的与一种疾病或性状 相关的标签 SNP 在另一人 群中做个体风险评估则存在一定问题 , 这是由于人 类不同群体中可能具有不同的等位基因频率, 以及 不同人群可能有着不同的连锁不平衡区域 ( 包含了 不同 的 标记 位 点 或 与 遗 传 变 异 共 分 离位 点 ) 所 致
[ 6]

。例如, 位于 9p21 的标签 SNP rs10757278 ,在

高加索人群中与心肌梗 死关联并与多个 SNP 之间 存在着极 强的 连锁 不平 衡 ( linkage d isequilib riu m, LD) , 在非洲人群中该 SNP 所在的 LD 中只有部分 SNP与 高加 索人 群 的 LD 一 致, 而 在亚 洲 人群 中 rs10757278 则位于一个单独区域 ( sin gleton b lo ck )。 因此 , rs10757278 可能在此三个群体中分别标签着 迄 今 尚 未 发 现 的 一 些 不 同 的 遗 传 变 异。 与 rs10757278 不同 , 位于 8q24 并在 高加索 人群 中与 T 2D 关联的标签 SNP rs13266634 所处 LD 在三个群 体中均代表相同 SNP, 提示 rs13266634 可能在此三 个群体中标签着迄今尚未发现的一些类似的遗传变 异。而更有趣的是 , 虽然在三个群体中 LD 区域类 似, 但是在不同人群中等位基因的频率却是不同的。 最后 , GWAS 是一种发现符合常见疾病 常见变异假 说 ( comm on d isease comm on variant hypothesis) 相关 位点的方法, 其可以确定相关位点但不能直接确定 基因本身 , 且在任何特定人群中 GWAS 都不能方便



其次, 等位基因结构 ( 数量、 类型、 作用大小和 易感性变异频率 ) 在不同性状 /疾病中可能具有不 同特征。例如年龄依赖性黄斑变性, 大部分这种常 见疾病 ( comm on disease) 即由少数几个具有较大效 应 ( large e ffect)的常见遗传变异 ( comm on variant) 所 致 , 而其它许多疾病如克罗恩病 , 虽然已发现多个遗 传变异与该病相关, 但是只有部分该病病例可用这 些遗传变异进行解释 ( 表 1); 又如, 目前通过纳入上 万人的 GWAS 已发现至少有 40 个 SNP 位点与人类 身高 (遗传度约为 80 % ) 关联 , 但这些 SNP 位点仅 解释了约 5 % 的身高表型变异。因此, 大部分常见 遗传变异可能通过单独或联合作用轻度增加疾病发

90

生理科学进展 2010年第 41 卷第 2期
[ 7]

地识别罕见的风险等位基 因位点 。因此 , GWAS 结果较难解释大部分复杂性疾病遗传学特征的主要 原因即是因为 GWAS 难以检测罕见变异, 且其检测 基因和基因之间、 基因和环境之间的相互作用的统 计效能有限。目前 , GWAS 难以检测的部分可能主 要集中在最小等位基因频率 ( m inor alle le frequency, MAF )介于 0 . 5 % ~ 5 % 之间的少见变异, 或者 MAF < 0 . 5 % 的罕见变异, 现有的基因分型芯片较难有效 [ 8~ 10] 地 发现这些遗传变异 ( 图 2 ) 。 一 旦 MAF < 0 . 5 % , 除非遗传变异如单基因疾病致病基因一样具 有大的效应值 ( large effect sizes) , 否则很难发现关 联 ; 而对于中等效应值 ( m odest e ffect sizes) , 关联分 析则可能需要进行整体 突变负荷 !的综合试验 , 即 在患者和正常对照中比较潜在的类似功能性突变的 频率。低 MAF 的变异在遗传模式不明确的情况下 仍可能具有较大效应值 (增加 2~ 3 倍患病风 险 ) , 并可能 引 起 GWAS 难 以 检出 部 分 遗传 变 异 等问 题 。例如 , 风险等位基因频率为 1 % , 等位基因 优势比 ( odds ratio, OR ) 为 3 的 20 种遗传变异可能 是导致多数 T 2D 家族聚 集性的原因。但就性状或 复杂性疾病而言 , 这种情况相对比较少见 , 这可能是 由于研究样 本量不 足或芯 片缺陷 所致。测序 ( se quencing) 是发现罕见 SNP 的主要方法, 高通量测序 技术的 发展 及 千 人基因 组计 划 ! ( 1000 Genom es P ro je ct)的实施 , 将为未来进行少见或罕见遗传变异 关联分析奠定基础
[ 11] [ 10]

一、 研究方式 GWAS采用的研 究方式与 传统的候 选基 因病 例 对照 ( case contro l) 关联分析一致, 即如果人群基 因组中一些 SNP与某种疾病相关联, 理论上这些疾 病相关 SNP 等位基因频率在 某种疾病患者 ( case) 中应高于未患病对照人群 ( contro l) 。 GWAS目前分为单阶段研究 ( one stage desig n) 和两阶段 ( tw o stage desig n)或多阶段研究 ( m ultip le stage design) 设计。单阶段研究即选择足够的病例 和对照样本 , 一次 性在所 有研 究对 象中 对选中 的 SNP进行基因分型, 然后分析每个 SNP 与疾病的关 联, 分别计算关联强度和 OR, 在早期 GWAS 多使用 该类方法。目前 GWAS 主要采用两阶段或 多阶段 研究 : 在第 1阶段用覆盖全基因组范围的 SNP 进行 病例 对照关联分析, 统计分析后筛选出较少数量的 阳性 SNP; 对于那些在第 1 阶段 ( stage 1) 分析中与 疾病显著关联的阳性 SNP, 在第 2 阶段 ( stage 2) 或 随后多阶段中采用更大样本的病例 对照样本人群 进行基因分型 , 然后结合两或多阶段的结果进行分 析。这种设计策略需要保证第 1阶段筛选与疾病或 者表型关联 SNP的敏感性和特异性, 尽量减少分析 的假阳性和假阴性的发生, 并在第 2 阶段应用大样 本人群, 甚 至在多 种族人 群中 进行 基因 分型验 证 ( 图 3)。



图 3

GWA S 流程示意图

第 1 阶段的病例 对照关联分析可以是以个体 为单位, 也可以采用 DNA poo ling 的方法 , 后者可大
图 2 通过风险等位基因频率和遗传效应强度 ( OR )发现 疾病相关遗传变异的可行性 [ 10]

大降低基因分型的成本和工作量。但 是 DNA poo ling 的基因分型结果与对所有个体进行基因分型的 结果仍有一定差异 , DNA poo ling 估计的等位基因频 率标准差在 1 % ~ 4% 的范围 , 因而若单独以 DNA poo ling 来估计等位基因频率, 那么这种误差对全基 因组的病例 对照研究的检验效能 ( pow er o f test) 有 [ 12] 重要影响 。

进行 GWAS 时需满足病例必须 携带导致疾病 的遗传因素 , 选择覆盖全基因组的 SNP, 研究样本量 达到足够的检验效能, 采用高效可靠的数据分析方 法以及进行重复验证检验等条件。因此, 在 GWAS 的设计和实施中仍可能存在诸多问题。

生理科学进展 2010年第 41卷第 2 期

91

二、 研究对象的选择 确定研究对象的表型是 GWAS 设计中的重要 问题。疾病的遗传度 ( heritibility, h2) 表示疾病或表 型在多大程度上受遗传因素的影响, 较低 h2 的表型 [ 13 ] 会降 低 遗 传 学 关 联 研 究 的 检 验 效 能 。因 此 , GWAS 中应尽量选择 h2 较高的疾病或表型。进行 GWAS 时, 应尽可能选择那些可定量反映疾病危险 程度的指标、 可用于分析疾病临床亚型的特征 , 或可 用于诊断和鉴别诊断疾病的表型特征。由于数量表 型测量的难易程度直接和该表型遗传度相关 , 应选 择测量简单、 准确和遗传度高的数量表型 , 因为降低 测量误差的操作 ( 如重复测量 ) 和总体变异可能增 加该数量表型变异的 h2( 如多次测量血压可以增加 h2)
[ 14]

( 待发表资料, 图 4) 。此外 , 在中国不同地域 ( 如南 方和北方 ) 的汉族人群中 SNP 分布及频率也存在着 一定程度的差异 (待发表资料 , 图 5)。

。此外 , 由于临床上有许多很难测量或者诊

断模糊不清的疾病 ( 如 T 2D 虽 然诊断相 对比较明 确 , 但很多人因缺乏 T 2D 检测而误认为正常 ), 或如 缺血性脑卒中可能涉及血栓脱落或者脑动脉粥样硬 化 等 不 同 的 发 病机 制 , 但 在人 群 中 却 常 常同 时 出 现 而难 以区 分的疾 病 , 因此 , 在进 行 GWAS时 , 研 究 疾 病相 关数 量表 型有 时要 较 研究 疾病 状态 为佳。 三、 遗传标记的选择 GWAS最主要的 特点是应用覆 盖人类全基因 组 的 SNP进 行 研 究 。 H ap M ap是 展 示 人 类 常 见 遗 传 变异 ( comm on geneticvariation ) 的 一个 图谱 ! , 第 1 阶段 完成后 提供 了 4 个 人类 种族 [ Yoruban, N orthern and W estern European , and A sia n ( Chinese and Japanese) ] 共 269 个个体基因组, 超过 100 万个 SNP ( 约 1 SNP / 3kb ) 及 连锁 不 平 衡 区 域 ( linkage disequ ilibrium, LD ) 关 系的 图 谱 ; Stage 2增 加了 其 他 人 类 种 族 ( Luhya andM aasai from Kenya, Toscani from Italy , Gu ja rat i Indians , persons o f M ex ican ancestry , and persons o f m ix ed A frican ancestry) 数据 , SNP 的密度也增加到约 1 个 SNP /1 kb , 是 GWAS 的 重要参考依据。基于 H ap M ap 可以选择 500 000 到 1 000 000个覆盖全基因组的 SNP, 或通过 H ap lo v iew 软件筛选可代表基因组序列变异的标记 SNP 用于 GWAS , 也可以选择功能 SNP 进行研究。 然而, 现阶段 的 H ap M ap 尚不 完整, 比 较 H ap M ap 中 90 个中国人 SNP 与我们建立的含 987 个中 国汉族人 SNP( GeneID 数据库 ) 两组群体数据, 我们 发现约 40 % ~ 50 % 中国人群 SNP 的 MAF 数据需要 修正, 并在 G eneID 中新发现约 1 200 个在 H ap M ap 中显示 无多态性的 SNP 在中国人群中 MAF ? 5 % 而且 , 应用这些基于 H ap M ap 的 SNP, 特别是代 表一个 LD 区域 ( LD bin)的标记 SNP 虽然可发现与 某些特征或疾病相关 , 但还是暂时无法精确地获得 这些 LD b in 内 致病的遗传变异。由于 H ap M ap 中 包含了大量常见 SNP( comm on SNP )信息, 仅提供了 少量罕见 SNP ( rare SNP ) 信息 , 故早期的 GWAS 确 实成功地发现许多常见 SNP 在疾病发生中的作用, 但对于发现那些导致大部分特定疾病发生的罕见的 高风险遗传变异却效率有限。对于此类问题, 一种 折衷的策略是如 Cohen 等 ( 2004) 在研究低 HDL 血 症时对相关候选基因转录本或外显子测序 ( deep re sequencing) 以发现罕见致病 SNP。此外 , 大多数的 GWAS使用根据特殊遗传统计方法筛选的能满足一 定检验效能的商品化 SNP检测试剂盒 , 其 SNP 可以 保证在全基因组范围内发现疾病相关 SNP ( 以 P < - 7 0 . 05 、 单个位点 P < 10 、 95 % 检验效能 ), 而若要应 用能代表更大范围的低频率 SNP, 则应增加更多基

92

生理科学进展 2010年第 41 卷第 2期

因组低频率 SNP 信息 , 这需要大量的测序工作才能 实现。 基因 组 拷 贝 数 变 异 ( copy number variat io ns, CNV ) 是 20 世纪 80 年代发现的在人类基因组中存 在的多种类型的染色体数目和结构变异。是指与参 考序列相比 , 基因组中 ? 1 kb 的 DNA 片段插入、 缺 失和 /或扩增 , 及其互相组合衍生的复杂染色体结构 变异 。 2004 年, Iafra te 等和 Sebat 等首次描述了 人类基 因 组 CNV, 2006 年 Redon 等 确 定 了覆 盖 12% ( 300 M b) 人 类基 因组的 1 447 个 CNV 区域 ( CNV reg ion, CNVR) ; 与 SNP 相似 , 部分 CNV 在不 同人群中以不同频率分离并具有显著性差异 , 并可 能影响基因表达和表型改变, 因此 CNV 也是一种引 起疾病或 增 加复 杂 疾病 发 病风 险 的重 要 遗 传变 异 。就复杂性疾病而言, 由于疾病相关遗传变异 可能分布在不同染色体, 单纯以 SNP 为基础的关联 分析可能无法有效地区分受累个体和健康对照 , 而 CNV 可能通过数量作用和质量作用两种机制引起 的基因剂量改变导致表型改变 , 所以 CNV 全基因组 关联分析 ( CNV association ana ly sis) 可能 更容易检 测到致病遗传变异
[ 17] [ 16] [ 15]

假阴 性 结 果 的 一 个 主 要 原 因。 如 Cam pbell 等 ( 2005) 采用欧裔美国人研究与身 高表型乳糖酶基 因型的关联, 其结果在其他人群难以重复的原因即 是受研究对象在不同地域存在极大差异引起的人群 分层影响。人群分层产生的问题即使在研究对象是 同一种族人群时也仍然存在, 而且现有的研究方法 尚未能有效地解决此类问题, 一种可能的策略是采 用基于家系的关联研究, 该方法可以避免人群分层 对关联分析结 果的影响。家系样本进 行 GWAS 时 多采用传递不平衡检验 ( transm isstion d isequilib rium tes, t TDT ) 分析遗传标记与疾病质量性状和数 量性状的关联 , TDT 主要分析某个等位基因从杂合 子的父母传递给患病孩子 的机率是否高于 预期值 ( 50 % ) , 其优势在于可以排除人群混杂对于关联分 析的影响 , 不足之处在于其发现阳性关联的检验效 能低于相同样本量的病例 对照研究; 另一种策略则 是采取分层分数法 ( strat ification sco re approach), 即 在 GWAS 的第 1 阶段 , 应用基因组亚结构信息位点 ( substructure infor m ative lo c i) 分 析 与 疾 病 关 联 的 OR, 对每个观察对象计算分层分数 , 在 GWAS 的第 2 阶段根据分层分数将观察对象分层, 然后分别在 各层内分析待测 SNP位点与疾病的关联 , 以控制人 [ 20] 群分层对 GWAS 结果的可能影响 。 多重假设检验导致 的假阳性关联 是 GWAS 面 临的另一个主要问题。多种多重假设检验方法可用 于 GWAS , 主要分为对所有 P 值同时进行校正或对 每个 P 值进行单独校正 ( 单一步骤校正 ) 两种类型。 常用的对所有 P 值同时进行校正 的方法包括模拟 分析 ( per m utation ) 和 错 误 发 现 率 ( fa lse d iscovery rate , FDR ) 控制。模拟分析主要采用: ( 1) 组合检验 ( per m utat ion test) 是对 GWAS 结果中未矫正 P 值排 序后依据基因结构之间关系, 通过反复抽样模拟运 算分析 P 值 分布, 对所 有的 P 值同时 进行校 正; ( 2)蒙特卡罗模拟 ( M onte C arlo permutation) 是一类 通过随机变量统计试验进行随机模拟以求得问题近 似解的方法, 其基于群体遗传理论 , 按照在自然人群 中的理论值预测单体型的类型, 并在计算每个估计 单体型时得到 不确定性的估计值。 FDR 控 制是通 过控制错误 发现率 调整 P 值的一 种方法 , 其 先将 GWAS结果中未矫正 P 值从小到大排序, 最大的 P 值保持不变 , 其他 P 值按排列次序乘以系数 ( SNP 位点总数 /该位点 P 值的位次 ) , 若矫正后 P < 0. 05 则提示 SNP 位点与 疾病之 间的 关联具 有显著 性。 FDR 在减少假阴性结果时允许更多假阳性结果存
[ 18, 19]

; 同时, SNP、 CNV 的组成与拷

贝数以及环境因子都参与疾病特定表型的产生。因 此在进行 GWAS 时 , 结合 SNP 和 CNV 基因分型结 果可以充分发挥两者的互补性 传特征较为完整的理解。 四、 遗传统计分析 GWAS 用 于 病 例 对 照 研究 设 计 ( case control study)时 , 比较病例和对照组中每个 SNP 等位基因 频率 差 别 多 采 用 4 格 表 的 卡 方 检 验 ( ch i square test) , 并计算 OR 及其 95% 的可信区间 ( confidence in terva,l C I) , 归因分数 ( attributab le fractio n , AF ) 和 归因危 险度 ( attributable risk , AR ); 同时 需对如年 龄、 性别等主要混杂因素采用 L og istic 回归分析 , 以 基因型和混杂因素作为自变量 , 研究对象患病状态 为因 变量 进行分 析; GWAS 用于 研究 随机人 群的 SNP 与某一 数量性 状关 联时 ( 如身 高、 体重、 血压 等 ) , 主要 应用单因素方 差分析 ( one w ay ANOVA ) 比较 SNP位点 3 种基因型与所研究的数量性状水 平的关系, 需要调整混杂因素时则采用协方差分析 ( analysis o f covariance) 或 线 性回 归。 而在 GWAS 中 , 人群分层 ( popu latio n strat ification)和多重假设检 验调整 ( m ultiple testin g ad ju st ing ) 是引起 研究结果 分析误差的最主要原因。 人群分层是导致许多大样本研究出现假阳性或
[ 15, 17]

, 获得对疾病遗

生理科学进展 2010年第 41卷第 2 期

93

在 , 是最宽松的一种多重假设检验方法。 单一步骤校正方法主要包括 Bonferroni递减调 整 ( Bonferron i step down ad ju stm ent) 和 Bon ferron i校 正 ( Bonferron i co rrection)。 Bonferroni递减调整是先 将所有单个 SNP 位点 P 值从小到大排序 , 然后将第 1 位 ( 最小 P 值 ) 乘以 SNP 位点数, 第 2 位 ( 次小 P 值 ) 乘以 SNP 位点数 1 , 依次类推, 最后 1位 ( 最大 P 值 ) 乘以 1 , 矫正后 P < 0 . 05的 SNP位点提示其与疾 病之间的关联具有显著性 ; Bonferron i校正则是一种 最为保守和严格的多重比较 P 值的调整方法, 其将 单个假设检验每个位点 P 值结果乘以研究中同时 进行假设检验的次数 ( 即选择的遗传标记数目 ) , 如 果经过校正后的 P < 0. 05 则提示 SNP 位点与疾病 之间有显著性关联。 GWAS多 选 择 覆 盖 全 基 因 组 的 5 0 0 0 0 0到 1 000 000 个 SNP 作为标记进行 , 在 GWAS 结果分 析时多重假设检验的次数取决于所选 SNP 数量 (如 目前大多 GWAS 以 = 5 # 10 为显著性标准即是 根据基因芯片检测的 SNP 数量采用 Bonferroni校正
- 7

病揭开了新的序幕。短短数年 , 通过 GWAS 已经发 现许多以前未知的与性状或疾病相关的位点和染色 体区域, 为了解人类复杂性疾病的分子发病机制提 供了更多的线 索。然而与最 初的期望差距 甚远的 是, 目前的 GWAS 结果显得庞杂无序: 一些 SNP 仅 与疾病危险因子或诱发因子有关而非直接与疾病关 联; 很多常见 SNP对阐明大多数性状或疾病遗传特 征的作用似乎微乎其微 ; 几乎所有已发现的 SNP 仅 轻度增加疾病风险 , 大多数疾病的遗传关联仍然难 以解释; 而应用 GWAS 结果进行疾病的早期预测和 个体化的治疗更非想象的那样简单。但是, 事物发 展总是前进性和曲折性的统一, 虽然目前 GWAS 结 果的临床意义很有限 , 但是这些研究仍然应该继续 进行 , 而且应该避免急功近利 , 回归理性、 实事求是 地进行更长远的科学分析和研究。 基因是复杂的, 基因变异多种多样而非仅是单 核苷酸的改变 , 基因的变化是动态的而非静止, 基因 是生命的基本物质但非生命的全部。在疾病的发生 发展过程中, 可能包含有数个、 数十个、 甚至成百上 千个基因结构或功能的变化 , 不同个体、 疾病的不同 阶段涉及的基因变化亦可能有所不同 , 此外还涉及 基因与环境、 基因与生活方式之间的相互作用。因 此, 就复杂性疾病而言, GWAS 应审慎地有计划地实 行, 同时需要阐明基因 基因、 基因 RNA、 基因 蛋白 质、 基因 环境因素之间的复杂相互作用, 及其之间 的作用如何共同参与 疾病的发生发 展过程, 因 为, 基因是重要的 , 但并非故事的全部 !。 参 考 文 献

确定 )。随着技术的进步 , 可作为遗 传标记的 SNP 数量也将不断增加, 如果采用较为宽松的多重假设 检验方法就可能导致 I类错误 , 出现大量的假阳性 关联; 但是如果采用最为严格 Bonferroni校正 , 则又 可能导致过度校正, 结果使假阴性概率增加, 而与疾 病真正关联的 SNP 难以 发现。这也使目前认为比 较合理的两阶段 或多阶段 GWAS 策略陷入到两难 的选择悖论 : 由于在第 1 阶段常应用较小样本量进 行 GWAS , 采用 Bon ferron i校正可能因样本量不足导 致检验效能缺乏 , 难以发现与疾病关联的 SNP( 假阴 性概率增加 ); 如果采用宽松的多重假设检验方法 以保证在第 1 阶段 最大限度地发现疾病关联 SNP 进入第 2 阶段, 那么在增加假阳性结果的同时也带 来了需要在第 2 阶段验证更多 SNP 的问题。 因此, 无论是 GWAS 两阶段 /多 阶段设计 , 还是 采用 Bonferroni校正等遗传统计方 法, 都难以解决 人群分层及多重比较导致的假阳性或假阴性问题。 GWAS 不能仅凭 P 值判断某个 SNP 是否与疾病真 正关联 , 多种 族、 多群体、 大 样本的 重复验 证研究 ( replicatio n)才是提高检验效能、 确保发现真正疾病 关联 SNP的关键。 五、 展望 随着现代遗传学、 基因组学和医学研究的不断 深入, 我们对基因的认识也日趋深化。人类基因组 计划初步完成后 , GWAS 为研究人类性状 /复 杂性疾

1 Ha m osh A, Sco tt A F , Amberger JS, et a.l O n line M ende lian Inher itance in M an ( OM I M ), a know ledgebase o f hu m an genes and gene tic disorders . N uc le ic A c ids R es , 2005, 33% D 514~ D 517 . 2 H ardy J , S ing leton A. G enomew ide association studies and hum an disease . N Eng l J M ed, 2009, 360% 1759~ 1768 . 3 H indo rff LA, Sethupathy P , Junkins HA, e t a.l P oten tia l etio log ic and functiona l i m plica tions of genome w ide assoc ia tion loci fo r hum an diseases and tra its . P ro c N a tlA cad Sc,i 2009 , 106% 9362~ 9367. 4 H indo rff LA, Junk ins HA, M ehta JP, e t a. l A cata log of pub lished genom e w ide asso ciation stud ies. A va ilable a t ht tp: / /www. genome . gov /26525384 ( accessed, 18 Septe m ber 2009) . 5 T odd JA. Statistica l false pos itive o r true d isease pathw ay ? N a t G enet , 2006 , 38% 731~ 733.

94

生理科学进展 2010年第 41 卷第 2期

6 M y les S, D avison D, Barrett , et a. l W or ldw ide population differentiation at d isease assoc iated SN Ps. BM C M ed G e nom ics , 2008, 1% 22. 7 T er w illige r JD, H iekka linna T. 2006, 14 : 426~ 437. 8 P r itchard J K. A re rare var iants responsible for susceptibility to comm on diseases ? Am J Hum G ene t , 2001 , 69% 124 ~ 137. 9 M cCarthy M I , H irschhorn JN. G enet , 2008, 17% R 156~ R 165 . 10 M cCarthy M I , A becasis GR, Cardon LR, e t a . l G eno me w ide assoc iation stud ies for co m plex tra its : consensus , un certa inty and cha llenges . N at R ev G ene t , 2008, 9% 356~ 369. 11 A becasis GR. The 1000 G eno m es P ro jec t : analysis o f p ilot datase ts . B io logy o f G enomes page 246 ( Co ld Spring H ar bo r L aboratory , 5~ 9M ay 2009 http: / /www. csh1 . edu /). 12 Sham P , Bader JS , Cra ig I , e t a. l DNA poo ling : a too l for larg e sca le assoc iation stud ies . N at R ev G enet , 2002, 3% 862~ 871 . 13 Sha m PC, Cherny SS, Purce ll S, et a.l Pow er o f linkage versus assoc iation ana lysis o f quantitative tra its, by use o f var iance components m ode ls , for sibsh ip da ta . Am J H um G ene t , 2000, 6% 1616~ 1630 . G enome w ide association studies : potential nex t steps on a g enetic journey . H um M o l A n utte r refutation o f the " Funda m enta lT heo rem o f the H ap M ap". Eur J Hum G enet ,

14 L evy D, D eSte fano AL, L arson M G, et a . l Ev idence fo r a g ene influenc ing b lood pressure on chromoso m e 17. G e no m e scan linkag e results for long itud inal b lood pressure pheno types in sub jects fro m the fram ingha m heart study . H ypertension, 2000, 36% 477~ 483. 15 R edon R, Ishikaw a S, F itch KR, et a.l G loba l v ariation in copy num ber in the hum an geno me . N a ture , 2006 , 444% 444~ 454. 16 M cCarro ll SA. Extend ing g eno m e w ide assoc iation stud ies to copy number var iation. H um M ol G ene t , 2008, R135~ 142. 17 Beckm ann JS , Estiv ill X, Antonarak is SE. Copy num ber var iants and genetic tra its : c loser to the reso lution of phe no typic to geno typ ic var iab ility . N at R ev G enet , 2007, 8% 639~ 646 . 18 Spie l m an RS, M cG inn is RE, EwensW J . T ransm ission test for linkag e disequ ilibrium: the insulin gene reg ion and in sulin dependent diabetes m e llitus ( I DDM ). Am J Hum G enet , 1993, 52% 506~ 516. 19 V an S teen K, M c Q ueen M B, H erbert A, et a.l G eno m ic screen ing and rep lication using the sa m e data set in fam ily based assoc ia tion testing . N at G enet , 2005, 37 % 683 ~ 691. 20 Epstein M P , A llen AS, Satten GA. A s i m p le and i m proved correction for popu lation stratification in case con tro l stud ies. Am JH um G ene t , 2007, 80% 921~ 930. 17:

抑制磷酸肌醇 3 激酶可以防止小鼠心脏衰老
心力衰竭是一种典型的年龄相关疾病。随着年龄的增加 , 心脏会表现出某些独特的生理及形态特征 , 如 左心室肥厚、 舒张期充盈模式改变、 心脏节律变化, 等等。尽管与年龄增长有关的心脏改变可能诱发老年人 的心力衰竭 , 但是对于心脏衰老的分子机制, 仍知之甚少。已有研究发现 , 磷酸肌醇 3 激酶 ( phospho inositide 3 k in ase , P I3K )的功能减退可以导致秀丽线虫生命周期的延长 , 而此信号通路与衰老过程的联系 , 尚待阐明。 在近期出版的 &C irculation ?杂志上报道了日本京都大学 Yasutaka Inuzuka 等的研究成果。该研究以小鼠 为实验材料 , 探讨了小鼠心脏衰老的相关改变以及抑制 P I3K( p110 ) 的活性对心脏衰老的影响。 研究者选用 dom inant negative P I3K ( dnP I3K ) 的 突变型小 鼠, 使其 在心脏特 异性表 达的 1A 型 P I3K ( p110 )分子缺乏激酶活性; 另以同窝的非转基因 ( NT g)小鼠为对照。将 dnP I3K 型小鼠与对照小鼠在 3 月 龄和 20~ 24月龄时禁食处死 , 并分析结果。研究者对实验动物的存活期、 心功能、 病理检查 , 以及对 半乳 糖苷酶的活性、 细胞周期抑制因子、 促炎因子等衰老相关标记物进行检测, 结果发现: 衰老标记物的表达与老 龄小鼠的心功能减退有关 , 泛素化蛋白和脂褐素的累积说明蛋白质调控失常是心脏衰老的特征之一。另外, 抑制 P I3K 活性可以保护心功能 , 并减少衰老标记物的表达; 类似地 , 对 P I3K 信号通路下效应产物的抑制 , 也 可以预防脂褐素在心脏的累积。由此 , 研究人员认为, 对 P I3K 的抑制, 不仅可以防止小鼠心脏衰老的相关改 变 , 而且有助于保护老龄小鼠的心脏功能。
( C irculation, 2009, 120% 1695~ 1703)

( 杨学礼 )


赞助商链接
相关文章:
关联分析
关联分析全基因组选择 标记的选择 不是越多越好 两个平台: 1、材料平台:...植物数量性状关联分析研究进展 杨小红 严建兵 郑艳萍 1 余建明 李建生 来源:TRENDS...
基因组计划的现状与未来
基因组计划的现状与未来_生物学_自然科学_专业资料。...但作为一个具有文 化特质的人,他还必须反思他的所...并对该信息进行分析处理、模 拟等,以获得很多有...
全基因组选择在猪育种上的研究进展
全基因组选择在猪育种上的研究进展_畜牧兽医_农林牧渔_专业资料。全基因组选择在猪育种上的研究进展自野生动物被驯化以来,科学家一直致力于提高畜禽育种值的研究。...
基因组学研究进展论文
基因组学研究进展论文_生物学_自然科学_专业资料。...遗传分析系统 的双色红外荧光高通量检测技术有效结合...但 TILLING 也不是十全十美的,也有其缺陷,例如...
人类基因组计划研究的进展及其意义
人类基因组计划研究的进展及其意义 摘要:文章综述了人类基因组计划研究和进展的情况 关键词: 正文: 定义 人类基因组计划(human genome project, HGP)是由美国科学...
基因组编辑技术的研究进展
基因组编辑技术的研究进展院所:药物所 姓名:周国霖 学号:B2015008032 摘要: 基因组编辑技术是对基因组进行精确定点改造的一项新技术,同时也是研 究基因生物功能的...
植物基因组学的的研究进展
基因组学课程论文 题目:植物基因组学的的研究进展 姓名:秦冉 学号:11316040 植物基因组学的的研究进展摘 要:随着模式植物——拟南芥和水稻基因组测序的完成,近年来...
第18次全国动物遗传育种学术研讨会学术报告安排_定稿版...
中国荷斯坦牛基因组选择进展 家禽品种国产化: 机遇与挑战 我国种猪育种反思 猪饲料利用效率的全基因组关联分 析与选择 Genomic organization of the IgH genes and...
人类基因组计划的进展读后感
人类基因组计划的进展读后感_调查/报告_表格/模板_...至于医学应用,全基因 组关联研究(GWAS)现已披露了...序列分析需要用一个区域的 DNA 片段重叠群使测序...
进化基因组学研究进展
研究进化基因组学进展摘要:进化基因组学是利用基因组...在进行全基因组进化分析方面, 进化基因组学主要集中...组的进化和它们与果蝇生物学特 点和适应性的关联。...
更多相关标签: