当前位置:首页 >> 医学 >>

gwas


浅谈全基因组关联分析
周小青 (湖南师范大学生命科学学院 410081) 410081)

摘要 全基因组关联分析(Genome-wide association study,GWAS)是 应用人类基因组中数以百万计的单核苷酸多态性(single nucleotide ploymorphism,SNP)为标记进行病例对照分析,以期发现影响复杂性 疾病发生的遗传特征的一种新策略。近年来,随着人类基因组计划的 实施以及基因芯片技术的发展,人们已通过 GWAS 方法发现并鉴定了 大量与人类复杂性疾病关联的遗传变异, 为进一步了解控制人类复杂 性疾病的遗传特征提供了重要的线索。 本文介绍了近几年年来全基因 组关联研究在复杂疾病研究领域内的主要发现、 全基因组关联研究设 计原理,总结了人类全基因组关联研究所取得成就和存在的问题,并 对全基因组关联研究未来的研究重点和要解决的问题进行了展望。 关键词 Abstract 全基因组关联分析 单核苷酸多态性 复杂疾病

Genomewide association study (GWAS) is a novel strategy

for discovering genetic basis of human complex diseases , through using millions of single nucleotide polymorphism(SNPs) as marks to conduct case-control association studies. In recent years ,following the implementation of Human Genome Project and development of Genome Chips, large number of human complex diseases associated genetic variants has been identified through GWAS method,which provides important clues

for understanding the mechanisms of related diseases. The present paper reviewed some common comments in whole genome association study on complex diseases, including achievements of genome-wide asso-ciation studies on complex traits or diseases, the method of GWAS,and the achievements of GWAS study. Key words Genome-wide association study(GWAS) single nucleotide polymorphism(SNPs) complex diseases 人类基因组精细图的公布, 标志着现代医学的发展已逐步进入基 因组医学时代。人类功能基因组学研究就是以全基因组为背景,开展 人类基因及其编码蛋白的功能研究, 从而尽可能全面地揭示生命的奥 秘。目前,基因组医学对疾病诊断、恶性肿瘤、器官移植、精神疾病、 心血管疾病、制药、医学伦理以及基因治疗等方面的重要影响已初见 端倪,人类基因组为药物开发提供了新源泉。 遗传因素, 或其与环境因素之间的相互作用参与了几乎所有的人 类疾病的发生过程。 根据导致疾病的基因数量 ,传统上将有遗传因素 参与的疾病分为单基因疾病和复杂性疾病。 单基因疾病是指由于单个 基因的突变导致的疾病。近 20 年来 ,通过家系连锁分析的定位克隆 方法 ,研究者已发现了大量如囊性纤维化、 亨廷顿病等单基因疾病的 致病基因 ,这些基因的突变多改变了相应的编码蛋白氨基酸序列或 者产量 ,从而产生符合孟德尔遗传方式的疾病表型 疾病 ,连锁分析的作用非常有限。
[1]

。 但对于复杂性

复杂性疾病是指由于遗传和环境因素的共同作用引起的疾病。 很 久以来 ,人们已认识到大部分人类性状和复杂性疾病的产生受到多 个基因和环境因素的影响 ,但是发现并鉴定这些影响 “复杂性疾病 ” 的遗传变异却困难重重。 近年 ,随着人类基因组计划和基因组单倍体 图谱计划的实施 ,研究者开始对影响人类性状形成和复杂性疾病产 生的遗传特征进行了探索。 短短几年内 ,已经发现并鉴定了大量与人 类性状或复杂性疾病关联的遗传变异 (下图) ,为进一步了解控制人 类复杂性疾病发生的遗传特征提供了重要线索
[2]



截至 2009 年 6 月, 439 项 G WAS 发现的与人类性状或复杂性疾病关联 SNP 位点,不同灰度圆点代表不同性状或疾病

人类基因组计划完成后, 国际上人类基因组的研究已经进入新阶 段, 一种新型技术——全基因组关联分析技术的重大革新及其推广应 用,极大地推动了基因组医学的发展。 全基因组关联分析(Genome-wide association study,GWAS) 是 一种对全基因组范围内的常见遗传变异: 单核苷酸多态性(Singlen ucleotide polymorphism , SNP) 进行总体关联分析的方法, 即在 全基因组范围内选择遗传变异进行基因分型, 比较病例和对照间 每个变异频率的异差, 计算变异与疾病的关联强度, 选出最相关 的变异进行验证并最终确认与疾病相关
[3]



2005 年 Science 杂志首次报道了年龄相关性视网膜黄斑变 性 GWAS 结果,引起医学界和遗传界极大地轰动,此后一系列 GWA S 研究陆续展开
[8]

。2006 年,波士顿大学医学院联合哈佛大学等
[13]

多个研究单位报道了关于肥胖的 GWAS 研究结果

;2007 年,Sa

xena 等多个研究机构联合报道了Ⅱ型糖尿病关联的多个位点,Sa mani 等则发表了冠心病关联基因
[5]

;2008 年,Barrett 等通过 G

WAS 发现了 30 多个与克罗恩病相关的易感基因位点,;2009 年, Weiss 等运用 GWAS 发现了与具有高度遗传性的神经发育疾病—— 自闭症关联的染色体区域。我国学者则通过对 12000 多名汉族系 统性红斑狼疮患者以及健康对照者的 GWAS 发现了 5 个红斑狼疮易 感基因,并确定了 4 个新的易感位点。截至 2010 年 4 月,已陆续 报道了关于人类身高、体重、血压等主要性状,以及视网膜黄斑、 乳腺癌、前列腺癌、白血病、冠心病、肥胖症、糖尿病、精神分

裂症、风湿性关节炎等几十种威胁人类健康的常见疾病的 GWAS 结果,累计发表了近万篇论文,确定了一系列疾病发病的致病基 因、相关基因、易感区域和 SNP 变异
[19]



GWAS 采用的研究方式与传统的候选基因病例对照关联分析 一致,即如果人群基因组中一些 SNP 与某种疾病相关联,理论上 这些疾病相关 SNP 等位基因频率在某种疾病患者中应该高于未患 病对照人群
[6]

。目前 GWAS 分为单阶段和两阶段或多阶段设计。

单基因阶段是选择足够的病例和对照样本,一次性在所有研究对 象中对选中的 SNP 进行基因分型,然后分析每个 SNP 与疾病的关 联,分别计算关联强度,在早期 GWAS 主要采取此类方法。目前 GW AS 研究主要采用两阶段或多阶段研究:在第一阶段用覆盖全基因 组范围的 SNP 进行病例对照分析,统计分析后筛选出较少数量的 阳性 SNP 进行第二阶段或随后的多阶段中采用更大样本的病例对 照样本群进行基因分型,然后结合两阶段或多阶段的结果进行分 析。这种设计需要保证第一阶段筛选与疾病相关的 SNP 的敏感性 和特异性,尽量减少分析的假阳性与假阴性的发生,并在第二阶 段应用大量样本人群,甚至在多种人群中进行基因分型验证。如 下图;

GWAS 流程示意图 虽然 GWAS 结果在很大程度上增加了人们对人类疾病分子遗传机 制的理解 ,但也显现出很大的局限性。 首先 ,通过统计分析遗传因素 和性状 /复杂性疾病的关系 ,确定与特定性状 /复杂性疾病关联的 功能性位点存在一定难度。 通过 GWAS 发现的许多 SNP 位点并不影响 蛋白质中氨基酸 ,甚至许多 SNP 位点不在蛋白编码开放阅读框 ( open reading frame,ORF)内,这为解释 SNP 位点与性状 /复杂性 疾病产生之间的关系造成了一定的困难。 但是 ,由于性状 /复杂性疾 病很大程度上是由数量性状决定 ,SNP 位点可能通过影响基因表达量 对这些数量性状产生轻微的作用 (如胰岛素基因启动子中的遗传变

异增加 1 型糖尿病风险 ),它们在 RNA 的转录或翻译效率上发挥作 用 ,可能在基因表达上产生短暂的或依赖时空的多种影响 ,刺激调 节基因的转录表达或影响其 RNA 剪接方式
[10]

。因此 ,研究者在找寻

疾病相关变异时 ,应同时注意到编码区和调控区位点变异的重要性。 其次 ,等位基因结构 (数量、 类型、 作用大小和易感性变异频率 ) 在不同性状 /疾病中可能具有不同特征。 例如年龄依赖性黄斑变性 , 大部分这种常见疾病即由少数几个具有较大效应 (的常见遗传变异 所致 ,而其它许多疾病如克罗恩病 ,虽然已发现多个遗传变异与该 病相关 ,但是只有部分该病病例可用这些遗传变异进行解释(下图); 又如 ,目前通过纳入上万人的 G WAS 已发现至少有 40 个 SNP 位点 与人类身高 (遗传度约为 80% )关联 ,但这些 SNP 位点仅解释了约 5%的身高表型变异
[17]

。因此 ,大部分常见遗传变异可能通过单独或

联合作用轻度增加疾病发生风险,而这些变异仅可解释部分人群中因 遗传引起的表型变异。

随着现代遗传学、 基因组学和医学研究的不断深入 ,我们对基 因的认识也日趋深化。人类基因组计划初步完成后 , GWAS 为研究人 类性状 /复杂性疾病揭开了新的序幕。短短数年 ,通过 GWAS 已经发 现许多以前未知的与性状或疾病相关的位点和染色体区域 ,为了解 人类复杂性疾病的分子发病机制提供了更多的线索。 然而与最初的期 望差距甚远的是 ,目前的 GWAS 结果显得庞杂无序:一些 SNP 仅与疾 病危险因子或诱发因子有关而非直接与疾病关联;很多常见 SNP 对阐 明大多数性状或疾病遗传特征的作用似乎微乎其微;几乎所有已发现 的 SNP 仅轻度增加疾病风险 ,大多数疾病的遗传关联仍然难以解释; 而应用 GWAS 结果进行疾病的早期预测和个体化的治疗更非想象的那 样简单
[13]

。但是,事物发展总是前进性和曲折性的统一 ,虽然目前

GWAS 结果的临床意义很有限 ,但是这些研究仍然应该继续进行 ,而

且应该避免急功近利 ,回归理性、 实事求是地进行更长远的科学分析 和研究。 尽管研究人员已经揭开了人类基因组中的部分秘密, 但还有很多 问题等着他们去研究。在发现与疾病相关的遗传变异方面,GWAS 取 得了不错的成绩,不过今后的研究历程会更加艰难。研究人员使用 GWA 获得了一些成果,同时也对 GWA 有了更深入的认识。但是,使用 GWA 可能不再那么容易获得结果了。更先进的新一代测序技术也削弱 了 GWA 技术的优势地位。尽管借助 GWA 分析获得了很多结果,但人们 逐渐发现,这些结果越来越难以解释遗传性疾病的特点了。 不过,如果要就此快速做出结论,全盘否定 GWA 的试验结果也是 不对的。随着人们对表型-基因型因果关系研究的深入,毫无疑问会 对遗传现象了解得越来越多,越来越清楚。如果不考虑这些遗传位点 在预测患病风险上的问题的话,就帮助人们更好地认识疾病的病因 学、预测药物靶点等方面来说,还是有很大用处的
[11]

。同样,如果

认为有了基因组完整的测序数据,就不需要对 GWA 研究进行改进了, 这种想法也是非常天真的。比如,在 GWA 研究后要确定一个基因型- 表型因果关系就很困难,因为由于连锁不平衡的原因,相邻的 SNP 之 间会有连锁现象发生。同样,在测序时同样存在连锁不平衡现象。而 且即使测序的费用降到非常低的水平,要想如 GWA 研究一样,获得大 量样本的基因组数据,至少在几年之内是不太可能实现的。在改善人 类健康状况的征途上,GWAS 还有很长、很艰巨的路要走,但这是非 常值得走下去的。

主要参考文献
[1] 严卫丽. 复杂疾病全基因组关联研究进展——遗传统计分析. 遗传, 2008. [2] 顾东风. 常见复杂性疾病的遗传学和遗传流行病学研究:挑战和对策. 中 国医学科学院学报, 2006. [3] 黄文涛,戴甲培,陈润生. 复杂疾病全基因组关联研究:进展,问题和未来. 中南民族大学学报(自然科学版), 2009. . [4] 李婧,潘玉春,李亦学,石铁流. 人类基因组单核苷酸多态性和单体型的分 析及应用[J]. 遗传学报, 2005. [5] 吴学森. 基于全基因组关联分析的基因(环境)交互作用统计学方法进展. 蚌埠医学院学报, 2008. [6] 严卫丽. 基因组关联研究进展——研究设计和遗传标记. 遗传, 2008. [7] 严卫丽. 单体型分析:复杂疾病基因定位的新希望. 新疆医科大学学报, 2006. [8] 张学军. 复杂疾病的遗传学研究策略. 安徽医科大学学报, 2007.. [9] 严卫丽,顾东风. 复杂疾病关联研究中的若干问题. 遗传学报, 2004. [10] 傅咏南,王校. 全基因组关联分析对相关研究与产业的推动作用. 中国优 生优育, 2008. [11] 吴学森. 基于全基因组关联分析的基因(环境)交互作统计学方法进展. 蚌埠医学院学报, 2008. [12] 许力, 王升启. 药物基因组学的发展及其在个体化用药中的应用. 国 外医学药学分册, 2006. [13] 石娟 洪洁 肥胖症全基因组关联分析研究进展 国际内科学杂志 2009. [14] 郑厚峰 杨森 张学军 复杂疾病的全基因组关联分析研究新进展 . 遗传 2009 [15] 杨英, 鲁向锋 冠心病全基因组关联研究进展遗传. 2010. [16] 孙玉琳, 刘飞 拷贝数变异的全基因组关联分析. 生物化学与生物物理 进展 2009. [17] 凃欣, 石立松, 汪樊 ,王擎 全基因组关联分析的进展与反思. 生理科 学进展 2010. [18] 傅咏南 ,王校 全基因组关联分析对相关研究与产业的推动作用. 中国 优生优育. 2008. [19] 张学军 全基因组关联分析对银屑病遗传学研究的启示. 浙江大学学报 2009. [20] 张学军 新型基因组分析方法发现银屑病新的易感基因 LCE. 中国基础 科学. 2010. [21] 郝峻烽; 魏玉保; 陈蕊雯 类风湿关节炎易感基因的全基因组关联分析 研究进展 第二军医大学学报 2009. [22] 李彪; 陈润生 复杂疾病关联分析进展 中国医学科学院学报 2006 [23] 张江鹄 散发性肌萎缩侧索硬化基因突变与多态性研究 中国协和医 科大学 2008. [24] A haplotype map of the human genome. Nature 2005.

[25] Genome-wide association study of 14,000 cases of sevencommon diseases and 3,000 shared controls. Nature 2007.

目前的 GWAS 多采用两个阶段的设计: 首先采用覆盖整个基因组的高通量 SNP 分型芯片对一批样本进行 扫描,然后筛选出最显著的 SNP(如 P<10-7)供第二阶段进行扩大样本验证。GWAS 两阶段研究设计减 少了基因分型的工作量和花费,同时通过重复实验降低了研究的假阳性率。GWAS 的整体过程比较复杂, 其大致流程如下:1)经过处理的 DNA 样品与高通量的 SNP 分型芯片进行杂交;2)通过特定的扫描仪 对芯片进行扫描, 将每个样品所有的 SNP 分型信息以数字形式储存于计算机中; 对原始数据进行质控, 3) 检测分型样本和位点的得率(call rate) 、病例对照的匹配程度、人群结构的分层情况等;4)对经过各种 严格质控的数据进行关联分析;5)根据关联分析结果,综合考虑基因功能多方面因素后,筛选出最有意义 的一批 SNP 位点; 根据需要验证 SNP 的数量选择合适通量的基因分型技术在独立样本中进行验证; 6) 7) 合并分析 GWAS 两阶段数据 GWAS(Genome Wide Association Study,全基因组关联分析):提取生病组和正常组个体的基因组 DNA, 利用基因芯片做全基因组 SNP 分析,用统计学的方法找出两组个体之间有显著不同的 SNP 位点,从而将疾 病的病因定位于那些 SNP 位点上,而具有那些 SNP 的基因变成那些疾病的“易感基因”。

一.关于 SNP : 大多数常见的疾病,如糖尿病、癌症、中风、心脏病、抑郁症、哮喘等,受众多基因以及环境因子共同作用。尽管 任意两个不相关的人的 DNA 序列有 99.9% 是一致的,剩下的那 0.1% 由于包含了遗传上的差异因素而非常重要。 这些差异造成人们罹患疾病的不同风险和对药物的不同反应。发现这些与常见疾病相关的 DNA 序列上的多态位点, 是了解引起人类疾病的复杂原因的最重要途径之一。

除了同卵双胞胎以外,每个人都有自己独特的 DNA 构成,正是这些 DNA 水平上的差异造成了每个人独特性。在基 因组中,不同个体的 DNA 序列上的单个碱基的差异被称作 单核苷酸多态性( SNPs ) 。例如,某些人的染色体 单核苷酸多态性( 上某个位置的碱基是 A ,而另一些人的染色体的相同位置上的碱基则是 G 。同一位置上的每个碱基类型叫做一个 等位位点。这样的变化可能在个人的体内造成的相应的改变,就像修改单词中的一个字母(‘ d'ear to ‘p'ear ), 就能完全改变这个单词的意思。 通常这种单个碱基的改变称为 SNP , 单核苷酸多态性。 “单核苷酸多态性” SNP ) ( 是基因变异的最常见方式,人类基因组中约有 1000 万个“单核苷酸多态性”( SNP ),不同人之所以对疾病的易 感程度有所区别、对药物会产生不同反应,科学家认为是部分地受到“单核苷酸多态性”( SNP )的影响。

除性染色体外,每个人体内的染色体都有两份。一个人所拥有的一对等位位点的类型被称作 基因型 geno( geno-type ) 。对上述 SNP 位点而言,一个人的基因型有三种可能性,分别是 AA , AG 或 GG 。基因型这 一名称即可以指个体的某个 SNP 的等位位点,也可以指基因组中很多 SNPs 的等位位点。检定一个人的基因型,被 称作基因分型( genotyping )。 人类的所有群体中大约存在一千万个 SNP 位点,其中稀有的 SNP 位点的频率至少有 1% 。相邻 SNPs 的等位位点 倾向于以一个整体遗传给后代。位于染色体上某一区域的一组相关联的 SNP 等位位点被称作 单体型 hap( hap-lotype ) 。大多数染色体区域只有少数几个常见的单体型(每个具有至少 5% 的频率),它们代表了一 个群体中人与人之间的大部分多态性。一个染色体区域可以有很多 SNP 位点,但是只用少数几个 标签 SNPs ,就 能够提供该区域内大多数的遗传多态模式。

研究者一般通过比较患者和非患者来发现影响某种疾病例如糖尿病的基因。在两组单体型频率不同的染色体区域, 就有可能包含疾病相关基因。理论上,研究者通过对全部一千万个 SNP 位点都进行基因分型,也能够寻找到这样的 区域。 但是, 目前用这种方法进行检定的成本是过于昂贵。 通过单体型图计划将鉴定出 20~100 万个标签 SNP 位点, 从而提供与一千万个 SNP 位点大致相同的图谱信息。这样将大幅度地减少成本使研究易于进行。 SNPs 所处位置既有可能在基因序列内,也有可能在基因以外的非编码序列上,分别为编码区 SNPs (cSNPs) 和非编 码区 SNP 。 cSNPs 又分为两种,一种为同义 cSNPs (synonymous cSNPs) ,它所导致的编码序列改变并不影响其 所翻译的蛋白质的氨基酸序列, 突变碱基与未突变碱基的含义相同; 另一种为非同义 cSNPs(non-synonymous cSNPs) 指碱基序列的改变可使翻译的蛋白质序列发生改变,从而影响了蛋白质的功能,这种改变常是导致生物性状改变的

直接原因。 一个染色体区域可以有很多 SNP 位点, 能代表其他位点信息的 SNP 位点称为标签 SNP , Tag SNPs (标签 SNPs ) : 用少数几个标签 SNPs , 就能够提供该区域内大多数的遗传多态模式。 利用标签 SNP 可极大提供关联分析的有效性。 Illumina 全基因组 SNP 芯片采用标签 SNP 的策略, 相比采用随机选择 SNP 位点的策略, 可以通过更少的 SNP 位 点达到更强的统计学效果。 计划: HapMap 计划: 国际人类基因组单体型图计划(简称 HapMap 计划)是由加拿大、中国、日本、尼日利亚、英国和 美国共同资助和合作进行的项目, 旨在建立一个将帮助研究者发现人类疾病及其对药物反应的相关基因的公众资源。 其核心战略是通过对大量的 SNPs 分型,挑选适合疾病相关研究使用的 TagSNPs ,目前已经可以初步使用,密度还 有待提高。 二.各基因分型产品详细介绍: (一)全基因组 SNP 分型研究 HumanCNV-3701. HumanCNV-370-Duo : 在 Humanhap-300-Duo 的基础上增加了 ~55,000 个针对 11000 个拷贝数变化高发区域 的探针, 这些区域包括片段复制区域, megasatellites , SNP 沙漠, MHC 区。 增加的探针包括 SNP 位点和非 SNP 的探针。HumanCNV-370-Duo 完全覆盖了 11000 个 CNV 区域, 其中约 9000 个 CNV 区尚未有在公开数据库中报导。 2. HumanHap550 : 共包含了 >555K 个标签 SNP ,另外它还包含了 4,300 个新近报导的 CNVSNPs , 7,800 个 非同义 nsSNPs , MHC 区域 1,800 个 tag SNPs , 177 个线粒体 SNP ,和 11 个 Y- 染色体 SNPs 。 5503. HumanHap 550-Duo : 在包含和 HumanHap 550 相同内容的基础上,可以在一张芯片上平行进行 2 个样本的 检测,降低了每个样本的研究成本。 4. HumanHap 550+ : 在包含 HumanHap 550 相同内容的基础上,研究人员可根据自己的需要加入最多 120600 个 SNPs 。 510S5. Human Exon 510S-Duo : 包含了约 510000 个标签 SNP 。其中 330000 个标签 SNP 偏重于基因中央的 SNPs 和 nsSNPs , 其他一些有研究价值的标签 SNP 主要针对于新近报导的 CNV 区域, 与药物代谢有关的基因区域和 MHC 区域。同样可以在一张芯片上平行进行 2 个样本的检测,是 HumanHap 550-Duo 的辅助产品,将这两款产品联合使 用则能提供相当于 Human 1M 的全部 SNP 信息。 6106. Human 610-quad : 在一张芯片上可平行进行 4 个样品的检测,显著的增加了样本输出信息量,减少了实验 操作中的误差。 Human 610-quad 广泛地采用了 HumanHap550 芯片的内容,以及额外增加了 60000 个遗传标记。 Human 610-quad 涵盖的全基因组信息, 对于已知的和新近报道的 CNV 区域来说都具有权威性。 Human 610-quad 上 的 SNPs 以约 5kb 的密度均匀分布在基因组上。 针对于基因组中高多态性的 CNV 区域 (片段复制区和无 SNP 的基 因组区域), Human 610-quad 设计了一些特异的靶标来进行研究。 7. HumanHap 650Y : 覆盖了来自 Hapmap 计划项目( www.hapmap.org ) >655K 个全基因组标签 SNP ,涵盖 了多类人群的全基因组信息,除此之外,芯片上还包含了约 4300 个新近报导的 CNP 区域的 SNP,177 个线粒体中 的 SNPs , 11 个 Y- 染色体上的 SNPs 。同样,该款产品适用于全基因组 LOH 和拷贝数变化的研究,和使用随机 挑选的 SNPs 作为全基因组基因分型研究方案相比,该款芯片利用尽可能少的 SNPs 来涵盖整个基因组信息。 Human660W8. Human660W-Quad : 在一张芯片上可平行进行 4 个样品的检测,显著的增加了样本输出信息量,减少了实验 操作中的误差。该芯片广泛地采用了 HumanHap550 芯片的内容,以及额外增加了 100,000 个遗传标记。 Human 660w-quad 涵盖的全基因组信息,对于已知的和新近报道的 CNV 区域来说都具有权威性。 Human 660w-quad 上的 SNPs 以约 5kb 的密度均匀分布在基因组上。针对于基因组中高多态性的 CNV 区域(片段复制区和无 SNP 的基因 组区域), Human 660w-quad 设计了一些特异的靶标来进行研究。 9. Human 1M : 在一张芯片上包含了一百万个探针信息,它最大限度地涵盖人全基因组的全部信息: ? ? 基因 SNPs :约 400,000 个 SNP 基因区域 10kb 覆盖 >99% of RefSeq 基因,约 25,000 个非同义 SNPs 标签 Tag SNPs : 根据 HapMap 挑选标签 SNP , r2 > 0.8 前提下, Caucasian (CEU) 、 Han Chinese/Japanese 在

(CHB/JPT) 和 Yoruba (YRI) 人种中基因组覆盖率分别为 95% 、 94% 和 85% 。提供了最高限度的基因组覆盖率。 在基因组中平均间隔为 2.4 kb

? ? ? ? ?

CNV 区域: 探针覆盖了 CNV 高发区域如片段复制区域, megasatellites , SNP 沙漠, MHC 区; 覆盖 Database ADME (Absorption, Distribution, Metabolism, Excretion) 基因:包含 200 个已知 ADME 基因中的 10,000 MHC 区域:包含 6,000 SNP 和 indel 标记 性染色体: 38,000 个 X 染色体位点、 3,000 Y 染色体位点、 400 伪常染色体区 (PAR) 位点 线粒体 SNP : 160 mtSNP

of Genomic Variants(DGV) 数据库中已报导的 CNV 区域;特有探针覆盖 DGV 数据库中尚未报导的 CNV 区域 SNP

10. Semi10. Semi-Custom Human 1M -Duo+ : 包含了超过一百万个探针信息,可以在一张芯片上平行进行 2 个样本的检 测。 该款芯片在包含 Human 1M 单样本微珠芯片内容的基础上, 增加了一些新的位点, 增加了疾病相关的 SNP 位 如: 点,灵活的选择一些基因组编码区高密度的 SNP 位点。 Human 1M -duo 在基因覆盖度方面、检测与疾病相关的 SNP 位点数目上已达到业界领先水平,同时做到了在拷贝数变异分析方面的大间距间隔情况最少。 11. HumanCytoSNP11. HumanCytoSNP-12 : 包含 300,000 个遗传标记探针可检测与 300 多个综合症有关各种异常,广泛覆盖 pericentromeric 区(基因组结构中迅速改变的区域)、亚端粒区和性染色体,特别还包括可检测 400 余个参与发育 缺陷、智力迟钝和其他的结构性变化的基因相应探针。 (二)针对性 SNP 分型研究 12. BeadChip 12. HumanCVD BeadChip :包含 49,000 个 SNP 探针,可检测 2100 余个与心血管疾病(CVD)相关候选基因。探针 来源:已发表科研文献、心血管疾病(CVD)通路分析以及最新全基因组关联分析的资料。 13. 芯片( 13.肿瘤相关 SNP 芯片( Cancer Panel) : 选择约 400 个肿瘤相关基因的 >1400 个 SNP 标记,信息来源于美 国 NIHSNP500 肿瘤数据库 http://snp500cancer.nci.nih.gov/ 。 14. 质控芯片: 14. DNA 质控芯片: 包含 360 个 SNP 位点,可以在进行大位点实验之前对样品进行质控。 15. HumanNS15. HumanNS-12 : 在一张芯片可平行做 12 个样品,每个样品可检测 13,900 个非同义 SNP 。 16. 16.主要组织兼容性研究芯片 ( MHC Panel ): MHC(Major Histocompatibility Complex) 主要组织相容性区 域是一段 4Mb 的基因组序列,位于 Chr 6p21 上,包含了 160 个基因。这些基因中有 40% 与免疫蛋白编码相关, 其中也包括了白细胞抗原基因等。 MHC 芯片针对这一区域挑选了 2,400 个平均间隔 2kb 的 SNP 标记,对该区域 的 SNP 进行检测。 MHC 芯片可广泛应用于免疫,移植,疾病等相关研究。 (三)定制芯片 17. 芯片: 17. GoldenGate 自定义 SNP 芯片: 实验者可以完全根据研究需要挑选 SNP 位点,制做探针组 (OPA) ,来进行 分型研究。它适用于多种研究如各种疾病的连锁分析或关联分析;禽畜的育种分型;其他物种(如微生物,植物等 等)的遗传学研究等。每个样品了同时检测 96,384-1536 个 SNP 位点。 18. 芯片: 18. iSelect 自定义 SNP 芯片: 完全根据研究需要挑选 SNP 位点进行研究。每张芯片可平行做 12 个样品,每 个样品可检测 7,600 - 60,800 个 SNP 位点。 (三)连锁分析 19. 19.人类连锁分析芯片 (Linkage Panel) : 连锁分析芯片包括了人全基因组内染色体区域内的 >6000 个 SNP 标 记,他们是从 HapMap 项目数据库中挑选出来的信息结果最好的标记,两个 SNP 平均遗传间距 0.64cM ,物理间距 482Kb ,比 STR 具有更高的密度。 20. Linkage) 20.小鼠低密度和中密度连锁分析芯片 (Mouse Linkage) : 小鼠是理想的进行疾病遗传学研究的模式动物,小鼠 低密度和中密度连锁分析芯片提供了两套不同密度的芯片进行疾病的连锁分析。 (四)拷贝数变化和杂合性缺失研究 拷贝数变化( CNV )和杂合性缺失( LOH) 是肿瘤细胞中一种非常常见的 DNA 变异。长期的细胞遗传学的研究证 实,几乎所有的肿瘤细胞都存在染色体片段的非随机性丢失。而基因拷贝数的变化,往往与神经功能、细胞生长的 调节、新陈代谢以及某些疾病有关。这些变化的研究越来越成为疾病研究的热点。 Illumina 全基因组 SNP 芯片 皆可用来进行 的研究。 皆可用来进行 CNV/LOH 的研究。 (五)其他物种全基因组 SNP 分型研究 21. 牛全基因组分型芯片): 21. BovineSNP50 Genotyping BeadChip (牛全基因组分型芯片): Illumina 公司与牛类研究专家联合开发出

牛 SNP50 基因芯片,该芯片含超过 54 , 000 个靶 SNP 探针, SNP 信息来自 Illumina Genome Analzyer 测序 结果和已发布的公共信息。该芯片可分析 12 个样本,是分析牛基因变异的经济有效的实验手段。牛 SNP50 基因芯 片 SNP 位点的平均间隔为 51.5kb ,相较于全基因组扫描,鉴定数量性状位点,比较遗传学等其他试验方法,该方 法的探针密度更高,分析更有效。 22. 犬全基因组分型芯片): 22. CanineSNP20 Genotyping BeadChip (犬全基因组分型芯片): 犬 SNP20 基因芯片中含有大量信息的 SNP 探 针,平均间隔为 22362 ,可以对任何一种家养犬类进行全基因组扫描。 Illumina 公司通过与 CanFam2.0 合作, 挑选出高多态性位点以鉴定不同的家养犬类种群。如果 SNP 平均密度为每兆 8 个位点,那么该芯片可包含所有的 种群关联研究位点。该芯片可同时检验 12 个样本,大大节约了经费。采用 BeadArray 技术设计,及无 PCR 步骤 的 Infinium 方法分析。芯片具有极好的基因覆盖率、 call rate 值和重复率。 23. 分型芯片): 23. EquineSNP50 Genotyping BeadChip (马全基因组 SNP 分型芯片): 该芯片含 54 , 602 个 SNP 位点, 这些位点均一分布在 15 个品种马匹的全基因组序列上。 芯片数据信息来自马基因组测序计划。 SNP50 基因芯片 马 SNP 的平均间隔为 43.2kb 。该基因芯片可同时检测 12 个样本,为各种全基因组研究提供了可能,例如基因关联 研究和鉴定数量性状位点的研究。 24. 分型芯片) 24. PorcineSNP60 Genotyping BeadChip (猪全基因组 SNP 分型芯片) 猪 SNP60 基因分型芯片是通过 Illumina : 的 iSelect 项目与国际领先研究协会合作开发。 它包含超过 60000 个 SNP 位点, 以步长平均每 40kb 有一个标记, 覆盖猪的基因组。此 12 样本芯片整合了多种猪的基因差异,包括杜洛克猪,长白猪,皮特兰猪和大白猪,其性价 比高,能提供足够的 SNP 密度,可应用与全基因组关联研究或其他研究中,如:全基因组选择、测定遗传指数、鉴 定数量性状位点、比较基因研究。 25. 分型芯片): 25. OvineSNP50 Genotyping BeadChip (羊全基因组 SNP 分型芯片): 羊 SNP50 基因分型芯片是通过 Illumina 的 iSelect 项目与国际羊基因组协会合作开发。它包含超过 50000 个 SNP 位点,平均每 46kb 有一个标记,覆盖 整个基因组。此 12 样本芯片整合了多个羊品种基因差异,性价比高,能提供足够的 SNP 密度,可应用与全基因组 关联研究或其他研究中。 三.服务指南: 客户提供:≥ 10
6

细胞 100mg 组织或 5mLEDTA 或枸橼酸钠抗凝全血及简要样品说明(样本量低:单次反应最低

仅须 250ng DNA ) 实验周期:样品质检合格后 15 个工作日提供完整基因分型芯片数据和结果报告

国内外 SNPs 研究的进展及展望
当前,SNPs 研究在国际上有很大的进展,NATURE、Science、New England 、PNAS 等顶尖杂 志在近几年发表了大量的论文,国内各种医学权威期刊几乎每期都刊登关于 SNPs 的论文。 当然,国内与国外相比还是有很大差距的,这体现在国内的小样本、研究内容不深入(仅限 于关联研究)、基因分型技术手段落后等等方面。众所周知,研究生是科研的主力军,大多 数论文工作都是由我们研究生完成,因此,本版块特开辟此专帖,大家集中讨论关于 SNPs 研究的一些最新进展,希望大家积极参与,互相促进,在此热贴下跟帖者会给予优先奖励。 此次讨论共分 5 个方面,大家可以选择一个侧面或者多个侧面阐述之,主要包括: 1. SNPs 的基础知识介绍(SNP basics, definition) 2. SNPs 的分型方法(SNP genotyping methods)

3. 如何选择研究的 SNPs(Selection of targeted SNPs) 4. 如何采用分子流行学的方法对 SNPs 进行研究 (Association studies using molecular epidemiology) 5. SNPs 的功能学验证(Identification of Functional SNPs)SNPs 是指 DNA 序列上发生的 单个核苷酸碱基之间的变异,在人群中这种变异的发生频率至少大于 1%, 它是基因组中存 在的一种数量非常丰富的变异形式,占人类基因组中遗传多态性的 90%以上。 针对不同人种 基因组的测序结果表明,在人类群体中存在大约 1000 万个 SNP 位点,在公共数据库中至少有 500 多万个 SNPs 已被报道,SNPs 在基因组的分布密度达到每 300-500 个碱基就存在一个 SNP[1-4]。 1. SNPs 检测技术的进展 随着分子生物学技术的飞跃发展, SNPs 基因分型技术和方法不断涌现。虽然经典的一些检 测 SNPs 的技术,如限制性片段长度多态性(restriction fragment length polymorphism, RFLP)和单链构象多态性(single-strand conformation polymorphism, SSCP)等技术仍 在实践中广泛使用,但一些高灵敏度、 高通量的基因分型方法日益受到重视,这些检测技术包 括:TaqMan 探针法、SNPlex 基因分型法、连接酶检测反应法(ligase detection reaction, LDR)、焦磷酸测序法、DNA 芯片/阵列分析法、微球法(Illumina),以及质谱分析和温控 高效液相色谱法[5-7],可以满足大样本及多 SNPs 位点的基因分型要求。 2. 人类基因组单体型图 虽然人类基因组 SNPs 数量众多,但是染色体上相邻 SNPs 的等位位点倾向于以一个整体遗传 给后代,这些位于染色体上某一区域的一组相关联的 SNP 等位位点被称作单体型 (haplotype)。大多数染色体区域只有少数几个常见的单体型(每个具有至少 5%的频率), 它们代表了一个群体中的大部分多态性。一个染色体区域可以有很多 SNP 位点,但是少数几 个标签 SNPs(TagSNPs)就能够提供该区域内大多数的遗传多态模式。人类基因组单体型计 划通过对约 100 万个 SNPs 进行基因分型,拟构建人类 DNA 序列中多态位点的常见模式[8]。 人类基因组单体型图谱的逐渐绘制完成,提供了详尽的人类 DNA 序列的变异信息,对人类个 体遗传背景的研究提供了强大的机遇和挑战[9]。 3. 生物信息学的发展 在功能基因组时代,不断产生的海量信息极大的促进了生物信息学这一新兴学科的发展。各 大生物信息数据库存在的基因组全序列信息为 SNPs 的研究提供了极大的便利:例如通过再 测序手段对 SNPs 的存在及频率信息进行确定,对不同人群进行 SNPs 的基因分型都需借助这 些序列信息才能得以进行;同时,针对 SNPs 进行连锁分析、单体型构建以及标签 SNPs 寻找 的生物信息软件也不断推出; 而且,功能基因组学的发展甚至开始尝试对 SNPs 进行功能学预 测,比如预测启动子 SNPs 位点与转录因子结合的改变,编码区 SNPs 对蛋白质的空间结构,生 物功能的影响等,这对我们在浩繁的人类 SNPs 中选择潜在功能性的 SNPs 位点进行研究具有 极大的帮助。 4. 从 SNPs 的关联研究到功能学探讨 随着 SNPs 检测技术的进展,SNPs 在人群中的检测日益得到广泛应用,特别是对于当前多基因 复杂疾病如肿瘤、冠心病的遗传易感性的探讨,传统的以家系为基础的连锁分析在检测能力 上已经有了明显的局限性,而病例-对照等易于开展的关联性研究方法有显著的优势。因此, 近几年探讨 SNPs 作为复杂性疾病的遗传标记的关联性研究大量涌现。 但是即使对于同一 SNP 位点与相同疾病的关联性研究,不同研究中心的结果往往也存在很大差异甚至完全相反 [10];而且,与疾病具有显著关联的 SNPs 到底是发挥功能性作用,或者仅仅是与功能性 SNPs 相连锁的遗传标记失甚至二者只是某种联系上的假象,这都需要进行功能学研究来加以证 实。 预计引起细胞功能学改变的 SNPs 在人类所有 SNPs 中只占极小一部分 (约五万到二十五

万个 SNPs),大多仅仅在疾病发生过程中介导低度或中度的效果,主要包括分布在基因启动 子区域可能发挥调节转录效应的 SNPs(regular SNPs, rSNPs)和蛋白质编码区域引起编码 氨基酸改变的 SNPs(非同义 SNPs 或错义 SNPs)[11, 12]。当前分子生物学技术的进展推动 了 SNPs 功能学研究的深入[13-17],如比较成熟的对于启动子区域 SNPs 功能学研究技术包 括: ①报告基因转染技术,这一技术主要用于研究启动子 SNPs 对于 mRNA 转录效率的影响, 通 过观察转录结局来判断 SNPs 是否具有功能。②凝胶迁移滞后实验(electrophoretic mobility shift assays, EMSA),该技术通过在体外合成含 SNPs 位点的寡核苷酸与转录因子 特异性结合,观察二者结合的强度和效率,但是该技术由于只是人工合成较短长度的寡核苷 酸,没有考虑 SNPs 位点周围遗传背景环境的影响。③染色质免疫沉淀分析(chromatin immunoprecipitation assay, ChiP),该技术通过超声将染色体碎片化,再将碎片化的核酸 片段与转录因子结合, 然后通过 PCR 技术扩增观察判断二者结合的效率和强度。当然,对于 关联研究的结果的评价和验证需要综合 SNPs 所在序列信息、进化保守性的有无、人群遗传 学、实验室功能学证据、暴露评价(如基因型-环境交互作用研究)和流行病学证据,如 Rebbeck 等根据上述综合证据把 SNPs 是否具有功能效应分为强支持功能显著性、中度支持 功能显著性及无功能显著性三类[16, 18]。(single nucleotide polymorphism , SNP,发 音为“snips”), 主要是指在基因组水平上由单个核苷酸的变异所引起的 DNA 序列多态 性。它是人类可遗传的变异中最常见的一种。占所有已知多态性的 90% 以上。 SNP 在人类 基因组中广泛存在,平均每 500 ~ 1000 个碱基对中就有 1 个,估计其总数可达 300 万 个甚至更多。 SNP 所表现的多态性只涉及到单个碱基的变异, 这种变异可由单个碱基的转换 (transition) 或颠换 (transversion) 所引起,也可由碱基的插入或缺失所致。但通常所说的 SNP 并不 包括后两种情况。 理论上讲, SNP 既可能是二等位多态性,也可能是 3 个或 4 个等位多态性,但实际上, 后两者非常少见,几乎可以忽略。因此,通常所说的 SNP 都是二等位多态性的。这种变异 可能是转换 (C T ,在其互补链上则为 G A) ,也可能是颠换 (C A , G T , C G , A T) 。 转换的发生率总是明显高于其它几种变异, 具有转换型变异的 SNP 约占 2/3 , 其它几种变 异的发生几率相似。Wang 等的研究也证明了这一点。 转换的几率之所以高, 可能是因为 CpG 二核苷酸上的胞嘧啶残基是人类基因组中最易发生突变的位点, 其中大多数是甲基化的, 可 自发地脱去氨基而形成胸腺嘧啶。 在基因组 DNA 中,任何碱基均有可能发生变异,因此 SNP 既有可能在基因序列内,也有可 能在基因以外的非编码序列上。 总的来说, 位于编码区内的 SNP(coding SNP,cSNP) 比较少, 因为在外显子内,其变异率仅及周围序列的 1/5 。但它在遗传性疾病研究中却具有重要意 义,因此 cSNP 的研究更受关注。 从对生物的遗传性状的影响上来看, cSNP 又可分为 2 种:一种是同义 cSNP(synonymous cSNP), 即 SNP 所致的编码序列的改变并不影响其所翻译的蛋白质的氨基酸序列, 突变碱基 与未突变碱基的含义相同;另一种是非同义 cSNP(non-synonymous cSNP), 指碱基序列的改 变可使以其为蓝本翻译的蛋白质序列发生改变, 从而影响了蛋白质的功能。 这种改变常是导 致生物性状改变的直接原因。 cSNP 中约有一半为非同义 cSNP 。 先形成的 SNP 在人群中常有更高的频率, 后形成的 SNP 所占的比率较低。 各地各民族人群

中特定 SNP 并非一定都存在,其所占比率也不尽相同,但大约有 85% 应是共通的。 SNP 自身的特性决定了它更适合于对复杂性状与疾病的遗传解剖以及基于群体的基因识别 等方面的研究: SNP 数量多,分布广泛。据估计,人类基因组中每 1000 个核苷酸就有一个 SNP ,人类 30 亿碱基中共有 300 万以上的 SNPs 。 SNP 遍布于整个人类基因组中,根据 SNP 在基因中 的位置,可分为基因编码区 SNPs ( Coding-region SNPs , cSNPs )、基因周边 SNPs ( Perigenic SNPs , pSNPs )以及基因间 SNPs ( Intergenic SNPs , iSNPs )等三 类。 SNP 适于快速、规模化筛查。组成 DNA 的碱基虽然有 4 种,但 SNP 一般只有两种碱基组 成,所以它是一种二态的标记,即二等位基因( biallelic )。 由于 SNP 的二态性,非 此即彼,在基因组筛选中 SNPs 往往只需 +/- 的分析而不用分析片段的长度,这就利于发 展自动化技术筛选或检测 SNPs 。 SNP 等位基因频率的容易估计。 采用混和样本估算等位基因的频率是种高效快速的策略。 该 策略的原理是: 首先选择参考样本制作标准曲线, 然后将待测的混和样本与标准曲线进行比 较,根据所得信号的比例确定混和样本中各种等位基因的频率。 易于基因分型。 SNPs 的 二态性,也有利于对其进行基因分型。对 SNP 进行基因分型包括三方面的内容: (1) 鉴别 基因型所采用的化学反应,常用的技术手段包括: DNA 分子杂交、引物延伸、等位基因特 异的寡核苷酸连接反应、侧翼探针切割反应以及基于这些方法的变通技术; (2) 完成这些 化学反应所采用的模式, 包括液相反应、 固相支持物上进行的反应以及二者皆有的反应。(3) 化学反应结束后,需要应用生物技术系统检测反应结果。


赞助商链接
相关文章:
plink1.9的GWAS数据处理流程
plink1.9的GWAS数据处理流程 - Data management of plink 1.9... plink1.9的GWAS数据处理流程_基础医学_医药卫生_专业资料。Data management of plink 1.9 ...
GWAS_Plink_GenABLE
GWAS_Plink_GenABLE_生物学_自然科学_专业资料。GWAS分析大概流程,plink软件以及GenABLE包, 还没写完,先这么多吧。GWAS 分析 一、plink 下的操作 数据 map 和 ...
R语言制作GWAS-曼哈顿图-自编教程
R语言制作GWAS-曼哈顿图-自编教程_畜牧兽医_农林牧渔_专业资料。自己制作的教程,简单易懂易操作!R 语言制作曼哈顿图-自编教程 一、TXT 文件格式 (1)在 excel ...
全基因组关联分析在畜禽上的应用
随着数量遗传学、分子生物学以及计算机水平的高速发展,出现了数量遗 传学与分子遗传学的结合, 动物育种中也不断出现新的方法,全基因组关联分析 (GWAS)以及全基因...
GWAS笔记SNP过滤
GWAS笔记SNP过滤 - GWAS 学习笔记 SNP 过滤 1:缺失比例(Missing rates) :( GENO> 0.05 ) Shortly we will apply more ...
GWAS
GWAS - GWAS 开场介绍以及引入正题:老师您好,我是上海美吉生物的 XXX,我们公司 主要从事高通量测序业务,包括基因组、转录组、蛋白代谢组和宏基因组和宏转 录组等...
GWAS原理
GWAS原理 - 全基因组关联分析(Genome-wide Association Study)是利用高通量基因分型技术,分析数 以万计的单核苷酸多态性(SNPs)以及这些 SNPs 与临床表型...
Nature Genetics上的肠道菌群GWAS研究是怎么做的
Nature Genetics上的肠道菌群GWAS研究是怎么做的_生物学_自然科学_专业资料。Nature Genetics 上的肠道菌群 GWAS 研究是怎么做的 木子君 肠道菌群与人类健康的密切...
统计方法在生物信息学“精细定位”(fine-mapping)中的应用
我们通过全基因组关联分析(GWAS)找出来与某个疾病关联最大的基因位点集合(SNP 或说 variant),GWAS 分析的思想如下: 原文请戳这里:?【数说·大数据圈】机器...
Affymetrix 全基因组 SNP 芯片检测
GeneTitan 平台的 SNP 6.0 芯片和针对中国人群设计的 CHB1&2 Array, 既可用于全基 因组 SNP 分析,又可用于 CNV 分析,极大地方便了中国人类疾病 GWAS 研究。...
更多相关标签: