当前位置:首页 >> 医药卫生 >>

随机SNP在全基因组关联研究人群分层分析中的应用


HEREDITAS (Beijing) 2010 年 9 月 , 32(9): 921― 928 ISSN 0253-9772 www.chinagene.cn

研究报告

DOI: 10.3724/SP.J.1005.2010.00921

随机 SNP 在全基因组关联研究人群分层分析中的应用
曹宗富 1, 2, 马传香 1, 2, 王雷 1, 2, 蔡斌 1, 2
1. 生物芯片北京国家工程研究中心 , 北京 102206; 2. 博奥生物有限公司 , 北京 102206

摘要: 在复杂疾病的全基因组关联研究中 , 人群分层现象会增加结果的假阳性率 , 因此考虑人群遗传结构、控
制人群分层是很有必要的。而在人群分层研究中 , 使用随机选择的 SNP 的效果还有待进一步探讨。文章利用 HapMap Phase2 人群中无关个体的 Affymetrix SNP 6.0 芯片分型数据 , 在全基因组上随机均匀选择不同数量的 SNP, 同时利用 f 值和 Fisher 精确检验方法筛选祖先信息标记 (Ancestry Informative markers, AIMs)。然后利用 HapMap Phase3 中的无关个体的数据 , 以 F-statistics 和 STRUCTURE 分析两种方法评估所选出的不同 SNP 组合 对人群的区分效果。研究发现 , 随机均匀分布于全基因组的 SNP 可用于识别人群内部存在的遗传结构。文章进 一步提示 , 在全基因组关联研究中 , 当没有针对特定人群的 AIMs 时 , 可在全基因组上随机选择 3 000 以上均匀 分布的 SNP 来控制人群分层。

关键词: 全基因组关联研究 ; 人群分层 ; 祖先信息标记 ; 随机 SNP; Affymetrix SNP 6.0 芯片

Analysis of population stratification using random SNPs in genome-wide association studies
CAO Zong-Fu1, 2, MA Chuan-Xiang1, 2, WANG Lei1, 2, CAI Bin1, 2
1. National Engineering Research Center for Beijing Biochip Technology, Beijing 102206, China; 2. CapitalBio Corporation, Beijing 102206, China

Abstract: Since population genetic STRUCTURE can increase false-positive rate in genome-wide association studies (GWAS) for complex diseases, the effect of population stratification should be taken into account in GWAS. However, the effect of randomly selected SNPs in population stratification analysis is underdetermined. In this study, based on the genotype data generated on Genome-Wide Human SNP Array 6.0 from unrelated individuals of HapMap Phase2, we randomly selected SNPs that were evenly distributed across the whole-genome, and acquired Ancestry Informative Markers (AIMs) by the method of f value and allelic Fisher exact test. F-statistics and STRUCTURE analysis based on the select different sets of SNPs were used to evaluate the effect of distinguishing the populations from HapMap Phase3. We found that randomly selected SNPs that were evenly distributed across the whole-genome were able to be used to identify the population structure. This study further indicated that more than 3 000 randomly selected SNPs that were evenly distributed across the whole-genome were substituted for AIMs in population stratification analysis, when there were no available AIMs for specific populations.
Keywords: genome-wide association study; population stratification; ancestry informative markers; random SNP; fymetrix SNP 6.0 array
收稿日期 : 2009?11???; 修回日期 : 2010?03?10 基金项目 : 国家高技术研究发展计划项目 (863 计划 )(编号: 2009AA022708)资助 作者简介 : 曹宗富 (1978?), 男 , 硕士 , 专业方向:统计遗传学。 E-mail: zfcao@capitalbio.com 通讯作者 : 蔡斌 (1976?), 男 , 硕士 , 研究方向:疾病的遗传机制 , 芯片技术在疾病研究、物种检测领域的应用。 Tel: 010-80715888; E-mail: bcai@capitalbio.com

Af-

922

HEREDITAS (Beijing)

2010

第 32 卷

在复杂疾病的全基因组关联研究中 , 人群分层 现象会增加结果的假阳性率
[1, 2]

数据 , 分别选择随机均匀分布于全基因组的不同数 目 SNP, 并与用 f 值和 Fisher 精确检验方法选择的 AIMs 进行比较 , 观察它们在寻找遗传结构方面的效 果差异, 进一步评估随机均匀分布于全基因组的 SNP 用于全基因组关联研究分层分析的可行性。

, 考虑人群遗传结

构将有助于降低这种假阳性。因此 , 在大多疾病的 全基因组关联研究中 , 针对人群分层问题 , 利用主 成分分析、基因组对照、STRUCTURE 分析等方法 , 来检出并校正研究人群中可能潜在的人群亚结构。 WTCCC(Wellcome Trust Case Control Consortium)对 7 种常见疾病的全基因组关联研究中 , 用多维尺度 分析和主成分分析等多种方法来处理人群分层 , 并 剔除了 153 个非欧洲祖先的个体 。张学军等
[3] [4, 5]

1
1.1

材料和方法
样本及数据来源 所 用 样 本 来 自 HapMap[11, 12], 包 括 HapMap



对银屑病和系统性红斑狼疮的全基因组关联研究中 , 用主成分分析的方法对中国汉族样本进行人群分层 分析 , 识别并剔除离群个体 , 然后对剩余的样本进 行分析, 没有发现人群分层的证据。Gudmundsso 等[6] 在前列腺癌的全基因组关联研究中, 利用基因组对照 的方法对冰岛的人群分层进行校正。Papassotiropoulos 等 [7] 在对记忆的全基因组关联研究中 , 对 351 个瑞 士个体 , 基于 318 个不连锁的 SNP, 用 STRUCTURE 分析识别出 10 个祖先不同的个体并进行剔除。 祖 先 信 息 标 记 (Ancestry informative markers, AIMs) 对检出人群中可能存在的遗传结构具有极大 价值。 Froguel 等 [8~10]在进行Ⅱ型糖尿病的全基因组 关联研究中 , 对法国 DESIR 队列中的 658 个个体 , 用 HapMap 人群作参考人群 , 基于 328 个不同大陆 人群的 AIMs 用 STRUCTURE 来识别研究人群潜在 的遗传结构 , 并根据每一个个体归属于欧洲人群的 祖先系数 (Ancestry coefficient), 剔除了 43 个非欧洲 祖先个体来控制人群分层。 由于 STRUCTURE 的方法易于操作 , 结果直观 性强 , 为大多研究者所使用。然而 , STRUCTURE 不 能用全基因组的 SNP 位点进行分析 , 目前通常选择 一定数目的 AIMs 来寻找人群亚结构。而在实际研 究中 , 很多情况下并没有针对特定研究人群的 AIMs 可供使用 , 使得 STRUCTURE 应用受到很大的限 制。虽然多数 SNP 的多态性在不同祖先人群之间的 差异很微弱 , 然而 , 足够数量的 SNP 的累积效应却 不 容 忽 视 。 假 如 基 于 一 定 数 量 随 机 选 择 SNP 的 STRUCTURE 分析可以发现人群亚结构 , 那么将为 STRUCTURE 在 全 基 因 组 关 联 的 分 层 分 析 提 供 便 利。然而 , 随机选择的 SNP 在人群分层研究中的效 果如何却有待进一步探讨。 基于此, 我们利用 HapMap

Phase2 样本和 HapMap Phase3 样本。HapMap Phase2 共 4 个人群 , 270 个样本 , 其中 90 个欧洲祖先 (CEU) 样本、 45 个中国北京汉族 (CHB)样本、 45 个日本东 京 (JPT) 样本、 90 个非洲祖先 (YRI) 样本 ; HapMap Phase3 中选取同样 4 个人群的样本共 541 个 , 其中 180 个 CEU 样本、 90 个 CHB 样本、 91 个 JPT 样本、 180 个 YRI 样本。 HapMap Phase2 样 本 的 原 始 分 型 数 据 由 Affymetrix 公司提供 , 用 Affymetrix SNP 6.0 芯片进 行基因分型。 HapMap Phase3 数据来自于 HapMap 网站 , 所有个体用 Illumina Human1M 和 Affymetrix SNP 6.0 两个平台共同分型。 CEU 个体家系信息从 Coriell Cell Repositories 获得。 1.2 1.2.1 方法 数据预处理 HapMap Phase2 样本预处理 : 过滤掉 CEU 样本 和 YRI 样本中具有亲缘关系的子代样本 (60 个 ), 过 滤掉常染色体上分型成功率小于 98%的样本 (0 个 ), 最终剩余 210 个无关个体。 对 Affymetrix SNP 6.0 芯 片分型数据预处理包括 : 过滤掉 X、 Y 和线粒体的 SNP 位点 (37 122 个 ), 过滤掉 210 个样本中分型成功 率小于 95% 的位点 (1 909 个 ) 、 MAF(minor allele frequency)小于 0.005 的位点 (1 844 个 )、无信息量位 点 (630 个 )及在单个人群中偏离 Hardy-Weinberg 平 衡 (HWE, P< 0.001)的位点 (10 311 个 ), 最终常染色 体上剩余 854 749 个 SNP 位点。基于 210 个样本在 854 749 个常染色体位点上的分型数据筛选人群之 间的 AIMs。 HapMap Phase3 数据在 HapMap 发布时已做过 预处理。首先 , 剔除与 Phase2 重复的样本 , 然后根 据 CEU 家系图剔除 31 个子代个体和 30 个 YRI 子代

第9期

曹宗富等 : 随机 SNP 在全基因组关联研究人群分层分析中的应用

923

个体 , 剩下样本中有 4 个 CHB 个体、 2 个 JPT 个体、 3 个 CEU 个体、 2 个 YRI 个体在 HapMap 的预处理 中被剔除 , 最终剩余 199 个无关样本的分型数据 , 其中包括 56 个 CEU 样本、 41 个 CHB 样本、 44 个 JPT 样本、58 个 YRI 样本。用这些和 Phase2 完全不 同的样本数据评估所选出的 AIMs 区分人群的效果。 1.2.2 AIMs 的筛选方法 分别采用 f 值和 Fisher 精确检验方法筛选人群 之间的 AIMs。 利用 f 值筛选人群的 AIMs
[13]

选择文献报道的 AIMs 包括 : Kosoy 等 [14]报道基 于 In 筛选的区分不同大陆起源洲际人群的 128 个

AIMs 组成 AIMS128; Tian 等[15]报道基于 In 筛选的区
分东亚人群的 EASTASAIMS, 标记为 EASTASAIMS。

1.2.4

效果评估和验证 基于 HapMap Phase3 预处理后的数据 , 分别用

F-statistics 和 STRUCTURE 软件分析两种方法评估随机
选择的 SNP 组合和筛选的 AIMs 对人群的区分效果。

1.2.4.1
, 首先计算出每个位

用 F-statistics 方法评估

F-statistics(Fst)方法是基于 Weir 和 Cockerham
算法计算的 [16]。 Fst 是表征亚群体间的遗传分化尺度 , 可以对不同人群之间遗传关系的远近进行量化。 基于 HapMap Phase3 数据 , 用 Fst 方法在 4 个人 群中分别评估筛选的 AIMs 组合和随机选择的 SNP 组合区分人群的效果。基于随机选择的 SNP 集合的

点在 4 个人群两两之间的 f 值, 观察 f 值大于 0.3 的 SNP 位点情况, 并进一步选取 AIMs。f 的计算公式为:

f ?

(u x ? u y ) 2 4u (1 ? u )

, u?

ux ? u y 2

ux 和 uy 分别为同一个等位基因在 x 和 y 两个人群中
的频率。 利用 Fisher 精确检验方法筛选 AIMs, 首先对每 个位点进行自由度为 1 的 Fisher 精确检验 , 观察人 群两两之间 P 值小于 5.85×10 (Bonferroni 校正后约 为 0.05)的 SNP 位点情况 , 然后进一步挑选 AIMs。
?8

Fst 为 10 次重复抽样的平均值。评估的 AIMs 组合
包括 : Top10、 Top25、 Top50、 Top100、 Top200; 评 估 的 随 机 选 择 的 SNP 组 合 包 括 : Random50 、

Random120、 Random250、 Random500、 Random1500、 Random3000 、 Random5000 、 Random10000 。 随 机 SNP 组合名称中的数值表示随机 SNP 的数目。然后
分别计算随机 SNP 组合和 AIMs 组合在不同人群之 间多个 Fst 的均值 , 根据 Fst 均值大小判断不同策略 的 SNP 组合识别人群遗传关系的效果。

1.2.3

AIMs 集合和随机 SNP 集合的构成
根据 4 个人群 f 值和 Fisher 精确检验 P 值两两

将位点按 f 值从大到 比较结果 , 分别获得 6 组数值。 小排序 , 分别取前 10、25、50、100、200 个 SNP 位 点 , 各组分别合并。将位点按 Fisher 精确检验 P 值 从小到大排序, 然后做相同处理。然后将两种方法获 得的 SNP 的对应组合分别取交集, 得到不同数目的

1.2.4.2

STRUCTURE 软件评估

STRUCTURE 2.3.1[17,18]软件进行人群遗传结构
分析是基于 Bayesian 的聚类方法进行的。本研究利 用 此 软 件 , 采 用 混 合 模 型 , 设 置 参 数 Burn-in ≥

AIM 集合, 分别记为 Top10、Top25、Top50、Top100、 Top200, 作为所研究的 HapMap 4 个人群的 AIMs。
对 CHB 和 JPT 人群 , 分别取 f 值和 Fisher 的精 确检验 P 值前 500、 1 500、 3 000、 5 000、 10 000 个 SNP 位点 , 然后相同数目的 SNP 组合分别取交集 , 分别记为 Top500、 Top1500、 Top3000、 Top5000、

10000 、 MCMC≥ 10000, 假定所有个体都来自于 K
个人群 , K=2~6, 每个 K 值运行 4 次 , 观察结果一致 性。 所有结果都获得 3 次以上的一致性。 用 distruct1.1 软件对 STRUCTURE 的输出结果进行画图。综合人 群聚类图和每个人群的祖先系数小于 0.8 的个体所 占的比例 , 观察区分人群的效果。 基于 HapMap Phase3 数据 , 针对 4 个不同大陆 起源的洲际人群 , 评估 AIMs 组合 : Top10、 Top25、

Top10000, 作为 CHB 和 JPT 这两个人群的 AIMs。
根据筛选的 AIM 数目 , 在全基因组上选取不同 的随机 SNP 集合 , 其数目和 AIM 数目大致相同。 随 机 SNP 的选择方法是 , 把所有常染色体基因组均匀 划分为多个不同的区域 , 然后在每个区域随机选择 一个 SNP, 得到一个随机 SNP 集合。对每个随机数 目都重复 10 次。

Top50 、 Top100 、 Top200 、 AIMS128 和 随 机 选 择
的 SNP 组合 : Random50、Random120、Random250、

Random500、 Random1000、 Random3000、 Random5000
区分洲际人群的效果。 针对 CHB 和 JPT 两个东亚人 群 , 评估 AIMs 组合 : Top500、 Top1500、 Top3000、

924

HEREDITAS (Beijing)

2010

第 32 卷

Top5000 、Top10000、EASTASAIMS 和随机选择的 SNP 组合 : Random500、 Random1500、 Random3000、 Random5000、Random10000 区分洲内人群的效果。

Top1500、Top3000、Top5000、Top10000, 它们分别
包含 459、 1 413、 2 933、 4 904、 9 875 个 SNP。 根据筛选的 AIM 数目 , 在全基因组上分别选取 大致相同数目随机均匀的 SNP 组合 Random50 、

2
2.1

结果与分析
f 值和 Fisher 精确检验 基于 HapMap Phase2 预处理后的数据 , 对 4 个

Random120、 Random250、 Random500、 Random1000、 Random1500、 Random3000、 Random5000、 Random10000,
其中组合名称中的数值表示随机 SNP 的数目。对每 个随机数目 , 均有 10 个由不同 SNP 组成的集合。 2.3 效果评估和验证 用 F-statistics 方法评估 图 2 显示了随机 SNP 组合和 AIMs 的 Fst 比较。 在相同的人群之间, 基于 f 值和 Fisher 精确检验筛选的

人群两两之间分别计算 f 值并进行 Fisher 精确检验。 人群两两比较之间的 f 值和 Fisher 精确检验的 P 值 的负对数高度相关 , 相关系数都在 0.98 以上 (图 1), 提示 f 值和 Fisher 精确检验两种方法具有较强的一 致性。 f 值结果显示 , 在 YRI 和其他 3 个人群之间 , 全基因组中有 3.50%以上 SNP 的 f 值大于 0.3, 其次 是 CEU 与亚洲两个人群之间 , 其比例在 1.26%以上 , 而东亚人群 CHB 和 JPT 之间 , 所有 SNP 的 f 值都在

2.3.1

AIMs 组合的 Fst, 高于文献报道计算的 Fst(AIMS128),
基于随机选择 SNP 组合的 Fst 则要低于所有 AIMs 组合的 Fst。同时 , 比较每一个 AIMs 或 SNP 组合的

0.3 以下。Fisher 精确检验结果显示 , 在 YRI 和其他 3 个人群之间达到全基因组显著性水平的 SNP 数目
超过 185 000, 占全基因组 SNP 总数的 1/5 以上 ,

Fst 发现 , 每一个组合均提示了 4 个人群之间相同的
遗传关系 , 即 YRI 与其他人群具有最远的遗传祖先, 而东亚人群 CHB 和 JPT 则具有最近的遗传祖先。 这些 结果共同提示, 一定数目随机均匀分布于全基因组的

CEU 与亚洲两个人群之间则超过 80 000 个 , 东亚人
群 CHB 和 JPT 之间仅有 7 个 SNPs 达到全基因组显 著性水平 (表 1)。这两种方法均提示 , 在全基因组水 平 , 有相当大比例 SNP 的等位基因频率在不同大陆 起源的洲际人群之间具有较大差异 , 而在东亚起源 的 CHB 和 JPT 之间差异则相对较小。
表1 人群之间等位基因频率较大差异的 SNP 数量统计
人群比较 N YRI vs. JPT YRI vs. CHB YRI vs. CEU CEU vs. JPT CEU vs. CHB CHB vs. JPT
*

SNP 可以识别人群之间存在的遗传结构, 但是其区分
人群分层的效果可能不如 AIMs。

2.3.2

STRUCTURE 软件评估
针对 4 个洲际人群的分析发现, 当 k=3~6 时, 基

于 AIMs 和全基因组上随机均匀分布的 SNP 都具有区 分洲际人群的能力, 洲际人群被聚为与地理位置相对 应的 3 个人群, 而 CHB 和 JPT 则不能区分(图 3, k=2、

f≥ 0.3 比例 (%) 5.2463 5.2137 3.5050 1.3178 1.2698 0.0000

*

P< 5.85×10-8 比例 (%) 22.0634 21.8644 21.7450 10.1011 9.8246 0.0008

N 188587 186886 185865 86339 83976 7

4、5、6 的结果没有显示)。图 4A 显示, 随着 SNP(或 AIMs) 数目的增多 , 区分人群结构的效果越来越好 ,
当 AIMs 的数目大于 448(top100)或随机 SNP 数目大于

44843 44564 29959 11264 10854 0

500 时, 所有个体的最大祖先系数都在 0.8 以上。 当 k=4
时, 把随机 SNP 数目增大到 5 000 时, 仍然不能识别

CHB 和 JPT 内部存在的遗传结构(图 5)。
针对 CHB 和 JPT 人群的分析发现 , AIMs 和全基 因组上随机均匀分布的 SNP 都具有区分祖先起源较 近人群的能力。当 k=2 时 , 除 Random500 以外的其 他组合都能识别两个人群内部存在的遗传结构 , 但 是区分能力有着较大差异 (图 6)。 图 4B 显示 , 当 SNP 数目超过 1 500 时 , 随机选择的 SNP 要比筛选的

注 : Fisher 精确检验的 P 值 ; YRI 、 JPT、 CEU、 CHB 的含义见图 1 。

2.2

AIMs 集合和随机 SNP 集合的构成

4 个人群不同 SNP 数目的 AIM 集合为 Top10、 Top25、Top50、Top100 和 Top200, 它们分别包含了 51、 113、 226、 448、 855 个 SNP。 CHB 和 JPT 人群的 AIM 集合 是 Top500 、

AIMs 识别人群结构的效果更好。 当随机选择的 SNP

第9期

曹宗富等 : 随机 SNP 在全基因组关联研究人群分层分析中的应用

925

图1

f 值和 Fisher 精确检验两种方法的一致性比较

YRI: 非洲祖先样本 ; JPT: 日本东京样本 ; CEU: 欧洲祖先样本 ; CHB: 中国北京汉族样本。

为 3 000 时 , 人群中 92.4%的个体的最大祖先系数都 大于 0.8; 当 SNP 数目增大到 10 000 时 , 则 99.7%的 个体的最大祖先系数都大于 0.8。

3

讨 论
Fst 和 STRUCTURE 的结果发现 , 对不同大陆

起源的洲际人群 , 利用本研究筛选的 AIMs 可以很
图2 随机 SNP 和 AIMs 的 Fst 比较

好地识别人群遗传结构。对祖先起源较近的东亚人 群 CHB 和 JPT, 增大 AIMs 的数目 , 也可以识别内部 的遗传结构。 而随机均匀分布于全基因组的 SNP, 在 区分不同大陆起源的人群以及祖先较近的人群 , 也 可以识别人群内部的遗传结构。当区分不同大陆起 源的人群时 , 500 个以上的 SNP 就可以获得所有个体

随机 SNP 表示随机均匀选择的不同数目的 SNP 组合 , AIMs 表示根据 f 值和 Fisher 精确检验筛选的不同数目 AIMs 组合 , AIMs128 表示文 献报道的 AIMs 组合。 横轴为 4 个人群的两两比较 , YRI 、 JPT、 CEU、 CHB 的含义见图 1; 纵轴为 Fst 大小。对 AIMs128 系列显示为 Fst 大小 , 而其他两个系列显示为多个 SNP 或 AIM 组合 Fst 的平均值 , 并以标准差表示多个 Fst 的变异大小。

图3

4 个人群基于不同 SNP 集合的 STRUCTURE 聚类图 (k=3)

YRI、 JPT、 CEU、 CHB 的含义见图 1。

926

HEREDITAS (Beijing)

2010

第 32 卷

图4

SNP 数量和 STRUCTURE 个体祖先推断关系图

A: 反映不同数目的 AIMs 和随机分布于全基因组的 SNP 对 4 个洲际人群的识别效果。 B: 反映不同数目的 AIMs 和随机分布于全基因组的 SNP 对 CHB(中国北京汉族样本 )和 JPT( 日本东京样本 ) 两个祖先较近的洲内人群的识别效果。纵轴的百分比是指该人群的祖先系数小于 0.8 的个体 所占的百分比。

远的洲际人群 , 还是祖先起源较近的人群之间 , 都 可以用随机均匀分布的位点来寻找人群潜在的遗传 结构。基于随机选择 SNP 组合计算的 Fst 要小于基 于 AIM 计算的 Fst, 提示随机选择 SNP 识别人群内部
图 5 4 个人群基于不同 SNP 集合的 STRUCTURE 聚类 图 (k=4)
YRI、 JPT、 CEU、 CHB 的含义见图 1。

遗传结构的效果可能不如 AIMs。但从 STRUCTURE 分析的结果来看, 随机选择的 SNP 同样能够识别人群 内部的遗传结构。因此 , 当有针对特定人群可用的

的最大祖先系数大于 0.8 的效果 ; 而当区分祖先起 源较近的人群时 , 3 000 个 SNP 就可以使 92.4%的个 体的最大祖先系数大于 0.8, 10 000 个 SNP 就可使

AIMs 时, 优先选择 AIMs 来识别遗传结构; 当针对特
定研究人群并没有可用的 AIMs 时, 随机均匀分布于 特定研究识别 全基因组的 SNP 则是一种较好的选择。 遗传结构时, 需要的 SNP 数目与人群之间遗传分化的 大小有关, 祖先起源越近, 需要的 SNP 数目越多。对

99.7%的个体的最大祖先系数大于 0.8。这些结果提
示 , 在全基因组关联性研究中 , 无论是祖先起源较

图6

CHB(中国北京汉族样本 )和 JPT(日本东京样本 )基于不同 SNP 集合的 STRUCTURE 聚类图

第9期

曹宗富等 : 随机 SNP 在全基因组关联研究人群分层分析中的应用

927

于不同大陆起源的人群, 需要 500 个以上的 SNP; 对 祖先起源较近的人群, 至少需要 3 000~10 000 个 SNP。 同时, 为了保证结果的可靠性, 可增加不同 SNP 数目 进行重复验证, 以观察结果的一致性。

组显著性的也有 7 个 SNPs, 对关联研究也具有很大影 响。这些结果提示关联研究中对不同大陆起源的洲际 人群的遗传结构检出非常重要, 即使祖先起源较近人 群, 其遗传亚结构的影响也依然不容忽视。 同时 , 本研究筛选出来的人群之间具有全基因 组显著性的位点 , 可为关联研究提供参考。在不同 祖先起源的全基因组关联研究中 , 当检出与疾病关 联的 SNP 中含有与本研究筛选出的位点时 , 应谨慎 对待。在 GWAS 中 , 国际合作越来越多 , 同时也有 更多的 GWAS 数据可以共享使用 [3,21]。当多个不同 大陆起源洲际人群的复杂样本联合使用时 , 人群遗 传结构是必然存在的。因此 , 本研究对复杂样本的 关联研究也具有参考价值。

f 值和 Fisher 精确检验结果提示 , CHB 和 JPT 之
间等位基因频率具有较大差异的 SNP 较少 , 同时 , 本研究对不同 SNP 组合的 Fst 分析结果均提示 , CHB 和 JPT 具有较近的祖先 , 该结果也被 Rosenberg 等 [19] 用全基因组的微卫星数据聚类得到证实。当把 4 个 人群进行 STRUCTURE 分析时 , 任何 SNP 组合都不 能识别东亚人群 CHB 和 JPT 间的遗传结构。然而 , 当把 CHB 和 JPT 单独分析时 , 增加 AIMs 或随机选 择的 SNP 数目 , 或者利用 EASTASIAAIMS, 却能够 发现内部存在的遗传结构。 Miao 等 [20] 利用 Y-STR 单体型和 HapMap Phase2 的常染色体 SNP 数据进行

参考文献 (References):
[1] Wang WY, Barratt BJ, Clayton DG, Todd JA. Genome-wide association studies: theoretical and practical concerns. Nat Rev Genet, 2005, 6(2): 109–118. [2] Balding DJ. A tutorial on statistical methods for population association studies. Nat Rev Genet, 2006, 7(10): 781–791. [3] The Wellcome Trust Case Control Consortium. Genome-wide association study of 14 000 cases of seven common diseases and 3 000 shared controls. Nature, 2007, 447(7145): 661–683. [4] Zhang XJ, Huang W, Yang S, Sun LD, Zhang FY, Zhu QX, Zhang FR, Zhang C, Du WH, Pu XM, Li H, Xiao FL, Wang ZX, Cui Y, Hao F, Zheng J, Yang XQ, Cheng H, He CD, Liu XM, Xu LM, Zheng HF, Zhang SM, Zhang JZ, Wang HY, Cheng YL, Ji BH, Fang QY, Li YZ, Zhou FS, Han JW, Quan C, Chen B, Liu JL, Lin D, Fan L, Zhang AP, Liu SX, Yang CJ, Wang PG, Zhou WM, Lin GS, Wu WD, Fan X, Gao M, Yang BQ, Lu WS, Zhang Z, Zhu KJ, Shen SK, Li M, Zhang XY, Cao TT, Ren W, Zhang X, He J, Tang XF, Lu S, Yang JQ, Zhang L, Wang DN, Yuan F, Yin XY, Huang HJ, Wang HF, Lin XY, Liu JJ. Psoriasis genome-wide association study identifies susceptibility variants within LCE gene cluster at 1q21. Nat Genet, 2009, 41(2): 205–210. [5] Han JW, Zheng HF, Cui Y, Sun LD, Ye DQ, Hu Z, Xu JH, Cai ZM, Huang W, Zhao GP, Xie HF, Fang H, Lu QJ, Xu JH, Li XP, Pan YF, Deng DQ, Zeng FQ, Ye ZZ, Zhang XY, Wang QW, Hao F, Ma L, Zuo XB, Zhou FS, Du WH, Cheng YL, Yang JQ, Shen SK, Li J, Sheng YJ, Zuo XX, Zhu WF, Gao F, Zhang PL, Guo Q, Li B, Gao M, Xiao FL, Quan C, Zhang C, Zhang Z, Zhu KJ, Li Y, Hu DY, Lu WS, Huang JL, Liu SX, Li

STRUCTURE 分析也获得了相似的结果。这些结果
说明 , 虽然 CHB 和 JPT 具有较近的遗传祖先 , 但其 内部存在的遗传结构仍然可以识别 , 只是与祖先较 远的人群一起进行分析时 , 难以识别内部存在的遗 传结构。这些结果提示 , 人群之间较大的遗传分层 使得较小的遗传分层难以识别。在全基因组关联性 研究中 , 当 对祖先较近 人群进行人 群分层研究 时 , 目前常常采用不同大陆起源的 HapMap 人群做参考 , 需要慎重对待 , 还需要进一步选用祖先较近的人群 做参考人群单独进行分层分析。 比较 Fst 和 STRUCTURE 两种方法的结果 , 可 以发现两种方法的结果有一定的差异。譬如 , Fst 结 果显示 AIM 识别人群结构的效果要比随机均匀选择 的 SNP 效果更好 , 但是 STRUCTURE 的结果显示 , 随机均匀选择的 SNP 识别人群结构的效果并不比筛 选的 AIM 效果差。这些结果反映了两种方法在算法 上的差异 , 每种算法都可能有其局限性 , 因此识别 人群分层时常需要多种方法相互验证。尤其是单独 对 CHB 和 JPT 分析时 , 当 SNP 数目超过 1 500 时 , 随 机选择的 SNP 要比筛选的 AIMs 识别人群结构的效 果更好 , 可能是由于 STRUCTURE 软件算法或抽样 样本量太小引起的 , 该问题有待进一步探讨。

Fisher 精确检验结果显示在不同祖先人群之间等
位基因频率具有显著差异的位点最高可占全基因组的

20%以上, 提示遗传结构对关联分析的影响是巨大的。
同时, 对祖先较近人群 CHB 和 JPT 之间, 达到全基因

928

HEREDITAS (Beijing)

2010

第 32 卷

H, Ren YQ, Wang ZX, Yang CJ, Wang PG, Zhou WM, Lv YM, Zhang AP, Zhang SQ, Lin D, Li Y, Low HQ, Shen M, Zhai ZF, Wang Y, Zhang FY, Yang S, Liu JJ, Zhang XJ. Genome-wide association study in a Chinese Han population identifies nine new susceptibility loci for systemic lupus erythematosus. Nat Genet, 2009, 41(11): 1234–1237. [6] Gudmundsson J, Sulem P, Manolescu A, Amundadottir LT, Gudbjartsson D, Helgason A, Rafnar T, Bergthorsson JT, Agnarsson BA, Baker A, Sigurdsson A, Benediktsdottir KR, Jakobsdottir M, Xu J, Blondal T, Kostic J, Sun J, Ghosh S, Stacey SN, Mouy M, Saemundsdottir J, Backman VM, Kristjansson K, Tres A, PartinAW, Albers- Akkers MT, Godino-Ivan Marcos J, Walsh PC, Swinkels DW, Navarrete S, Isaacs SD, Aben KK, Graif T, Cashy J, Ruiz-Echarri M, Wiley KE, Suarez BK, Witjes JA, Frigge M, Ober C, Jonsson E, Einarsson GV, Mayordomo JI, Kiemeney LA, Isaacs WB, Catalona WJ, Barkardottir RB, Gulcher JR, Thorsteinsdottir U, Kong A, Stefansson K. Genome-wide association study identifies a second prostate cancer susceptibility variant at 8q24. Nat Genet, 2007, 39(5): 631–637. [7] Papassotiropoulos A, Stephan DA, Huentelman MJ, Hoerndli FJ, Craig DW, Pearson JV, Huynh KD, Brunner F, Corneveaux J, Osborne D, Wollmer MA, Aerni A, Coluccia D, H?nggi J, Mondadori CR, Buchmann A, Reiman EM, Caselli RJ, Henke K, de Quervain DJ. Common Kibra alleles are associated with human memory performance. Science, 2006, 314(5798): 475–478. [8] Sladek R, Rocheleau G, Rung J, Dina C, Shen L, Serre D, Boutin P, Vincent D, Belisle A, Hadjadj S, Balkau B, Heude B, Charpentier G, Hudson TJ, Montpetit A, Pshezhetsky AV, Prentki M, Posner BI, Balding DJ, Meyre D, Polychronakos C, Froguel P. A genome-wide association study identifies novel risk loci for type 2 diabetes. Nature, 2007, 445(7130): 881–885. [9] Bouatia-Naji N, Bonnefond A, Cavalcanti-Proen?a C, Spars? T, Holmkvist J, Marchand M, Delplanque J, Lobbens S, Rocheleau G, Durand E, De Graeve F, Chèvre JC, Borch-Johnsen K, Hartikainen AL, Ruokonen A, Tichet J, Marre M, Weill J, Heude B, Tauber M, Lemaire K, Schuit F, Elliott P, J?rgensen T, Charpentier G, Hadjadj S, Cauchi S, Vaxillaire M, Sladek R, Visvikis-Siest S, Balkau B, Lévy-Marchal C, Pattou F, Meyre D, Blakemore AI, Jarvelin MR, Walley AJ, Hansen T, Dina C, Pedersen O, Froguel P. A variant near MTNR1B is associated with increased fasting plasma glucose levels and type 2 diabetes

risk. Nat Genet, 2009, 41(1): 89–94. [10] Bouatia-Naji N, Rocheleau G, Van Lommel L, Lemaire K, Schuit F, Cavalcanti-Proen?a C, Marchand M, Hartikainen AL, Sovio U, De Graeve F, Rung J, Vaxillaire M, Tichet J, Marre M, Balkau B, Weill J, Elliott P, Jarvelin MR, Meyre D, Polychronakos C, Dina C, Sladek R, Froguel P. A polymorphism within the G6PC2 gene is associated with fasting plasma glucose levels. Science, 2008, 320(5879): 1085–1088. [11] The International HapMap Consortium. The International HapMap Project. Nature, 2003, 426(6968): 789–796. [12] Thorisson GA, Smith AV, Krishnan L, Stein LD. The International HapMap Project Web site. Genome Res, 2005, 15(11): 1592–1593. [13] McKeigue PM. Mapping genes that underlie ethnic differences in disease risk: methods for detecting linkage in admixed populations, by conditioning on parental admixture. AM J Hum Genet, 1998, 63(1): 241–251 [14] Kosoy R, Nassir R, Tian C, White PA, Butler LM, Silva G, Kittles R, Alarcon-Riquelme ME, Gregersen PK, Belmont JW, De La Vega FM, Seldin MF. Ancestry informative marker sets for determining continental origin and admixture proportions in common populationns in America. Hum Mutat, 2009, 30(1): 69–78. [15] Tian C, Kosoy R, Lee A, Ransom M, Belmont JW, Gregersen PK, Seldin MF. Analysis of East Asia genetic substructure using genome-wide SNP arrays. PLoS One, 2008, 3(12): e3862. [16] Weir B, Cockerham C. Estimating F-statistics for the analysis of population structure. Evolution, 1984, 38(6): 1358–1370. [17] Pritchard JK, Stephens M, Donnelly P. Inference of population structure using multilocus genotype data. Genetics, 2000, 155(2): 945–959. [18] Falush D, Stephens M, Pritchard JK. Inference of population structure using multilocus genotype data: linked loci and correlated allele frequencies. Genetics, 2003, 164(4): [19] 1567–1587. Rosenberg NA, Pritchard JK, Weber JL, Cann HM, Kidd

KK, Zhivotovsky LA, Feldman MW. Genetic structure of
human populations. Science, 2002, 298(5602): 2381–2385. [20] He M, Gitschier J, Zerjal T, de Knijff P, Tyler-Smith C, Xue YL. Geographical affinities of the HapMap samples. PLoS ONE, 2009, 4(3): e4684. [21] Myocardial Infarction Genetics Consortium. Genome-wide association of early-onset myocardial infarction with single nucleotide polymorphisms and copy number variants. Nat Genet, 2009, 41(3): 334–341.


赞助商链接
相关文章:
GWAS原理
全基因组关联分析为进一步研究复杂性状的遗传机理提供...所估计出的统计量对试验群体 进行群体分层校正, 其...就表明该 SNP 在 0.05 水平下是不显著的,即其...
全基因组关联分析在畜禽上的应用
全基因组关联分析在畜禽上的应用摘要:随着数量遗传学、分子生物学以及计算机水平...进行了产奶量和脂蛋比性状 GWAS 研究,共发现了 36 个影响产奶量的 SNP ...
全基因组关联分析(GWAS)解决方案
全基因组关联分析(GWAS)解决方案 ※ 概述 全基因组关联研究(Genome-wide ...在全基因组范围内,利用关联分析的原理和方法进行各种组学研 究,不仅包括 SNP,...
Nature Genetics上的肠道菌群GWAS研究是怎么做的
根据计算总体的λ GC = 1.00,因此没有 人群分层(图 3) 。后面关联分析时...结论: 本文通过全基因组关联分析,得到了一系列影响肠道菌群的 SNP,通过基因功能...
标签单核苷酸多态性
罹患常 见疾病的风险受到人群中相对常见的遗传变异的...所以,为全基因组关联研究选择待测 SNP 标记是 重要...进行基因分型可以节约 分型成本并提高关联分析的统计...
关于PLink操作的说明
关于全基因组关联分析工具 Plink 的操作使用说明 ...4;基于人群分层的关联研究 plink --bfile wgas3 -...治病基因 SNP 周围选择一定的基因序列,重新进行分析...
无精症的全基因组关联研究进展
采用全基因组关联分析在全基因组范围内筛查与疾病关联的 SNP, 已发现了一些 与...文章发表后,数个研究团队对 GWAS 结果在 不同的人群中进行一系列验证重复实验...
开题报告_图文
基因 OBFC1 和 RTEL1 基因中标 签 SNP 位点; (2)随机挑选高原藏族正常人群...中国汉族高原肺水肿易感基因的全基因组关联研究[J]. 遗传,2013,11:1291-1299...
基因检测行业分析
也就是说,大多数情况下依托单核苷酸多态性(SNP) (可笼统理解为一种 DNA 基因...了解一下全基因组关联研究(GWAS) 具体是怎么回事和数据分析是如何应用在里面的...
SNP检测方法汇总
尤其适合针对全基因组 SNP 关联研究获得的初步阳性位...绝大多数 SNP 位点的分型都能用 RFLP 分析来实现...并且已经建立大样本量人群的 SNP 基础数 据库,能...
更多相关标签: