当前位置:首页 >> 生物学 >>

全基因组范围内SNP关联分析(GWAS)技术


基本内容
1 2 3 4 单核苷酸多态及数据格式 GWAS关联分析技术 SNP单倍型分析技术 SNP数据分析软件操作

一、单核苷酸多态及数据格式

一、单核苷酸多态及数据格式
单核苷酸多态性 (single nucleotide polymorphism,SNP) 主要是指在基因组水平上由单个核苷酸的变异所引 起的DNA序列多态性。它是人类可遗传的变异中最常见 的一种。

个体 1

序列 AGATACGGCTAAACTTGGGGGTTTTTAAACCCCTT AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT chr6

2

AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT AGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT AGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTT AGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTT

chr6

3

chr6

4

AGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT AGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT

chr6

突变率低,一次突变,遗传+自然选择使得等位扩增,snp多为二态

一、单核苷酸多态及数据格式
注:
(1)理论上讲,SNP既可能是二等位多态性,也可能是3个或4个等位多 态性,但实际上,后两者非常少见,几乎可以忽略。

(2)占所有已知多态性的90%以上。 (3)SNP数目: 目前,测得大约1500~3000 万个SNP 位点(平均约每100~200 bp ) 存在一个单碱基突变。

一、单核苷酸多态及数据格式
(4)从对生物的遗传性状的影响上来看,SNP又可分为2种: 同义SNP(synonymous SNP),即SNP所致的编码序列的改变并不影响其所 翻译的蛋白质的氨基酸序列,突变碱基与未突变碱基的含义相同。 非同义SNP(non-synonymous SNP),指碱基序列的改变可使以其为翻译的 蛋白质序列发生改变,从而影响了蛋白质的功能。

一、单核苷酸多态及数据格式
人类基因组中3000万的SNP,遍布全基因组,由于其分布广、密度 高、检测技术手段成熟,伴随和HapMap计划的完成和1000genome计划 的开展,目前已被广泛应用于复杂疾病风险位点的检测中。

我们的目的: 寻找哪些SNP标记与疾病相关—关联分析

一、单核苷酸多态及数据格式
单核苷酸多态的测定及数据格式
(1)PCR (2)SNP芯片 (3)新一代测序技术

1

AGATACGGCTAAACTTGGGGGTTTTTAAACCCCTT AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT

chr6

2

AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT AGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT

chr6

3

AGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTT AGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTT

chr6

4

AGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT AGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT

chr6

dbSNP &array:

AGATA[A/C]GGCTAAAC

GTTTTTAA[A/G]CCCCTT

PCR data

or

PCR和芯 芯片技术

or

PCR

A/C SNP1

A/G SNP2

1

AGATACGGCTAAACTTGGGGGTTTTTAAACCCCTT AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT

chr21

2

AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT AGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT

chr21

3

AGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTT AGATACGGCTAAACTTGGGGGTTTTTAAGCCCCTT

chr21

4

AGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT AGATAAGGCTAAACTTGGGGGTTTTTAAACCCCTT

chr21

1 2 3 4

C/A A/A C/C A/A

PCR和芯 片技术, 将染色体 割裂,导致 恢复原来 真实相形困难 2:C

A/G A/G G/G A/A

等位

1:A

1:A

2: G

野生型和突变型

SNP数据说明:

一、单核苷酸多态及数据格式
格式1:ped格式snp data+info data SNP data file

一、单核苷酸多态及数据格式
SNP info file

SNP数据说明:

一、单核苷酸多态及数据格式
SNP data file SNP info file

一、单核苷酸多态及数据格式
格式2:GWAS data format sample

SNP

二、关联分析

二、关联分析
?复杂疾病遗传关联分析:
复杂疾病是由遗传因素与环境因素共同作用的结果,探索影响复 杂疾病发生、发展的遗传因素,是遗传学的重要任务。研究人员期 望从疾病个体和正常个体的比较中来发现基因组上的差别,进而寻 找引起疾病的基因。
SNP1 A A A T A T T T 疾病 SNP2 A T A T A T A T 正常

目的: 寻找哪些SNP与 疾病相关?

关联非因果

关联分析的类型
关联研究的数据类型
1、基于无关个体的关联分析 ? 基于无关个体的关联分析病例对照研究设计:主要用来研究质量性 状,即是否患病。 ? 基于随机人群的关联分析:主要用来研究数量性状。 2、基于家系数据的关联分析 ? 在研究基于家系的样本时,采用传递不平衡检验(TDT)等
注: (1)家系数据分析遗传标记与疾病数量表型和质量表型的关联可以排除 人群混杂对于关联分析的影响,但其在发现阳性关联的检验方面不如相同 样本量的病例对照研究有效。 (2)当前的人口状况使得大规模的家系数据很难获得,目前的研究中 case-control研究居多。

关联分析中SNP位点的质量控制
注:发表此类paper,质量控制要占一段。

?1、最小等位频率控制
? 最小等位基因频率:MAF(Minor Allele Frequency): 最小等位基因频率通常是指在给定人群中的不常见的等位基 因发生频率,例如TT,TC,CC三个基因型,在人群中C的频率 =0.28,T的频率=0.72,则等位基因C的频率为最小等位基因频率 ,MAF=0.28。 ? 在关联研究中,较小的MAF将会使统计效能降低,从而造成假阴 性的结果。通常情况下要求 MAF<0.01或0.05
注: 1、通常MAF>0.01或0.05的SNP称为common SNP; MAF<0.01或0.05 的SNP称为rare SNP 2、常见疾病,常见变异假说。

关联分析中SNP位点的质量控制
?2、 Hardy-Weinberg平衡控制
Hardy-weinberg平衡定律: 在理想状态下,各等位基因的频率和等位基因的基 因型频率在遗传中是稳定不变的,即保持着基因平衡。 P(AA)=p2 P(Aa)=2pq P(aa)=q2

注:H-W检验p值显著性水平0.001或1E-6

关联分析中SNP位点的质量控制
? Hardy-Weinberg平衡检验例

关联分析中SNP位点的质量控制
?3、 SNP分型成功比例控制
一般情况下,某个SNP在所有样本中的分型成功 率(call ratio)要控制在75%以上,否则不能通过质 量控制,该SNP将从分析数据中去掉。

关联分析中SNP位点的质量控制
?4、样本的基因型缺失比控制
对于基因组范围内关联分析而言,对于一个需要检 测的样本,一般情况下,某个样本所对应的所有SNP的 分型成功率要控制在75%(或95%)以上,否则不能通 过质量控制,该样本将被从分析数据中去除。

关联分析中SNP位点的质量控制
?5、孟德尔错误控制
对于家系数据的分析而言,父代-子代之间满足孟德 尔遗传,对于那些孟德尔错误出现次数超过指定次数 (1次或2次)的SNP,将被从数据分析中去除。

关联分析的理论基础
关联研究的理论基础
连锁不平衡—关联分析的理论基础
SNP1 Chromosome 连锁不平衡区域
D ? PA 1 B 1 ? PA 1 PB 1 ? PA 2 B 2 ? PA 2 PB 2 ? ? ( PA 1 B 2 ? PA 1 PB 2 ) ? ? ( PA 2 B 1 ? PA 2 PB 1 )

SNP2 疾病位点

SNP3

SNP4

D ? ?

D D
m ax

r?

D p A1 p A 2 p B1 p B 2

r

2

关联检验

?关联检验的模型
假定: 某个SNP位点有两个基等位A、a, 形成三个基因型:AA、Aa、aa。
开始检测之前A、a地位相同,我们假定A为 minor allele,对两个等位加以区别。 SNP SNP1 SNP2 SNP3 SNP4 A T (0.2) A (0.17) G (0.43) C (0.33) a G (0.8) T (0.83) C (0.57) T (0.67)

当我们检测该SNP位点与疾病的关系时,我们不知道等位以何种 方式起作用(等位、基因型、显性、隐性)。

关联检验
?关联检验的模型
1、Genotypic Model ? Hypothesis: all 3 different genotypes have different effects

AA vs. Aa vs. aa

关联检验
? Genotypic Model的卡方检验: ? Null Hypothesis: Independence

H 0 : ? ij ? ? i. ? ? . j
AA cases controls nAA mAA Aa nAa mAa df = 2 aa naa maa

关联检验
? Chi-squared Test Statistic:

(O ? E ) ? ? ? E all cells
2

2

? O is the observed cell counts ? E is the expected cell counts, under null hypothesis of independence

关联检验
例:
Observed Matrix:

cases controls Column Sum
Expected Matrix:

AA 8 70 78

Aa 26 19 45

aa 66 11 77

Row Sum 100 100 200

cases controls Column Sum

AA 39 39 78

Aa 22.5 22.5 45

aa 38.5 38.5 77

Row Sum 100 100 200

关联检验
Observed Matrix: AA cases controls Column Sum Expected Matrix: AA cases controls Column Sum 39 39 78 Aa 22.5 22.5 45 aa 38.5 38.5 77 Row Sum 100 100 200 8 70 78 Aa 26 19 45 aa 66 11 77 Row Sum 100 100 200

(O ? E ) 2 (8 ? 39) 2 (26 ? 22.5) 2 (66 ? 38.5) 2 (70 ? 39) 2 (19 ? 22.5) 2 (11 ? 38.5) 2 ? ? ? ? ? ? ? ? ? E 39 22 . 5 38 . 5 39 22 . 5 38.5 allcells
2

关联检验
?关联检验的模型
2、Dominant Model Hypothesis: the genetic effects of AA and Aa are the same (assuming A is the minor allele)
AA + Aa vs. aa

关联检验
? Dominant Model 的卡方检验: ? Null Hypothesis: Independence

H 0 : ? ij ? ? i. ? ? . j
AA+Aa cases controls nAA + nAa mAA + mAa df = 1 aa naa maa

关联检验
? Chi-squared Test Statistic:

(O ? E ) ? ? ? E all cells
2

2

? O is the observed cell counts ? E is the expected cell counts, under null hypothesis of independence

关联检验
例:
Observed Matrix: AA cases controls Column Sum Dominant Model: AA+Aa cases controls Column Sum nAA + nAa mAA + mAa aa naa maa Row Sum cases controls Column Sum Expected Matrix: AA+Aa cases controls Column Sum 61.5 61.5 123 aa 38.5 38.5 77 Row Sum 100 100 200 8 70 78 Aa 26 19 45 aa 66 11 77 Row Sum 100 100 200

Observed Matrix: AA+Aa 34 89 123 aa 66 11 77 Row Sum 100 100 200

(O ? E ) 2 ? ? ? E allcells
2

(34 ? 61.5) 2 (66 ? 38.5) 2 (89 ? 61.5) 2 (11 ? 38.5) 2 ? ? ? ? 61.5 38.5 61.5 38.5

关联检验
?关联检验的模型
3、Recessive Model ? Hypothesis: the genetic effects of Aa and aa are the same (A is the minor allele)
AA vs. Aa + aa

关联检验
? Recessive Model的卡方检验: ? Null Hypothesis: Independence

H 0 : ? ij ? ? i. ? ? . j
AA cases controls nAA mAA Aa +aa nAa + naa mAa + maa df = 1

关联检验
? Chi-squared Test Statistic:

(O ? E ) ? ? ? E all cells
2

2

? O is the observed cell counts ? E is the expected cell counts, under null hypothesis of independence

关联检验
?关联检验的模型
4、Allelic Model ? Hypothesis: the genetic effects of allele A and allele a are different A vs. a

关联检验
? Allelic Model的卡方检验:: ? Null Hypothesis: Independence

H 0 : ? ij ? ? i. ? ? . j
A cases controls 2nAA + nAa 2mAA + mAa a nAa + 2naa mAa +2 maa df = 1

关联检验
? Chi-squared Test Statistic:

(O ? E ) ? ? ? E all cells
2

2

? O is the observed cell counts ? E is the expected cell counts, under null hypothesis of independence

关联检验
? 关联检验中的OR(odd ratio)值与95%CI
为什么要计算OR值: 关联检验中如果某SNP与某疾病的关联p值小于显著性水 平,则拒绝不关联的零假设,支持该SNP与疾病存在关联的 假设,OR值的目的是进一步估计其关联的强度。 OR值的估计分为:点估计与区间估计

关联检验
OR(odd ratio)的计算 A nA mA
(assuming A is the minor allele)

cases controls

a na ma

Row sum N M

比值(odds)是指某事物发生的概率与不发生的概率之比。 病例组出现A与不出现A的概率分别为nA/N、 na/N 病例组的比值=(nA/N)/(na/N)= nA/na 对照组出现A与不出现A的概率分别为mA/M、 ma/M 对照组的比值=(mA/M)/(ma/M)= mA/ma

关联检验
OR(odd ratio)的计算 A nA mA
(assuming A is the minor allele)

cases controls

a na ma

Row sum N M

则比值比(odds ratio,也称优势比): OR=(nA/na)/( mA/ma) = (nA×ma)/( mA×na)
说明: ① OR>1时,说明病例组的A的频率大于非病例组的,即A有较高的发病危险性。 ② OR<1时,说明病例组的A的频率低于非病例组的,即A有保护作用。 ③ 疾病与A等位联系愈密切,比值比的数值愈大。

关联检验
95%CI(Confidence Interval)的计算 lnOR 近似的服从正态分布 Upper limit InOR = InOR + 1.96 * SE(InOR) Lower limit InOR = InOR - 1.96 * SE(InOR) Variance of InOR = (1/ nA) + (1/ na) + (1/ mA) + (1/ma) SE (lnOR) = (variance InOR)1/2 Upper limit OR = e upper limit lnOR Lower limit OR = e lower limit lnOR
说明:区间宽度愈窄愈好,下限>1

关联检验
关联检验中其他检验方法
目前最常用的基于SNP基因型的关联检验方方法为: ? (1) 卡方检验 (Chi-squared statistic test) ? (2) Fishers 精确检验 (Fishers exact test) ? (3) 趋势检验 (Cochran-Armitage test)

全基因组范围内关联分析GWAS
全基因组关联研究基本流程
一、样本采集(populaton) 二、SNP选取 三、数据预处理(QC) 四、关联扫描 五、多重检验校正 六、风险位点、风险等位确定 七、候选基因寻找
2~3阶段

三、SNP单倍型分析

三、SNP单倍型分析
为什么要进行单倍型分析?

位置邻近的snp协同作用共同影响疾病。

三、SNP单倍型分析
? 多位点变异
1 AGATAAGGCTAAACTTGAGGGTTTTTAAGCCCCTT AGATAATGCTAAACTTGGGGGTTTTAAAGCCCCTT 2 AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT AGATAAGGCTAAACTTGAGGGTTTTTAAGCCCCTT 3 AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT AGATAATGCTAAACTTGGGGGTTTTAAAGCCCCTT 4 AGATAAGGCTAAACTTGAGGGTTTTTAAGCCCCTT AGATAAGGCTAAACTTGGGGGTTTTTAAGCCCCTT SNP1 T/G SNP2 A/G SNP3 A/T

单体型的基本概念
? 多位点变异
1 **********G ****************A *********** T *********** **********T **************** G ***********A *********** 2 **********G ****************G *********** T *********** **********G ****************A *********** T *********** 3 **********G ****************G *********** T *********** **********T **************** G ***********A *********** 4 **********G ****************A *********** T *********** **********G ****************G *********** T *********** SNP1 T/G SNP2 A/G SNP3 A/T

单体型的基本概念
? 单体型的概念
1 SNP单体型 **********G ****************A *********** T *********** **********T **************** G ***********A *********** 2 **********G ****************G *********** T *********** **********G ****************A *********** T *********** 3 **********G ****************G *********** T *********** **********T **************** G ***********A *********** 4 **********G ****************A *********** T *********** **********G ****************G *********** T *********** SNP1 T/G SNP2 A/G SNP3 A/T GAT TGA GGT GAT GGT TGA GAT GGT

单体型的基本概念
? 单体型的概念

广义的SNP单体型概念(haplotype):
位于一条染色体上或一条染色体上某一区域内的一 组相互关联的SNP等位的组合。

注:单体型又称为单倍型(单条染色体的相型)。

单体型的基本概念
单体型块( haplotype
染色体的交叉与重组:

block)

单体型的基本概念
? 单体型块( haplotype
只有在群体中才能观测到 重组热点

block)

经过多代的遗传、重组,染色体被重组热点分割成一些片段。

一、单体型的基本概念
? 单体型块( haplotype
block)

单体型块的概念: ? 染色体上存在着的连续的、稳定的几乎没有被重组 打断的单体型范围称之为单体型块。

注:单体型块很可能是遗传的最小单位,在极端情况下,它可以是一个单独 的SNP,或者是整条染色体。

单体型的基本概念
? 单体型块( haplotype
block)

单体型与单体型块的关系: ? 狭义的SNP单体型概念: 位于block区域内的一组相互关联的SNP等位的 组合。
注:单体型的关联分析往往先鉴别block,然后分析block区域内单体型与疾 病的关联性。

一、单体型的基本概念
? 单体型块( haplotype
block)

单体型与单体型块的关系: ? 单体型基因型: 某个个体的一对同源染色体上,位于同一个 block区域内的单体型对。

单体型的基本概念
SNP单体型
单体型基因型

1

**********G ****************A *********** T *********** **********T **************** G ***********A ***********

GAT TGA GGT GAT GGT TGA GAT GGT

GAT/TGA

2

**********G ****************G *********** T *********** **********G ****************A *********** T ***********

GGT/GAT

3

**********G ****************G *********** T *********** **********T **************** G ***********A ***********

GGT/TGA

4

**********G ****************A *********** T *********** **********G ****************G *********** T *********** SNP1 T/G SNP2 A/G SNP3 A/T

GAT/GGT

单体型的基本概念
? 单体型块( haplotype
block)

单体型与单体型块的关系: ? block区域内单体型种类: 假定有3个SNP位点,则随机情况下,群体中可 能出现23=8种SNP单体型。 由于block区域内连锁不平衡(LD)的存在,群 体中会出现较少的单体型种类。

单体型的基本概念
block SNP单体型
单体型基因型

1

**********G ****************A *********** T *********** **********T **************** G ***********A ***********

GAT TGA GGT GAT GGT TGA GAT GGT

GAT/TGA

2

**********G ****************G *********** T *********** **********G ****************A *********** T ***********

GGT/GAT

3

**********G ****************G *********** T *********** **********T **************** G ***********A ***********

GGT/TGA

4

**********G ****************A *********** T *********** **********G ****************G *********** T *********** SNP1 T/G SNP2 A/G SNP3 A/T

GAT/GGT

群体中出现的单体型类型: 1、GAT 2、TGA 3、GGT

单体型的基本概念
? 从标记的角度理解SNP与单体型块 从标记的角度看: 单体型块相当于SNP概念的扩展。
高LD区 SNP 染色体 block1 block2 block3 重组热点区

单体型的基本概念
SNP位点 1 2 染色体 标记: 多态状态: 多态(群体): SNP1 block1 SNP4 SNP5 2 1:A 2:C 3 1:AG 2:TG 3:AT 2 1:A 2:T 2 1:G 2:C block2 4 1:GATAA 2:TGATT 3:TATTA 4:TATAA SNP11 2 1:A 2:C block3 3 1:GTA 2:TGC 3:GTC SNP15 2 1:G 2:C 3 4 5 6 7 8 9 10 11 12 13 14 15

allele

haplotype

个体基因型:(1)任何一个个体SNP位点的基因型为SNP等位的组合(纯合或杂合) (2)任何一个个体block区域的基因型为单体型的组合(纯合或杂合)

单体型的基本概念
? 单体型块的识别

如何鉴别高度连锁不平衡的单体型块?

一、单体型的基本概念
? 单体型块的识别
(1)四配子规则 FGT(Four-Gamete Test ) FGT是通过SNP之间的重组关系来确定单体型的block。 每对个SNP,当发生突变时,由于重组关系可能形成4种由 两个Marker形成的单体型。单体型的block由连续的不发生重 组的Marker组成,即在这个block中,每个单体型都只可能存 在三种组合。 (Wang et al., 2002)

一、单体型的基本概念
? 单体型块的识别
(2)连锁不平衡方法

由Gabriel等人(Gabriel et al., 2002)提出:几乎没 有重组发生的一组连续的位点定义为一个单体型块。

单体型关联分析
? 单体型推断
? 为什么要进行单体型推断

单体型关联分析
1 **********G ****************A *********** T *********** **********T **************** G ***********A *********** 2 **********G ****************G *********** T *********** **********G ****************A *********** T *********** 3 **********G ****************G *********** T *********** **********T **************** G ***********A *********** 4 **********G ****************A *********** T *********** **********G ****************G *********** T *********** SNP1 T/G
PCR和芯 片技术, 将染色体 割裂,导致 恢复原来 真实相形困难

SNP2 A/G

SNP3 A/T

二、单体型关联分析
? 单体型推断
实验方法

Haplotype Inference

系谱推断

最大似然算法

统计算法
贝叶斯算法

Clark 算法

单体型关联分析
单体型关联分析

疾病 估算单体型 数据 某一单体型 对照

P1

n1

P2

n2

单体型关联分析
单体型关联分析 ? 卡方检验: ? Null Hypothesis: Independence

H 0 : ? ij ? ? i. ? ? . j
Haplotype_A cases controls n11 n21 non-haplotype_A n12 n22

df = 1

单体型关联分析
? Chi-squared Test Statistic:

(O ? E ) ? ? ? E all cells
2

2

? O is the observed cell counts ? E is the expected cell counts, under null hypothesis of independence

全基因组范围内单体型关联分析
全基因组单体关联研究基本流程
一、样本采集(populaton) 二、SNP选取 三、数据预处理(QC) 四、单体型块识别 五、单体型频率估计 六、单体型关联检验 七、多重检验校正 八、风险单体型的确定 九、候选基因寻找

全基因组范围内单体型关联分析
例:


赞助商链接
相关文章:
GWAS笔记SNP过滤
GWAS笔记SNP过滤_预防医学_医药卫生_专业资料。SNP分析文档 GWAS 学习笔记 SNP ...全基因组范围内SNP关联分... 76页 3下载券 喜欢此文档的还喜欢 Windows...
更多相关标签: