Hardy-Weinberg Equilibrium 哈定-溫伯格平衡
族群中的基因頻率與基因型頻率
哈溫平衡
- Hardy-Weinberg Equilibrium 是將 Mondel 遺傳放到一個廣大的人口群考量看人口中的對偶基因頻率Allele frequency :
- 如何估計。
- 何時達到平衡(世代繁衍中保持不變)
- 會受到哪些因素影響,而無法保持平衡
- 可透過基因定型調查個體的基因型 genotype
- 基因型 Genotype: 一生物個體內的DNA所包含的所有基因座(e.g. A, B,…etc) genetic locus 的allele組合。
- Genotic locus A 會有 allele A,a
- 基因型頻率可估對偶基因頻率Allele frequency)(aka 基因頻率 Gene frequency)
- 基因頻率 Gene frequency: 特定 genetic locus 之 allele 在人群中的出現頻率。
For example, 對一個只有兩種allele A,a的genetical locus 進行 100人的定型:
AA
|
Aa
|
aa
|
Total
|
||
人數
|
30
|
60
|
10
|
100
|
|
基因數
|
A
|
30*2=60
|
60*1=60
|
10*0=0
|
120
|
a
|
30*0=0
|
60*1=60
|
10*2=20
|
80
|
- Gene frequency of A is f(A)=120/200=0.6
- … f(a)=80/200=0.4
Mondel 存疑派的問題:
- 這樣的頻率是否會隨世代繁衍而改變?
- 短指基因為顯性基因,若以上述所說,則幾代之後應該會變成三人短指對一人正常?
Hardy-Weinberg Equilibrium
假設只有兩種對偶基因A,a. f(A)=p, f(a)=q, p+q=1
Genotype與及frequency 如下:
A
|
a
|
|
A
|
AA(p2)
|
Aa(pq)
|
a
|
aA(pq)
|
aa(q2)
|
Genotype的分布如下:
AA
|
Aa
|
aa
|
p2
|
2pq
|
q2
|
而新一代的Gene frequency:
f(A)=p2+1/2(2pq)=p(p+q)=p(?)
f(a)=q2+1/2(2pq)=q(p+q)=q(?)
Conclusion
在下列情況下基因頻率在世代繁衍中會保持不變:
- 交配隨機(無近親交配/族群不會太小,否則易出現極端值e.g.亞當夏娃近視)
- 無明顯對抗因素(生育率存活率/移民/突變)
Hardy-Weinberg Equilibrium 有什麼用途?
- 對於一個只有兩種allele (A,a)的 genetic locus而言,gene frequency 雖然以三種 genotype,但在總人數固定的條件下,其實只有兩個自由參數(p,q),甚至只要有p,q任一一個參數(q=1-p)就能估出三種genotype的gene frequency
- 可估隱性疾病之致病gene frequency。很多先天性代謝疾病在兩個allele都是突變型(e.g. aa)才會發病。For example, 假設苯酮尿症(phenylketonuria, PKU)從55715中發現5病患,其疾病基因的頻率q=(5/55715)0.5=9.5*10-3,算罕見,但事實上異型合子(外表正常,但帶有疾病基因者)Hc=2pq/(2pq+p2)=2q/1+p大約50人就有1人帶有疾病基因。
如何檢驗哈溫平衡
基因定型後,如何判定基因型分佈是否偏離哈溫平衡的預測?
- 用卡方檢定。但若是樣本數小,違反使用卡方檢定(x2 test)之假設時,可採葉氏連續性校正,將分子扣除0.5後再平方;或是使用費雪精確檢定。
- x2 = Σ3i=1 (Oi - Ei)2/6129*2, df=資料點參數-期望值參數
- Oi - 基因型的觀察人數
- Ei - 期望人數
- 期望人數=i之期望值*總觀察人數
- df - 自由度
Example: 一項針對 6129 位受試者進行MN血型的分析,請問觀察值與預測值之間是否有顯著差異?
MM
|
MN
|
NN
|
總共
|
|
觀察人數
|
1787
|
3037
|
1305
|
6129
|
- df = 3 - 2 = 1
- 資料點參數 - 兩個自由變動的類別 M,N + 總數n
- 期望值參數 - 一個參數(因為只要一個allele frequncy p就可知其他三種)+ 總數n
- f(M) = p = (1787+3037)/6129 = 0.539
- f(N) = q = 1-0.539=0.461
- Exp[f(MM)]=p2=0.291
- Exp[f(MN)]=2pq=0.496
- Exp[f(NN)]=q2=0.212
- 乘上總觀察人數可得基因型之期望分佈
M/M
|
M/N
|
N/N
|
|
期望人數
|
1782.7
|
3045.6
|
1300.7
|
- x2=0.0489
- 查表發現該統計值對應p=0.9,小於1(0代表無偏差,卡方值愈大代表愈偏差),得結論為沒有偏離哈溫平衡。
基因頻率的估算及其變異量
考慮雙對偶基因 bi-allele所構成之genotype進行基因頻率估計時,若allele 數目增加時,如何進行allele frequency的點估計,以及若將變異量考慮進去的話變異量要如何計算。
- 兩種點估計法:伯恩斯坦法以及EM演算法
伯恩斯坦法
對於沒有唯一對應的基因型,在求某一點時把所有不含該點的外表型當作一種genotype,透過扣除法來估算。
Example: 人類ABO血型有三種allele(IB, IB, i),但在實際測量時只能測得四種外表形(?)(A[IAIA, IAi], B[IBIB, IBi], AB[IAIB], O[ii])。現在對2060位成人進行血型判定,結果如下:
A
|
B
|
AB
|
O
|
862
|
365
|
131
|
702
|
令三種allele frequency分別為:f(IA)=p, f(IB)=q, f(i)=r
由於O型的人對應的genotype只有ii,因此r大約=f(O)0.5,但是p, q沒有唯一對應的genotype,因此用伯恩斯坦法來估計:
p大約=1-(q2+2qr+r2)0.5 = 1-(f(B+O))0.5
q大約=1-(p2+2pr+p2)0.5 = 1-(f(A+O))0.5
也就是在求IA頻率時,把所有不含IA的外表型想成是一種non-IA之allele所組成的genotype,因此f(non-IA)=(f(non-IA)2)0.5 => f(IA) = 1-f(non-IA)
最後可得p=0.2803, q=0.1287, r=0.5838
EM 演算法
透過期望式expectation與極大化maximization兩步驟疊代,幾回合之後估計值會小於某個預定門檻,也就是收斂converge(?)。
Example: 續上題
Step1 - E step
令C(A), C(B), C(O),C(AB)分別代表各血型的人數。在哈溫平衡條件下,各種genotype的Exp為:
(IAIA): x1 = C(A)[p2/(p2+2pr)]
(IAi): x2 = C(A)[2pr/(p2+2pr)]
(IBIB): x3 = C(B)[q2/(q2+2qr)]
(IBi): x4 = C(B)[2qr/(q2+2qr)]
(ii): x5 = C(O)
(IAIB): x6 = C(AB)
將從伯恩斯坦法算出的pqr代入上面的exp可得:
x1=166.8865, x2=695.1135, x3=36.2316
x4=328.7684, x5=702, x6=131
Step2 - M step
假設上面估出來的genotype數目為真正的數目,則allele frequency最大概似法估計值 maximum likelihood estimates可寫為:
p^ = (2x1+x2+x6)/2(Σxi)
q^ = (2x3+x4+x6)/2(Σxi)
r^ = (2x5+x2+x4)/2(Σxi)
做完step12算是完成一回的recusive,接著可以用新的pqr再回去step1算新的x1~x6~,直至pqr估計值之和為1。
基因頻率的變異量
略
影響哈溫平衡的因素
適合度(天擇)
有些疾病本身會導致適合度fitness降低,導致generation間的gene frequency不再維持不變。
Example: 以單一隱性基因所引起的白化症albinism為例,假設人口中盛行率為1/20000,並且fitness=0(完全不會產生下一代,不管是生物性或人為的理由),要過多久其盛行率才會降低成一半,也就是1/40000?
下圖為三種genotype的不同fitness:
AA
|
Aa
|
aa
|
Total
|
|
起始世代
|
p2
|
2pq
|
q2
|
1
|
Fitness
|
1
|
1
|
0
| |
配子貢獻
|
p2
|
2pq
|
0
|
p2+2pq
|
假設第零代時,allele frequency標記為q0,我們可推算出每一代人口中allele frequency of a:
q0 = q
q1 = pq/(p2+2pq)=q/(p+2q)=q0/(1+q0)(?)
q2 = q1/(1+q1)=(q0/1+q0)/[1+(q0/1+q0)]
…
qt = q0/(1+tq0)
如果要將gene frequency從q0降到qt,所需要的代數為:
t = (q0-qt)/q0qt = (1/qt)-(1/q0)
近親繁殖 Inbreeding(非隨機交配)
若有 inbreeding,由於雙親間具有血緣關係,違反隨機交配的條件導致哈溫不平衡。
Example: 植物自交self-fertilization在起始世代時:
p(AA)=1/4, p(Aa)=1/2, p(aa)=1/4,經過一代self-fertilication後:
p(AA)=(1/4)*1+(1/2)*1/4=3/8
p(Aa)=(1/2)*1/2=2/8
p(aa)=(1/4)*1+(1/2)*1/4=3/8
中間減少,兩旁增加,已偏離哈溫平衡。若再self-fertilization一次
p(AA)=(3/8)*1+(2/8)*1/4=7/16
p(Aa)=(2/8)*1/2=2/16
p(aa)=(3/8)*1+(2/8)*1/4=7/16
然侯檢查每一代的allele frequency
G1: p(A)=1/4+1/21/2=1/2
G2: p(A)=3/8+2/81/2=1/2
G3: p(A)=7/16+2/16*1/2=1/2
會發現allele frequency沒有變動。由此可推論,inbreeding對genotype的影響包含:
- increase 同型合子homozygous(AA,aa)的frequency
- decrease 異型合子heterozygous(Aa)的frequency
- 對所有基因都有影響,而不像選形配種assortative mating,只會影響該「形」之基因。(?)
近親繁殖係數inbreeding coefficient用來量化inbreeding對gene frequency的效應。
Example: 人口中heterzygous的頻率為H,在哈溫平衡下的heterzygous的frequency為H0,coefficient F為:(?)
F = H0-H/H0,移項後可將H用F的函數來表示:
H = H0-H0F = H0(1-F) = 2pq(1-F)
也就是說,相對於隨機交配而言,heterzygous頻率所減少的幅度就是F。透過F和基偶基因頻率,便可算出三種genotype的頻率:
p(AA) = p2(1-F)+pF = p2+pqF
p(Aa) = 2pq(1-F) = 2pq-2pqF
p(aa) = q2(1-F)+qF = q2+pqF
df = 3 - 2 = 1
回覆刪除資料點參數 - 兩個自由變動的類別 M,N + 總數n
期望值參數 - 一個參數(因為只要一個allele frequncy p就可知其他三種)+ 總數n
f(M) = p = (1787+3037)/6129 = 0.539
f(N) = q = 1-0.539=0.461
Exp[f(MM)]=p2=0.291
Exp[f(MN)]=2pq=0.496
Exp[f(NN)]=q2=0.212
乘上總觀察人數可得基因型之期望分佈
這邊的 '' f(M) = p = (1787+3037)/6129 = 0.539 '' 寫錯了
應該是 '' f(M) = p = (1787*2+3037)/(6129*2) = 0.539 ''