Hardy-Weinberg Equilibrium 哈定-溫伯格平衡

族群中的基因頻率與基因型頻率

哈溫平衡

  • Hardy-Weinberg Equilibrium 是將 Mondel 遺傳放到一個廣大的人口群考量看人口中的對偶基因頻率Allele frequency :
    1. 如何估計。
    2. 何時達到平衡(世代繁衍中保持不變)
    3. 會受到哪些因素影響,而無法保持平衡
  • 可透過基因定型調查個體的基因型 genotype
    • 基因型 Genotype: 一生物個體內的DNA所包含的所有基因座(e.g. A, B,…etc) genetic locus 的allele組合。
      • Genotic locus A 會有 allele A,a
  • 基因型頻率可估對偶基因頻率Allele frequency)(aka 基因頻率 Gene frequency)
    • 基因頻率 Gene frequency: 特定 genetic locus 之 allele 在人群中的出現頻率。
For example, 對一個只有兩種allele A,a的genetical locus 進行 100人的定型:
AA
Aa
aa
Total
人數
30
60
10
100
基因數
A
30*2=60
60*1=60
10*0=0
120
a
30*0=0
60*1=60
10*2=20
80
  • Gene frequency of A is f(A)=120/200=0.6
  • … f(a)=80/200=0.4
Mondel 存疑派的問題:
  1. 這樣的頻率是否會隨世代繁衍而改變?
  2. 短指基因為顯性基因,若以上述所說,則幾代之後應該會變成三人短指對一人正常?

Hardy-Weinberg Equilibrium

假設只有兩種對偶基因A,a. f(A)=p, f(a)=q, p+q=1

Genotype與及frequency 如下:
A
a
A
AA(p2)
Aa(pq)
a
aA(pq)
aa(q2)
Genotype的分布如下:
AA
Aa
aa
p2
2pq
q2
而新一代的Gene frequency:

f(A)=p2+1/2(2pq)=p(p+q)=p(?)

f(a)=q2+1/2(2pq)=q(p+q)=q(?)
Conclusion

在下列情況下基因頻率在世代繁衍中會保持不變
  1. 交配隨機(無近親交配/族群不會太小,否則易出現極端值e.g.亞當夏娃近視)
  2. 無明顯對抗因素(生育率存活率/移民/突變)

Hardy-Weinberg Equilibrium 有什麼用途?

  • 對於一個只有兩種allele (A,a)的 genetic locus而言,gene frequency 雖然以三種 genotype,但在總人數固定的條件下,其實只有兩個自由參數(p,q),甚至只要有p,q任一一個參數(q=1-p)就能估出三種genotype的gene frequency
  • 可估隱性疾病之致病gene frequency。很多先天性代謝疾病在兩個allele都是突變型(e.g. aa)才會發病。For example, 假設苯酮尿症(phenylketonuria, PKU)從55715中發現5病患,其疾病基因的頻率q=(5/55715)0.5=9.5*10-3,算罕見,但事實上異型合子(外表正常,但帶有疾病基因者)Hc=2pq/(2pq+p2)=2q/1+p大約50人就有1人帶有疾病基因。

如何檢驗哈溫平衡

基因定型後,如何判定基因型分佈是否偏離哈溫平衡的預測?
  • 用卡方檢定。但若是樣本數小,違反使用卡方檢定(x2 test)之假設時,可採葉氏連續性校正,將分子扣除0.5後再平方;或是使用費雪精確檢定。
  • x2 = Σ3i=1 (Oi - Ei)2/6129*2, df=資料點參數-期望值參數
    • Oi - 基因型的觀察人數
    • Ei - 期望人數
      • 期望人數=i之期望值*總觀察人數
    • df - 自由度
Example: 一項針對 6129 位受試者進行MN血型的分析,請問觀察值與預測值之間是否有顯著差異?
MM
MN
NN
總共
觀察人數
1787
3037
1305
6129
  1. df = 3 - 2 = 1
    • 資料點參數 - 兩個自由變動的類別 M,N + 總數n
    • 期望值參數 - 一個參數(因為只要一個allele frequncy p就可知其他三種)+ 總數n
  2. f(M) = p = (1787+3037)/6129 = 0.539
  3. f(N) = q = 1-0.539=0.461
  4. Exp[f(MM)]=p2=0.291
  5. Exp[f(MN)]=2pq=0.496
  6. Exp[f(NN)]=q2=0.212
  7. 乘上總觀察人數可得基因型之期望分佈
M/M
M/N
N/N
期望人數
1782.7
3045.6
1300.7
  1. x2=0.0489
  2. 查表發現該統計值對應p=0.9,小於1(0代表無偏差,卡方值愈大代表愈偏差),得結論為沒有偏離哈溫平衡。

基因頻率的估算及其變異量

考慮雙對偶基因 bi-allele所構成之genotype進行基因頻率估計時,若allele 數目增加時,如何進行allele frequency的點估計,以及若將變異量考慮進去的話變異量要如何計算。
  • 兩種點估計法:伯恩斯坦法以及EM演算法

伯恩斯坦法

對於沒有唯一對應的基因型,在求某一點時把所有不含該點的外表型當作一種genotype,透過扣除法來估算。
Example: 人類ABO血型有三種allele(IB, IB, i),但在實際測量時只能測得四種外表形(?)(A[IAIA, IAi], B[IBIB, IBi], AB[IAIB], O[ii])。現在對2060位成人進行血型判定,結果如下:
A
B
AB
O
862
365
131
702
令三種allele frequency分別為:f(IA)=p, f(IB)=q, f(i)=r

由於O型的人對應的genotype只有ii,因此r大約=f(O)0.5,但是p, q沒有唯一對應的genotype,因此用伯恩斯坦法來估計:

p大約=1-(q2+2qr+r2)0.5 = 1-(f(B+O))0.5

q大約=1-(p2+2pr+p2)0.5 = 1-(f(A+O))0.5
也就是在求IA頻率時,把所有不含IA的外表型想成是一種non-IA之allele所組成的genotype,因此f(non-IA)=(f(non-IA)2)0.5 => f(IA) = 1-f(non-IA)
最後可得p=0.2803, q=0.1287, r=0.5838

EM 演算法

透過期望式expectation與極大化maximization兩步驟疊代,幾回合之後估計值會小於某個預定門檻,也就是收斂converge(?)。
Example: 續上題

Step1 - E step

令C(A), C(B), C(O),C(AB)分別代表各血型的人數。在哈溫平衡條件下,各種genotype的Exp為:

(IAIA): x1 = C(A)[p2/(p2+2pr)]

(IAi): x2 = C(A)[2pr/(p2+2pr)]

(IBIB): x3 = C(B)[q2/(q2+2qr)]

(IBi): x4 = C(B)[2qr/(q2+2qr)]

(ii): x5 = C(O)

(IAIB): x6 = C(AB)

將從伯恩斯坦法算出的pqr代入上面的exp可得:

x1=166.8865, x2=695.1135, x3=36.2316

x4=328.7684, x5=702, x6=131
Step2 - M step

假設上面估出來的genotype數目為真正的數目,則allele frequency最大概似法估計值 maximum likelihood estimates可寫為:

p^ = (2x1+x2+x6)/2(Σxi)

q^ = (2x3+x4+x6)/2(Σxi)

r^ = (2x5+x2+x4)/2(Σxi)
做完step12算是完成一回的recusive,接著可以用新的pqr再回去step1算新的x1~x6~,直至pqr估計值之和為1。

基因頻率的變異量

影響哈溫平衡的因素

適合度(天擇)

有些疾病本身會導致適合度fitness降低,導致generation間的gene frequency不再維持不變。
Example: 以單一隱性基因所引起的白化症albinism為例,假設人口中盛行率為1/20000,並且fitness=0(完全不會產生下一代,不管是生物性或人為的理由),要過多久其盛行率才會降低成一半,也就是1/40000?

下圖為三種genotype的不同fitness:
AA
Aa
aa
Total
起始世代
p2
2pq
q2
1
Fitness
1
1
0
配子貢獻
p2
2pq
0
p2+2pq
假設第零代時,allele frequency標記為q0,我們可推算出每一代人口中allele frequency of a:

q0 = q

q1 = pq/(p2+2pq)=q/(p+2q)=q0/(1+q0)(?)

q2 = q1/(1+q1)=(q0/1+q0)/[1+(q0/1+q0)]


qt = q0/(1+tq0)
如果要將gene frequency從q0降到qt,所需要的代數為:

t = (q0-qt)/q0qt = (1/qt)-(1/q0)

近親繁殖 Inbreeding(非隨機交配)

若有 inbreeding,由於雙親間具有血緣關係,違反隨機交配的條件導致哈溫不平衡。
Example: 植物自交self-fertilization在起始世代時:

p(AA)=1/4, p(Aa)=1/2, p(aa)=1/4,經過一代self-fertilication後:

p(AA)=(1/4)*1+(1/2)*1/4=3/8

p(Aa)=(1/2)*1/2=2/8

p(aa)=(1/4)*1+(1/2)*1/4=3/8
中間減少,兩旁增加,已偏離哈溫平衡。若再self-fertilization一次

p(AA)=(3/8)*1+(2/8)*1/4=7/16

p(Aa)=(2/8)*1/2=2/16

p(aa)=(3/8)*1+(2/8)*1/4=7/16
然侯檢查每一代的allele frequency
G1: p(A)=1/4+1/21/2=1/2

G2: p(A)=3/8+2/81/2=1/2

G3: p(A)=7/16+2/16*1/2=1/2
會發現allele frequency沒有變動。由此可推論,inbreeding對genotype的影響包含:
  1. increase 同型合子homozygous(AA,aa)的frequency
  2. decrease 異型合子heterozygous(Aa)的frequency
  3. 對所有基因都有影響,而不像選形配種assortative mating,只會影響該「形」之基因。(?)
近親繁殖係數inbreeding coefficient用來量化inbreeding對gene frequency的效應。
Example: 人口中heterzygous的頻率為H,在哈溫平衡下的heterzygous的frequency為H0,coefficient F為:(?)

F = H0-H/H0,移項後可將H用F的函數來表示:

H = H0-H0F = H0(1-F) = 2pq(1-F)

也就是說,相對於隨機交配而言,heterzygous頻率所減少的幅度就是F。透過F和基偶基因頻率,便可算出三種genotype的頻率:

p(AA) = p2(1-F)+pF = p2+pqF

p(Aa) = 2pq(1-F) = 2pq-2pqF


p(aa) = q2(1-F)+qF = q2+pqF 

留言

  1. df = 3 - 2 = 1
    資料點參數 - 兩個自由變動的類別 M,N + 總數n
    期望值參數 - 一個參數(因為只要一個allele frequncy p就可知其他三種)+ 總數n
    f(M) = p = (1787+3037)/6129 = 0.539
    f(N) = q = 1-0.539=0.461
    Exp[f(MM)]=p2=0.291
    Exp[f(MN)]=2pq=0.496
    Exp[f(NN)]=q2=0.212
    乘上總觀察人數可得基因型之期望分佈


    這邊的 '' f(M) = p = (1787+3037)/6129 = 0.539 '' 寫錯了
    應該是 '' f(M) = p = (1787*2+3037)/(6129*2) = 0.539 ''

    回覆刪除

張貼留言