選擇壓力分析

如何進行選擇壓力分析。

按照群體數量，選擇壓力分析的方法主要可分成兩類：dna多樣性的計算（單個群體內分析）和多樣性水平在不同亞群間的比較（多群體分析）。

dna多樣性的計算（單個群體內分析）。在動植物重測序領域，選擇壓力分析的方法大多數是在同乙個物種內，進行多樣性統計和比較。最基礎的方法，也是重測序文章中用的最多的方法π值的計算。

π值就是計算兩兩序列的差異度，然後求均值。下圖有4條序列，它們如果進行兩兩比較，應該有6組比較。例如，序列1和2的差異度是0.1（10個鹼基長度，1個差異位點），序列1和3的差異度是0.3。最終計算得到均值是0.233。這個小群體的π值=0.233。

圖1 多條序列的比較計算π值

這個π值就是代表了某個物種的某個群體的多樣性程度（個體平均兩兩差異度的大小）。大部分動植物的π值都在1~5‰的水平。當然，這個數值只是整個基因組的均值。

在基因組的不同區域，由於受到不同的選擇壓，所以多樣性水平實際上不同。例如下圖，從野生種到栽培種的馴化過程中，基因組上只有第二個位點受到選擇（藍色基因型被淘汰，只有紅色基因型被保留），所以只有這個位點的多樣性顯著降低。

圖2 基因組不同區域的多樣性變化並不相同

為了尋找基因組上那些潛在最極端的受選擇的區域，在重測序分析中通常我們會採用滑窗分析的方法（例如，以40kb為視窗在基因組上掃瞄，計算各個視窗區域π值的均值）計算基因組上不同區域的π值變化，將那些潛在π值最極端的區域（例如，最低的1%或5%）作為潛在受選擇的區域。

當然，其他常見多樣性分析的方法，包括ω ,tajima』d，zhp（用在混池測序裡）等，相關方法的介紹可以見《dna水平自然選擇作用的檢測》[1]

多樣性水平在不同亞群間的比較（多群體分析）。多樣性水平在亞群間的比較，包括線性相關性分析和亞群間差異比較兩大類方法。

線性相關性分析類的方法，主要是計算各個位點基因型（或者基因型頻率）與環境因子間的相關性（例如，海拔，溫度，維度等），從而篩查與環境相關的受選擇位點（例如相關性最強的前top1%的位點或區域）。這個方法在重測序文章中並不常見。更常見的是，在不同亞群間進行多樣性差異比較的方法。

亞群體間多樣性（π值）的比較，在重測序文獻中最常見的方法是fst（群體分化程度）和 π ratio（多樣性的變化倍數）。從兩個數值的計算方法，我們可以了解它們意義的不同。假設有乙個物種，分為a和b兩個亞群。

fst公式：fst=[π（亞群間）-π（亞群內）] / [π（亞群間）]

所以某個位點（或區間）的fst數值越大，則說明在這個位點，亞群間兩兩個體的平均差異度要大於亞群內兩兩個體的差異度。其說明的問題就是：兩個亞群已經發生了明顯的分化（缺乏基因交流），亞群體內的個體較為相似，而亞群間的個體則差異較大。

從進化選擇的角度來考慮，則說明在兩個亞群體中，進化/馴化的力量對兩個群體施加了不同的作用，使用a和b兩個亞群在基因型（頻率）上呈現了不同的偏好。

圖3 兩個亞群間各個差異度衡量方式的示意圖

公式：π ratio= π（a）/π（b）

π ratio這個公式更加簡單粗暴，直接代表某個位點（或區間）在兩個亞群間的多樣性差異倍數。相比fst關心基因型的分化，π ratio關心多樣性值的高低變化。因此，π ratio通常應用在馴化種和野生種的比較。

假設亞群a為野生種群體，亞群b為栽培種群體。通常，野生群a多樣性較高，而栽培群體b是從野生種群體中育種選育而來，其多樣性必然會降低。而b群體中，多樣性降低最顯著（例如 top1%）的基因組區域，往往與馴化改良的選擇相關。

這些基因組區域常常攜帶產量高、生長快等相關的基因，在育種過程中人類會強烈選擇優良的基因型，導致這些區域在栽培群體中的多樣性更顯著的下降。

例如在西紅柿馴化歷史研究的文章中[2]，通過π ratio兩組比較（西紅柿野生群體pim vs 地方品種群體cer，地方品種群體cer vs 商品種群體big）分別挖掘在西紅柿馴化和改良兩個階段潛在受選擇的基因。

圖4 利用π ratio挖掘西紅柿馴化和改良兩個階段受選擇的基因

以上的方法，都只是針對兩個群體比較的方法。有的時候，可能會同時研究多個品種。那麼，就可能會同時比較a品種與其他品種（b、c、d、e……）的分化差異。這個時候，則可以採用di分析的方法。di最早**一篇研究10個狗品種選擇分化的文章，用於解析任意乙個狗品種與其他9個品種分化相關基因[3]。

為什麼會有這麼多方法？

上文我們介紹了選擇壓力分析的主流方法，但實際上在這些主流方法中還分化出了更多豐富的變種。那麼，我們為什麼需要這麼多方法呢？

（1）不同方法適用範圍不同，用於不同情況下的問題

例如，fst可以廣泛用於兩個群體的分化。如果有多個群體相互比較，則可以採用di分析。但如果關心馴化過程中的多樣性下降，π ratio的方法則更加有針對性。

（2）單個方法可能有較高假陽性，多個聯合分析可以讓結果更加可靠。

在自然群體中，除了因為選擇壓導致多樣性變化，基因型頻率隨機波動導致的隨機漂變也會導致多樣性變化，導致結果假陽性。如果有2~3個方法聯合解析，則可以降低假陽性。

例如，在狗適應性馴化研究文章中[4]，作者就採用狗群體多樣性下降（zhp分析）和兩個群體（狗和狼）分化程度上公升兩個指標的交集，來尋找狗馴化過程中受選擇的基因，從而得到更加可靠的結果。

圖5 兩種方法結合尋找狗受選擇的基因

正因為以上兩點原因，包括π，ω ,tajima』d，zhp，fst，π ratio，di在內的多種方法，便於使用者可以根據自己的專案特點擊擇最適用的方法，挖掘目標材料受選擇的基因。

參考文獻

[1] 周琦, 王文. dna 水平自然選擇作用的檢測[j].動物學研究,2004, 25(1): 73-80.

[2] lin t,zhu g, zhang j, et al. genomic analyses provide insights into the history oftomato breeding[j]. nature genetics, 2014, 46(11): 1220.

[3] akey jm, ruhe a l, akey d t, et al. tracking footprints of artificial selection inthe dog genome[j]. proceedings of the national academy of sciences, 2010,107(3): 1160-1165.

[4] axelsson e, ratnakumar a, arendt m l,et al. the genomic signature of dog domestication reveals adaptation to astarch-rich diet[j]. nature, 2013, 495(7441): 360.

選擇壓力分析

壓力之下，該如何選擇

Apache ab 壓力測試結果分析

選擇排序分析

選擇壓力分析

壓力之下，該如何選擇

Apache ab 壓力測試結果分析

選擇排序分析

相關推薦