密碼子偏好性分析

2021-10-03 12:08:18 字數 2722 閱讀 9625

fields: [triplet] [frequency: per thousand] ([number])

uuu 26.1(168775) ucu 23.4(151438) uau 18.8(121495) ugu 8.1( 52260)

uuc 18.4(119114) ucc 14.2( 91850) uac 14.8( 95577) ugc 4.8( 30777)

uua 26.2(169106) uca 18.7(120621) uaa 1.0( 6722) uga 0.7( 4290)

uug 27.2(175659) ucg 8.6( 55453) uag 0.5( 3261) ugg 10.4( 67292)

cuu 12.3( 79344) ccu 13.5( 87427) cau 13.7( 88416) cgu 6.4( 41509)

cuc 5.4( 35146) ccc 6.8( 43975) cac 7.8( 50319) cgc 2.6( 16766)

cua 13.4( 86423) cca 18.2(117957) caa 27.3(176427) cga 3.0( 19326)

cug 10.5( 67725) ccg 5.3( 34258) cag 12.1( 78500) cgg 1.7( 11280)

auu 30.1(194778) acu 20.2(130796) aau 35.7(230875) agu 14.2( 91537)

auc 17.1(110835) acc 12.7( 82141) aac 24.9(160782) agc 9.7( 62908)

aua 17.8(115045) aca 17.8(114774) aaa 41.9(270571) aga 21.3(137700)

aug 21.0(135823) acg 8.0( 51640) aag 30.8(199364) agg 9.2( 59768)

guu 22.0(142417) gcu 21.2(136804) gau 37.6(242880) ggu 23.9(154471)

guc 11.7( 75894) gcc 12.6( 81452) gac 20.2(130681) ggc 9.8( 63318)

gua 11.8( 76018) gca 16.2(105001) gaa 45.6(294953) gga 10.9( 70558)

gug 10.8( 69512) gcg 6.2( 40093) gag 19.2(124242) ggg 6.0( 38969)

each triplet position vs. usage table的功能是針對輸入的特定序列進行異源表達分析的。在互動式的選擇介面中輸入你分析序列的名稱、其**物種以及dna序列,然後選擇要進行異源表達的物種,系統即返回表達時針對每乙個密碼子進行翻譯的效率。以gfp蛋白為例,其在a. victoria 的表達情況的部分圖示如圖一。

我們看到其翻譯時密碼子的使用效率非常的低,所以可以通過序列改造的方式對序列進行編輯。或者通過在高效表達受體中表達。上圖即是該基因在c. reinhardtii中的表達情況,我們看到通過選用c. reinhardtii進行表達,其翻譯的效率得到明顯的提高。

each codon vs. usage table的功能是針對輸入的特定序列,其不同的氨基酸所對應的密碼子在**物種及異源物種**現的情況的比較。操作方式同上。同樣對gfp蛋白來說,部分比較圖如圖三所示,可以看到針對ala和arg其在**物種a. victoria及異源物種c. reinhardtii中不同密碼子的使用頻率統計。經統計分析,兩物種密碼子使用的差異為32.56。

compare two usage tables的功能則不是針對特定基因序列的,而是把兩個不同物種的密碼子使用頻率進行對比,估計其總體翻譯效率的差異。在互動式的選擇中,只要指定兩種想要比較的物種,即可得到其資料。例如對h. sapiens 和 e. coli之間的比較(見圖四)我們看到其效果如each codon vs. usage table的結果。ala的gca密碼子使用頻率在h. sapiens為23%,而e. coli為21%。但與each codon vs. usage table不同的是這時對大量基因的統計的總體效果。

另外,graphical codon usage analyser所提供的物種僅是最常用的物種,對於其他物種,可以利用codon usage database進行其密碼子使用情況統計的及時生成進行http新增。具體方式是利用codon usage database找到你想用的物種的密碼子表(例如saccharomyces cerevisiae為 然後在format:中選擇1. standard 並選擇a style like codonfrequency output in gcg wisconsin packagetm 進行提交,對於得到的網頁的鏈結( +[gbpln]&aa=1&style=gcg)複製到graphical codon usage analyser的分析系統裡originating organism的not listed的空白框裡即可。

三、使用心得

在實際的使用過程中發現利用codon usage database和graphical codon usage analyser連用,可達到非常強大的異源表達蛋白翻譯效率的估算。經驗上認為,對於以水稻為代表的單子葉植物,其gc含量高,較雙子葉植物及細菌等物種來說,密碼子偏好性強,更不容易進行針對非單子葉植物的異源表達。而相比之下,雙子葉植物在該問題上則不存在翻譯效率上的問題。由於單子葉植物組培體系的周期長、效果差,水稻功能基因的挖掘及其在雙子葉植物中的表達以成為必然,然而對於表達過程中的效率以及表達鑑定等方面的問題的困擾,可以通過密碼子偏好性分析並從中找到答案。