雙序列比對的基礎之PAM矩陣

2021-10-02 09:43:41 字數 1253 閱讀 9669

pam矩陣的記分方法是基於蛋白序列中單點可接受(point accepted mutation, pam)的概念,通過對蛋白質進化模式的研究而建立的。 pam矩陣是由dayhoff等人構建了與71個家族的序列關聯的假想系統發育樹,其中每對序列間的差異不超過它們殘基總數的15%,用簡約法建樹,統計相似序列比對中的替換發生率來得到的。即,構建乙個序列間相似度很高(通常大於85%)的比對。接著計算每個氨基酸a的相對突變率σca

ac

\sigma _ a _

σc​aac

​。相對突變率僅僅就是某種氨基酸被其他任意氨基酸替換的次數。然後我們針對每個氨基酸對a和b,計算氨基酸b被氨基酸a替換的次數aab

a _

aab​

。最後將以上替換次數( aij 的值)除以對應的相對替換率,利用每個氨基酸出現的頻度對其進行標準化,並將以上計算結果取常用對數,於是得到了pam矩陣。這種矩陣被稱作對數機率矩陣,因為其中的元素是根據每個氨基酸替換率的對數值來得到的。即,p(b|a)=ba,

bb_

ba,b​=aab

a _

aab​

/σ ca

ac

\sigma _ a _

σc​aac

​dayhoff等人定義,如果替換次數的期望值為1%,即∑a≠

bqaq

bba,

b\sum _ q _ q _ b _

∑a​=b

​qa​

qb​b

a,b​

=0.01,則成此替換矩陣為pam-1矩陣。注意pam矩陣的值是隨著進化時間而變化的。進化時間是體現在序列間殘基的等同率,因為當兩條序列不久前才由共同祖先分化而來時,這兩條序列的多數殘基是等同的。而pam-1的1表示序列間的殘基差異率是1%,表示這些序列才進化了很短時間,它們相距了1個pam距離。

而將pam-1矩陣進行自乘,如自乘n次就得到了pam-n矩陣。乙個pam-n矩陣元素(i,j)的值反映兩條相距n個pam單位的序列中第i種氨基酸替換第j種氨基酸的概率。

我們可以根據序列的長度以及序列間的先驗相似程度來選用特定的pam矩陣,應用與序列比對。pam-1矩陣適於用來比較親緣關係非常近的序列,而pam-1000矩陣可以用來比較親緣性非常遠的序列。實踐中用的最多的且比較折衷的矩陣是pam-250。

本篇總結:

本篇主要介紹了pam矩陣,也許這時又有疑問:為啥pam-1矩陣自乘n次,就得到了相距n個進化距離序列替換矩陣。其實涉及了一些馬氏鏈的概念,由於參加數模時學過馬氏鏈,所以將在以後的博文進行介紹。

dp基礎之雙序列型子串出現次數

問題分析 可以用類似於最長公共子串的思路。問b在a中出現的次數,考慮最後乙個字元b n 1 和a m 1 case1 如果b n 1 a m 1 則考慮b 0,n 2 在a 0,m 2 出現多少次 case2 如果b n 1 a m 1 則考慮b 0,n 1 在a 0,m 2 出現多少次 子問題 原...

MATLAB基礎之矩陣相關的建立 基本操作

matlab 基礎之與矩陣相關的建立 基本操作的演示 1.與.是矩陣與標量資料之間的操作運算例如a.b 即 a i,j b i,j 是矩陣之間的操作運算 a b 2.與.a b相當於a乘b的逆 a b a inv b a.b是a的每個元素與b的每個元素對應相除a b inv a b 本程式主要介紹m...

python基礎之序列型別的方法 列表 元組

li 1,2,3,4,5 insert li1 7,8,9,10 li1.insert 3,helloworld print 這是使用了insert li1 這是使用了insert 7,8,9,helloworld 10 這樣就將字串helloworld插入到了列表的第四個位置裡。extend 上面...