北京大學生物資訊學課程筆記(第一 二周課程筆記)

2021-10-04 02:09:06 字數 2816 閱讀 7956

第二週仿射序列比對的空位罰分與needle-man -wunsch的時間複雜度

基本概念補充

必讀**

序列比對演算法,如何在大量的基因序列中找到與我最相似的–blast

序列統計工具

如何基於已知資料**未知

通過馬爾可夫模型**

如何回帖到參考基因組鑑定乙個人的遺傳變異

如何計算基因表達差異

案例實踐

染色體內的基因組就像是人的說明書

四個鹼基atcg,so ******, yet so mysterious.

生物序列資料在genbank記錄,每20個月翻一番

sra資料庫儲存新測序的資料,每五個月翻一番

定義:開發應用計算機技術處理生物問題,也是一種有別於以往的研究方法。

從基因組內如何鑑定被甲基化,如何判斷兩個相似

鑑定哪些蛋白被表達,如何從一維**三維結構

分子生物學發展

1.1. 2023年雙螺旋結構

1.2. 從形態水平到分子水平的研究

1.3. 2023年evolutionary divergence and convergence in proteins**

1.4. 2023年人類基因組計畫

1.5. 2023年諾貝爾得主說研究方法的轉變

1.6. 2023年人類基因組草圖發表,完成圖在2023年發表..

1.7. 生物資訊學文章佔比不斷增加

wei-2008-bioinformatics-in-china-a-personal(2023年)

文章從中國的角度講述生物資訊學,近年來中國在生物資訊學領域發表的**佔比越來越大。中國80年代的科學家是用中國傳統學科物理和數學方法來研究生物資訊學。但這些中國生物資訊學前輩的研究成果是具有意義的,成功地推動了中國生物資訊學的發展。直到人類基因組計畫,和網際網路技術的快速興起,中國獲得了巨大的發展機會。

上海生物資訊研究中心

北京大學生物資訊研究中心

hogeweg-2011-the-roots-of-bioinformatics-in-theo

文章講述了生物資訊學概念和該概念的起源於發展。並且在發展過程中,我們對於生物的研究方法的改進以及所涉及的其他領域的演變。最後肯定生物資訊學這一領域的發展。

描述了序列比對的基本概念

明確輸入是兩個序列,引數是打分矩陣,輸出是根據打分矩陣得到的分數

打分矩陣中明確了單一鹼基對之間的得分,但還需要了解空位罰分的概念。因為鹼基可能對應著空位。

通過左下角的公式規則(原理為動態規劃),我們得到兩個序列的最大得分-6。箭頭代表從**計算得到,最後箭頭反方向就表示得到的序列比對結果。

在上述動態規劃演算法中,引入了0的最低下限。也就是說,在差異擴大之後,重啟比對,獲得區域性比對的效果。

這裡主要將上一節中的減去d給細分出來,前面已經有了乙個空格(gap extention),那麼這裡就-e;前面是乙個匹配上的(gap open),那麼這裡就-d。

對於同源性更高的序列應當選擇blosum更高pam更低的打分矩陣

將pam-1自乘n次,可以得到pam-n。乙個pam-n矩陣元素(i,j)的值:反應兩個相距n個pam單位的序列中第i種氨基酸替換第j種氨基酸的頻率。

blosum矩陣與pam矩陣的不同之處在於:

(1)用於產生矩陣的蛋白質家族及多肽鏈數目,blosum比pam大約多20倍。 

(2)pam:家族內成員相比,然後把所有家族中對某種氨基酸的比較結果加和在一起,產生「取代」資料(pam-1 );pam-1自乘n次,得pam-n。

blosum:首先尋找氨基酸模式,即有意義的一段氨基酸片斷(如乙個結構域及其相鄰的兩小段氨基酸序列) ,分別比較相同的氨基酸模式之間氨基酸的保守性(某種氨基酸對另一種氨基酸的取代資料),然後,以所有 60%保守性的氨基酸模式之間的比較資料為根據,產生blosum60;以所有80%保守性的氨基酸模式之間的比 較資料為根據,產生blosum80。

(3)pam-n中,n 越小,表示氨基酸變異的可能性越小;相似的序列之間比較應該選用n值小的矩陣,不太相似 的序列之間比較應該選用n值大的矩陣。pam-250用於約 20%相同序列之間的比較。blosum-n中,n越小,表示氨基酸相似的可能性越小;相似的序列之間比較應該選用 n 值大的矩陣,不太相似的序列之間比較應該選 用n值小的矩陣。

相似性和同源性:相似性(similarity)和同源性( homology)是兩個完全不同的概念.同源序列是指從某一共同祖先經過趨異進化而形成的不同序列.相似性是指序列比對過程中檢測序列和目標序列之間相同鹼基或氨基酸殘基序

dot_matrix點陣是序列比對的基礎演算法,以影象的形式展示序列之間的相似性,作者通過演算法展示序列相似性,並返回所有匹配段片段,一般由於短片段相似性較多,導致背景噪音多,不易直觀表示,故採用移框比對的方式降低噪音。

基於全域性匹配演算法:動態規劃演算法、needleman-wunsch演算法

基於區域性匹配演算法:smith-waterman演算法

其中需要注意一點是,needleman-wunsch演算法的罰分規則可根據自己資料進行設計。

蓋茨北京大學演講

大家早上好!微軟認為計算將是個人的,所有的人們創造出來工具,在所有的工具中個人電腦將是重要的一點,它能夠為人們提供溝通以及製造,做生意的全新的方式,這些充滿了好奇心的學生,更好地獲取各種各樣的資訊,讓他們找到自己問題的答案。在過去的30年中,確實是令人難以置信的。我們看到計算以後的方式發展,在30多...

參加「北京大學CIO論壇」

今天上午9 00左右,忽然想起來曾經接到過乙份通知 北京大學cio論壇。或者中國資訊化高峰論壇暨首屆北大cio班結業典禮。內心裡不是很喜歡湊這種熱鬧,畢竟我已經看過 經歷過太多這樣的東西,印象中覺得就不是太好。但是,看到這是中國的最高學府首次舉辦類似的活動,心裡覺得還是有必要去看看的。正想著,身子還...

子串計算 北京大學

牛客網題目鏈結 直接暴力,用map函式存每個子串出現的次數,子串的型別使用兩層迴圈遍歷。注意字串的邊界問題,這裡需要排序所以直接用map include include include include include include include include include include u...