平地起高樓之生信一百年

2021-10-22 16:28:51 字數 1429 閱讀 7579

啥是生信?生信能幹啥?

天天嘴裡嚷嚷著要做生信,也通過一系列自學,獲得了一丟丟的成就感。但生信是咋來的?啥是生信?生信都幹點啥?

綜合網上的資料以及北大生物資訊中心的課程,來從頭梳理梳理生信這個東西。 首先,我們先了解了解它的歷史。因為生信與分子生物學、電腦科學是密不可分的,所以生信的發展歷程與分子生物學、電腦科學的發展有關。

2023年:第一台計算機"eniac"誕生。

1950到2023年:

沃森克里克的dna雙螺旋結構的驚天問世,開啟了分子生物學的時代,生物學的研究深入到了分子的層面。

第乙個蛋白的序列和蛋白的結構被解析出來。

計算機的理論、語法、以及fortran語言相繼提出。

51年,應用電腦程式來解析蛋白質結構。

1960到2023年:

蛋白測序快速發展。在得到同一家族的不同蛋白序列後,人們意識可以根據蛋白的序列來研究生物的演化。2023年,l.pauling發表了《evolutionary divergence and convergence in proteins》,該文提出了「分子鐘」的概念。他在對比**於不同生物系統的同一血紅蛋白分子的氨基酸排列順序後,發現其中的氨基酸是隨著時間的推移而以幾乎一定的比例相互量換著,即氨基酸在單位時間以同樣的速度進行置換。

77年,蛋白質三維結構資料庫(pdb)建立。從此,對蛋白質二維、三維結構的**成為研究熱點。

62年,香濃資訊理論的建立。69年,阿帕網誕生,是全球網際網路的始祖

67年,首次運用電腦程式構建系統發育樹。

1970到2023年:

桑格測序法的發明。人們不僅可以測出蛋白質序列,還可以測出dna序列。

郵件、網際網路誕生。

個人計算機進入市場,開始普及。

70年,"bioinformatics"一詞首次出現在**中。

70年,結合動態規劃思想求序列比對的最優解,替換矩陣的建立。

1980~2023年:生物資訊學史上大事件發生——人類基因組計畫開啟。為從整個基因組解決生物學問題提供了可能性。

81年,區域性最優匹配演算法的提出。

91年,linux系統誕生。

1990到2023年:大腸桿菌、酵母、果蠅等基因組相繼測出來。

90年,blast法的提出。

2000至今:01年人類基因組草圖發布,04年人類基因組計畫正式完成。05年二代測序的發明,比桑格法的速度更快、**更便宜。

全基因組演算法,blat法。

至今,不斷有基於新一代測序演算法的提出。

以上就是生信、分子生物學、電腦科學的大致歷程。

生信都幹點啥?

dna層面:基因的發掘與計算、比較基因組學、演化、dna甲基化。

rna層面:序列比對,非編碼rna,差異性表達分析。

蛋白質層面:蛋白質結構**,蛋白質序列比對。

分子網路層面:蛋白質相互作用網路,轉錄調控網路,代謝網路,訊號傳遞網路

細胞層面:單細胞測序等。

平地起高樓之漫談長非編碼RNA

平地起高樓之漫談長非編碼rna 關於長非編碼,我還記得當時在生物化學課上,劉老師專門拿出了半節課向我們介紹長非編碼rna。正好當時也做了筆記,於是結合筆記和網上查閱的資料,簡要的寫寫長非編碼rna。主要思路是介紹長非編碼rna以及相關的資料庫,最後在介紹一波由北大開發的 的工具 cpc。基因組被譽為...

網際網路平地起高樓,借勢要乘早

能不能把握機會,還在於自己的眼光與心胸,很多人總是會羨慕別人的成功,並且會抱怨自己為什麼沒有機會成功。其實萬事都是從零開始的,沒有人的成功是從天而降的,唯一的不同就是每個人的經歷 閱歷 能力不同而已,尤其是在這個網路時代,大家幾乎都是平地起高樓,所要面臨的形式大致都一樣。而在這個時候這些創始人往往也...

從零學習PyTorch 6 萬丈高樓平地起

本章會介紹一下搭建神經網路的兩種方法 這裡將網路定義為乙個類,之後進行例項化,裡面有兩個方法 第乙個初始方法目的是構建神經層,可以抽象為蓋房子先準備好木料。第二forward方法的目的是鏈結神經層,可以抽象為利用木料搭房子。class net t.nn.module def init self,n ...