《什麼是生物資訊學》摘錄

除了【ps】的想法，文章內容均摘自北京大學的公開課《生物資訊學導論和方法》。

1.人的基因組一共有31億個鹼基對，裡面只有2.9%是編碼蛋白的基因區間。

【如何找的這些基因區間？】

2.高等生物有大量的可變剪下，乙個基因可以有多個剪下體，翻譯成多個蛋白。

【比如，果蠅的dscam1基因乙個基因有38000多個可變剪下體】

【找的了基因，如何**被剪下成什麼形狀，翻譯成什麼樣的蛋白呢？】

3.基因組另外的97.1%的位置，原先被認為是垃圾dna，現在知道裡面包含了大量的調控元素，決定在**，在什麼時間，表達哪些蛋白，表達多少。

【ps:以前看科普片，為什麼病毒的dna進入細胞核以後就可以打亂原先所有的基因轉錄、翻譯和表達的秩序，讓這個細胞瘋狂為ta的dna進行表達呢？這個優先順序和競爭性是怎麼來的？】

4.每乙個人其實都攜帶很多突變，大多數突變是不致病的。

【31億個鹼基中，怎樣找的乙個致病的突變呢？如何區分致病的和不致病的突變？】

【ps：這裡可以推薦去學習deep genomics的公司的文章，裡面對splice的**的工具算出來的資料庫spidex就做到了針對乙個突變，給出其影響剪下的可能性打分，很多文章用這個打分來評估該突變的致病性】

5.儲存核酸序列的genbank資料庫，從2023年開始，每20個月就翻一番，呈現乙個指數增長的趨勢。

【乙個主要原因是新一代測序儀的出現】

6.專門儲存新一代測序技術資料的sra（sequence read archive）的資料庫，從10年到13年，資料量增長了100倍。

7.新一代測序技術單個鹼基、單次測序的錯誤率是傳統sanger測序錯誤率的100倍高。

8.生物資訊學的兩條主線：

bio，圍繞重心法則的主線。

【序列比對，兩個基因或兩個蛋白的序列是否相似？如何從龐大的資料庫裡找到和想要研究的基因最相似的同源基因？能否利用已知的基因的功能來指導研究這個基因的功能？有了dna和基因組序列，如何從基因組裡找的基因？兩個基因組中最相似的部分是什麼？如何鑑定乙個基因組裡哪些區間被甲基化？rna表達水平，有哪些基因的表達量是有統計顯著性的差別的？蛋白水平，如何從質譜資料鑑定出有哪些蛋白被表達？能否從蛋白的一維序列來**三維結構？如何來構建蛋白相互作用的網路、轉錄調控網路、代謝及訊號轉導網路？這些網路有什麼動力學特徵？能否對細胞進行模擬？如何從大量的群體遺傳學和人類遺傳學研究找到致病基因？】

informatics，圍繞從資料到發現的主線。

【海量資料的儲存需要先進的資料庫系統；海量、高噪音的資料分析需要大量的演算法、軟體和網上的伺服器】

結合兩條主線，可以進行資料探勘，找到有意思的科學發現，也可以建立**模型，對生物系統進行模擬。

【ps，知道了蛋白質的三維結構可以從此推測功能嗎？】

《什麼是生物資訊學》摘錄

生物資訊學軟體自學生物資訊學

生物資訊學（Bioinformatics）

生物資訊學緒論

《什麼是生物資訊學》摘錄

生物資訊學軟體 自學生物資訊學

生物資訊學（Bioinformatics）

生物資訊學緒論

相關推薦

生物資訊學軟體自學生物資訊學