生物資訊學基礎知識Day2

2021-10-14 07:48:12 字數 1104 閱讀 4208

總結個人對《r語言與bioconductor 生物資訊學應用》作的一些摘要。方便自己日後查閱。

dna測序技術(dna sequencing),簡單來說就是確定四種核苷酸殘基(a、t、c和g)的排列順序。第一代測序技術,也稱sanger測序法;第二代測序技術,也稱深度測序或高通量測序;第三代測序的核心概念是單分子。

測序分析是生物資訊學最基本的工作。當前生物實驗獲得的最主要資料依然還是dna、rna和蛋白質序列,他們構成了生物資訊學的出發點和最主要的內容。特別是當前高通量測序的迅猛發展使序列分析的需求呈海量倍增,對序列分析提出了更多新的要求,同時也改變了序列分析的內容和重點。從高通量資料處理的需求出發,當前的序列分析主要集中在序列預處理、序列拼接、短序列對映、變異檢測、序列比對、相似性搜尋、分子進化分析和比較基因組學等方面。 測序得到的dna序列除了包括目的基因的短片段之外,還常常包括引物、接頭或載體等其他片段,必須通過電腦程式去除這些片段,這個過程叫做去汙染。除此之外,還要去除測序質量較低的部分,這樣得到高質量的乾淨(clean)資料,才能用於進一步的分析。bioconductor的shortread軟體包提供了有針對性的函式,用於去除第二代測序資料中的汙染和低質量片段。 第二代測序會得到大量隨機的短dn**段,因此如何正確拼接這些片段以得到目的基因組或轉錄組是乙個具有挑戰性的問題。由於序列拼接演算法比較複雜,且耗費的資源非常可觀,因此普遍需要用更具有效率的程式語言(如c++/c)編寫,這裡不做過多介紹。拼接得到的序列叫做一致性序列(consensus sequences),它只是代表了一條參考序列,在這條序列的每個位點的核苷酸只是出現次數較多的那種,出現次數少的核苷酸不被反映出來。 對已有基因組或轉錄組作為參考序列的重測序專案中,需要將測序得到的短序列(一般不超過500個bp)對映到參考序列,這個過程也叫對齊(alignment)。這也是乙個耗費資源的工作,因此不多介紹。不過短序列對映的後續處理工作和其他相應的資料分工作會大量使用r程式設計。特別是,根據這些對映的結果,在全基因組水平上掃瞄並檢測發現大量的基因序列變異,並結合表型分析,進而指導動植物育種或人類疾病等研究。這些變異包括:單核苷酸多型性(single nucleotide polymorphism,snp)、拷貝數變異(copy number variation,cnv)、插入(insertion)和缺失(deletion)等變異型別。

下篇見day3

生物資訊學基礎知識Day5

總結個人關於 r語言與bioconductor 生物資訊學應用 的一些摘錄,方便自己日後查閱。如何用最精簡的語言來概括生物資訊學 狹義的 主要工作,那就是注釋 統計和視覺化。這裡的注釋是指通過電腦程式自動化批量注釋,它往往是資料處理的第一步 統計基於多條序列注釋的結果 視覺化貫穿整個資料的處理過程,...

生物資訊學軟體 自學生物資訊學

我是生物工程專業出身,在大三保研時選擇了生物資訊的道路,到現在為止已經在行業裡摸爬滾打了6年的時間,在這6年的學習之路上疑惑過,也迷茫過,特此把我學習的過程以及遇到的問題總結出來以讓大家避免出現同樣的問題。在我學習生物資訊過程的基礎上帶著大家順暢的走一遍。在學習生物資訊學之前,我們先來了解一下什麼是...

生物資訊學(Bioinformatics)

生物資訊學 bioinformatics 這個名詞有許多不同的定義。從字面上來看,生物資訊學是將資訊科學應用於生物學。生物資訊學廣義的概念是指應用資訊科學研究生物體系和生物過程中資訊的存貯 資訊的內涵和資訊的傳遞,研究和分析生物體細胞 組織 器官的生理 病理 藥理過程的中各種生物資訊,或者說是生命科...