平地起高樓之漫談長非編碼RNA

平地起高樓之漫談長非編碼rna

關於長非編碼，我還記得當時在生物化學課上，劉老師專門拿出了半節課向我們介紹長非編碼rna。正好當時也做了筆記，於是結合筆記和網上查閱的資料，簡要的寫寫長非編碼rna。主要思路是介紹長非編碼rna以及相關的資料庫，最後在介紹一波由北大開發的**的工具——cpc。

基因組被譽為「人類組裝說明書」，自從人類基因組計畫完成後，人們發現基因僅是由四種鹼基組成，它是如此的簡單，但又是如此的神秘。其中編碼區域僅佔基因組的2.9%，可知基因組中由大量不編碼的區域，這些區域仍轉錄成rna,這些rna稱為非編碼rna。

早期發現的非編碼rna大多是housekeepingrna,它們負責細胞的基礎代謝，並且在細胞中持續表達。這些rna包括rrna、trna、snrna、tmrna。近幾年，人們的研究漸漸轉移到了lncrna(長非編碼rna),這種rna是長度在200bp以上的非編碼rna。這類rna雖然不編碼蛋白質，但是卻具有很重要的調控作用，可以在表達遺傳水平，轉錄水平，轉錄後水平等多個層次調控基因的表達。並廣泛的參與了各種生物學功能。

由於lncrna是研究熱點，所以相關的資料庫眾多，下面我將羅列幾個主流資料庫，供以後參考使用。

lncipedia:人類lncrna資料庫。

noncode:綜合性的lncrna資料庫。

lncrnome:綜合性的人類lncrna資料庫。

plncrnadb:植物lncrna資料庫。

cantatadb：植物lncrna資料庫。

greenc：植物lncrna資料庫。

evlncrnas:最大實驗驗證過的lncrna資料庫。

既然長非編碼rna有著如此重要的作用，所以它的**無疑是研究攻克的重點。那麼本博文將主要以cpc**軟體為例，來**通過資訊科技手段來**長非編碼rna。

cpc，全名：coding potential calculator,它是將**問題轉為二分類問題，在轉錄本中將基因分為編碼的和不編碼的。所以我們如何衡量乙個序列片段的編碼能力呢？這就涉及到了特徵的選取。一般是通過一些先驗知識確定一些特徵，然後通過前向、後向或啟發或廣度搜尋，來進一步決定將哪些特徵加入模型中。該工具作者從文獻等資料中選取了60多個特徵，然後通過前向搜尋演算法從中篩選出11個特徵，繼而又用廣度搜尋演算法，最後確定了6個特徵。

在這六個特徵中，有三個是基於orf的特徵，分別為coverage、orf intergrity、log_odd score。

coverage：lor

f−(l

mismatch +2

∗l

frameshift

)total length

\frac - \left( l _ } + 2 * l _ } \right) } }

total length lo

rf−

(lmismatch +

2∗lframeshift )

orf intergrity: 即**的開放閱讀框的完整性，指示了開放閱讀框是否以起始密碼子開始並於該閱讀框內的終止密碼子結束。

log-odd score:表明了**的開放閱讀的質量，分數越高，質量越好。log⁡pr

⁡(d∣

m)pr⁡

(d∣r

)\log \frac ( d \mid m ) } ( d \mid r ) }

logpr(

d∣r)

pr(d

∣m)i=

mean⁡j

s _ = \operatorname _ \left\ e _ \right\}

si=me

anj

eij是在第i個閱讀框中的第j個hsp（high-scoring segment pairs)的e值。首先解釋第i個閱讀框是啥，在博文《一次探索：基於夏農熵**dna中編碼序列，python實現》中，我們就提到了rna的正向讀取方式有三種，所以會產生三個閱讀框（reading frames)。而hsp的e值是隨機情況下，資料庫存在的比當前匹配分數更好的比對的數目。故而e值越低，結果就越可靠。

mean⁡i

∈=∑i

=02s

\underset } } \left\ \right\} = \frac ^ s i }

i∈mean

=3∑

i=02

frame score：對於乙個真正編碼的orf匹配的相似蛋白質序列是有很大可能在乙個閱讀框中的，而乙個非編碼的orf雖然也有可能匹配到某一具體的蛋白序列，但是匹配到的序列片段會分布在三個閱讀框中。故我們可用方差來衡量。variance⁡i

∈=∑i

=02(

si−s

ˉ)22

\underset } } \left\ \right\} = \frac ^ \left( s _ - \bar \right) ^ }

i∈vari

ance

=2∑

i=02

(si

−sˉ

)2以上就是該工具所選用的六個特徵。當然這是07年的工具，在當時是**的一大利器，但是不可忽視它的侷限性。大量lncrna與編碼rna非常相似，因此lncrna翻譯而得的蛋白質序列與資料庫中的蛋白質序列之間，同樣易於出現匹配片段，故cpc非常容易將lncrna判斷為編碼rna，造成敏感度較低。其次，cpc嚴重依賴於序列比對，對待檢測序列與比對資料庫的質量都有著較高的要求。然而目前測序技術得到的序列時常因訊號較弱而出現測序誤差，同時資料庫中大量物種的注釋資訊又十分有限，很難為cpc提供充足的資料進行比對。因此cpc在對這類序列進行**時，其結果不可避免地會產生較大誤差，甚至因程式錯誤而無法進行**。最後，序列的比對過程非常耗時，cpc可能需要數十小時才能完成幾千條序列的**，因此難以將cpc應用於大規模資料計算任務。目前lncrna的研究已經越來越聚焦於冷門物種的研究，而物種的序列往往是通過高通量測序技術得來，序列數量巨大，且鹼基誤差難以避免。

看完有關文獻，我才意識到特徵選取的重要性，之前妄想用資訊熵這乙個特徵來找到編碼蛋白的序列是非常不嚴謹的。故接下來計畫是學習機器學習相關知識結合生物學知識，來進一步解決生物問題。

平地起高樓之漫談長非編碼RNA

平地起高樓之生信一百年

網際網路平地起高樓，借勢要乘早

從零學習PyTorch 6 萬丈高樓平地起

平地起高樓之漫談長非編碼RNA

平地起高樓之生信一百年

網際網路平地起高樓，借勢要乘早

從零學習PyTorch 6 萬丈高樓平地起

相關推薦