常識的力量 防止錯得太遠

2022-06-10 22:21:19 字數 1331 閱讀 1957

做生物資訊的一定要會利用常識的力量。

普通生物資訊最大的弊端就是太依賴工具、演算法這些東西,大部分的人平時其實都不知道自己用的工具到底是幹嘛的,它能產生什麼結果,更別說評價不同工具的優劣了。(主要也是工具太多了,有些也比較複雜)(建議有空還是看看工具的原理,大致了解就行,這能非常有效的提公升分析的手感)

既然大部分生信工作者都是工具使用者,那我們如何掌控工具產生的結果呢?最有效的就是利用我們已有的常識來反推工具到底在做什麼。

比如我在用rna-seq資料來組裝轉錄本,300個樣品,通過標準的hisat2和stringtie流程我得到所有的轉錄本,這時我計數了一下699638個轉錄本。有點驚喜,這麼多啊。

但是,這個數量合理嗎?俺暫時不知道。

接著就是blast,499764條都能比對到,開啟結果一看很多轉錄本都比到乙個蛋白上了,而且比對位置也一樣,這裡我就知道了699638條轉錄本裡大部分應該就是duplication了。

再接著,除去能比對到多個資料庫的轉錄本,我還剩下10w條,自然就去用cpc等**lncrna,發現大部分都被鑑定為non-coding。這不科學吧,cpc和cpat都是靈敏度、特異性很高的**工具,別人文章最多也就鑑定幾千個,我這隨便就鑑定出來了10w條,嘛呀,是不是可以發nature了。

後來反覆思考,覺得這個數字肯定異常,cpc等工具其實是不靠譜的,它們統計的靈敏度、特異性時使用的資料集就是有問題的,他們用的已經注釋好的mrna和ncrna,那他們就只能侷限於**這兩個了。

但是,但是,我們大部分時候用cpc的時候是直接來跑stringtie等**的transcript,由於是二代資料,我們組裝出來的是轉錄組碎片,stringtie等出來的大部分都是一些沒有意義的exon的隨機組合而已(我同時用了ref和denovo模式),也都被cpc**為non-coding了。

自此,通過一些常識,我發現strintie的結果的特徵,同時也明白了cpc等工具的侷限性。

所以,在生信分析時,多用常識質問自己「我的結果合理嗎?」是很實用的,能防止「重大慘劇」的發生。

生信肯定離不開寫**,我覺得寫**的時候似乎也在利用常識。

寫**比點選gui更靈活高效,也更容易出錯。

我有輕微強迫症,所以在寫任何**的時候會輸出一些關鍵的變數,看是否符合自己的預期。

後來想想,其實這是非常有用的,它能有效杜絕99%的error。

就像建大樓,從底下開始穩穩的往上堆,大樓就會很穩固。

在寫大型指令碼(>1000行)時,再結合模組化思維(函式封裝,類),普通人都可以寫出非常健壯和正確的指令碼。

小結:諸位想讓生信事業一帆風順的話,還是得多思考,多利用一下常識的力量。

一些常識:

how many proteins in the human proteome?

健康常識 防止電腦輻射必知絕招

護膚功課做足,為何肌膚仍然暗黃無光?近來,不少mm向記者反映,由於長時間對著電腦工作,所有的護膚成效都被電腦輻射 秒殺 面對網路上各式各樣的防輻射資訊,又不知如何篩選。今天,我們特地請教了養生專家為ol們支招。打基礎 正確使用電腦是王道 現在大部分的ol每天對著電腦的時間都超過了8個小時,這不僅使她...

資本的力量 趨勢的力量 規律的力量

牛熊的更替,潮起潮落,都是資本在 的興風作浪,進進出出所造成的。這就是資本的力量。任何資本,在 上生存,必然要遵從 的趨勢發展,才能生存下來。這就是趨勢的力量。的趨勢無非是牛市 趨勢 熊市 趨勢和上躥下跳 猴市 又可以分為高位派發箱體 和低位建倉箱體 無論哪一種趨勢,都是資本要遵從的趨勢,首先分析處...

人的力量和大自然的力量

今天晚上在檯燈前看書,突然乙個乙個針尖大小的小蟲子飛到了我的書上,我沒有打死它,觀察了它一會,看著它跟小蒼蠅一樣捋一捋腿,舒展舒展,就在書上爬了會,然後轉瞬飛起消失在我的視野外。本來乙個很小的事情,突然和這些天在考慮的一些事情聯絡起來,感覺還是有必要寫點什麼,可能見識淺薄,還忘笑納。這麼小的飛蟲,如...