scRNAseq benchmark 學習筆記

2022-02-09 10:19:06 字數 1692 閱讀 6980

把早年沒填完的坑(單細胞測序的細胞型別鑑別)給重新拾起來

參考**

前置知識

單個資料集中各個方法的評估

測試場景:對於監督式:用已知細胞群體分類的資料集(要求資料集有已分類的資料集)來訓練,再對資料集進行分類;對於先驗知識型別:具備mark基因或者預訓練的前提。

圖注:de下標是依賴於mark基因(此處是差異基因)的先驗知識方法

小結:

資料集間單個方法的評估

測試場景:總體是用乙個資料集訓練用另乙個資料集來評估,先測試只有測序方式差別的兩個資料集;其次測試pbmc1和2共42種組合(pbmc1有7種測序方式,pbmc2有6種),乙個用於訓練乙個用於分類;還有兩個資料集採用同一測序方式的資料集的評估。

跨越物種、單細胞測序與單神經元測序、不同注釋深度資料集

測試場景:只對於監督式,列標籤用於訓練,灰色塊用於分類,在乙個資料集訓練在灰色塊進行分類

用mnn法合併三個資料集用於訓練,另一資料集用於分類

測試場景:合併或者不合併

拒絕選項評估

前置知識

基因輸入特點的評估

圖注參考原文

總結值得注意的點:

資料處理:

安裝r3.6和python3.7,版本參考文章當時的最新版本,並安裝對應r包和python模組

$ rscripts cross_validation.r "cel-seq/cl_pbmc1labels.csv" 1 "cel-seq"

$ python

>>> from run_svmrejection import run_svm

>>> run_svm("cel-seq/cl_pbmc1.csv","cel-seq/cl_pbmc1labels.csv","cel-seq/cv_folds.rdata","results/cel-seq/pbmc1")

$ r> result

> capture.output(result, file = "results/cel-seq/pbmc1/svm_evaluation.result")" # 儲存list的方法

結果包含 the corresponding accuracy, median f1-score, f1-scores for all cell populations, % unlabeled cells, and confusion matrix. 混淆矩陣是衡量細胞群體相似性的

unzip: cannot find zipfile directory in one of... 是壓縮檔案大小超過2gb,不能使用預設的unzip,用7z

scrnaseq_benchmark github

原文原文資料

r中儲存list物件的方法

unzip解壓失敗( cannot find zipfile directory)

C Primer Chapter One學習筆記

筆記 1.流 從io裝置上讀入或寫出的字串行,用來說明字元隨時間順序生成或消耗。2.輸入輸出符可連用原因 operator 或operator 返回stream物件。3.要測試程式那個語句出錯,使用cout 4.新建乙個內建型別,如int i 0 最好先初始化,不然用到的時候沒初始化會產生奇怪的錯誤...

BroadcastReceiver學習筆記

需要注意 的是,不要在 onreceive 方法中新增過多的邏輯或者進行任何的耗時操作,因為在廣播接收 器中是不允許開啟執行緒的,當 onreceive 方法執行了較長時間而沒有結束時,程式就會報錯。有序broadcast,sendorderedbroadcast intent,null abort...

CDISC SDTM SE domain 學習筆記

整理翻譯自 sdtm ig 3.2 www.cdisc.org sdtm se subject elements 鞏固每個subject的epochs和elements的起止時間點.se對於有多個 時期的試驗有著重要的用處 如crossover試驗 se包含乙個subject從乙個element進入...