scRNAseq benchmark 學習筆記

把早年沒填完的坑（單細胞測序的細胞型別鑑別）給重新拾起來

參考**

前置知識

單個資料集中各個方法的評估

測試場景：對於監督式：用已知細胞群體分類的資料集（要求資料集有已分類的資料集）來訓練，再對資料集進行分類；對於先驗知識型別：具備mark基因或者預訓練的前提。

圖注：de下標是依賴於mark基因（此處是差異基因）的先驗知識方法

小結：

資料集間單個方法的評估

測試場景：總體是用乙個資料集訓練用另乙個資料集來評估，先測試只有測序方式差別的兩個資料集；其次測試pbmc1和2共42種組合（pbmc1有7種測序方式，pbmc2有6種），乙個用於訓練乙個用於分類；還有兩個資料集採用同一測序方式的資料集的評估。

跨越物種、單細胞測序與單神經元測序、不同注釋深度資料集

測試場景：只對於監督式，列標籤用於訓練，灰色塊用於分類，在乙個資料集訓練在灰色塊進行分類

用mnn法合併三個資料集用於訓練，另一資料集用於分類

測試場景：合併或者不合併

拒絕選項評估

前置知識

基因輸入特點的評估

圖注參考原文

總結值得注意的點：

資料處理：

安裝r3.6和python3.7，版本參考文章當時的最新版本，並安裝對應r包和python模組

$ rscripts cross_validation.r "cel-seq/cl_pbmc1labels.csv" 1 "cel-seq"
$ python
>>> from run_svmrejection import run_svm
>>> run_svm("cel-seq/cl_pbmc1.csv","cel-seq/cl_pbmc1labels.csv","cel-seq/cv_folds.rdata","results/cel-seq/pbmc1")
$ r> result 
> capture.output(result, file = "results/cel-seq/pbmc1/svm_evaluation.result")" # 儲存list的方法

結果包含 the corresponding accuracy, median f1-score, f1-scores for all cell populations, % unlabeled cells, and confusion matrix. 混淆矩陣是衡量細胞群體相似性的

unzip: cannot find zipfile directory in one of... 是壓縮檔案大小超過2gb，不能使用預設的unzip，用7z

scrnaseq_benchmark github

原文原文資料

r中儲存list物件的方法

unzip解壓失敗（ cannot find zipfile directory）

scRNAseq benchmark 學習筆記

C Primer Chapter One學習筆記

BroadcastReceiver學習筆記

CDISC SDTM SE domain 學習筆記

scRNAseq benchmark 學習筆記

C Primer Chapter One學習筆記

BroadcastReceiver學習筆記

CDISC SDTM SE domain 學習筆記

相關推薦