5 基因組索引檔案建立 STAR

2022-09-23 03:30:14 字數 1220 閱讀 8112

1.指令碼

1

#!/bin/bash2#

使用star軟體建立人類hg38基因組索引

34 fa_dir="

/home/shenqingsong/project/rna-seq/reference/hg38/hg38.fa

"5 gtf_dir="

/home/shenqingsong/project/rna-seq/reference/hg38/homo_sapiens.grch38.105.chr.gtf

"6 mkdir -p "

/home/shenqingsong/project/rna-seq/reference/index/star/hg38"7

8 star --runmode genomegenerate \

9 --runthreadn 4\

10 --genomedir "

/home/shenqingsong/project/rna-seq/reference/index/star/hg38"\

11 --genomefastafiles $fa_dir

\12 --sjdbgtffile $gtf_dir

\13 --sjdbgtfchrprefix "

chr"

\14 --sjdboverhang 149

2.引數說明1 --runmode:  執行程式模式,預設是比對,所以第一步這個引數設定很關鍵

2 --runthreadn:  執行的執行緒數,根據你自己電腦的配置來設定,數字越大執行越快

3 --genomedir:  這個引數很重要,是存放你生成index的檔案路徑,需要你事先建立乙個有可讀寫許可權的資料夾

4 --genomefastafiles   基因組fasta格式檔案路徑

5 --sjdbgtffile   gtf注釋檔案路徑

6 --sjdboverhang   這個值為你測序read的長度減1,是在注釋可變剪下序列的時候使用的最大長度值

7 --sjdbgtfchrprefix -

3.注意事項

基因組資料注釋常用的檔案 Bed檔案和GFF檔案

原文 genomic features通常使用browser extensible data bed 或者 general feature format gff 檔案表示,用ucsc genome browser進行視覺化比較。bed檔案和gff檔案最基本的資訊就是染色體或contig的id或編號,...

實現索引檔案建立和查詢演算法

實驗題目 實現索引檔案建立和查詢演算法 實驗目的 掌握索引檔案的基本操作及其演算法設計 實驗內容 編寫程式,建立表12.1中學生成績記錄對應的主檔案data.dat,要求完成以下功能 1 輸出主檔案中的學生記錄 2 建立與主檔案相對應的索引檔案,其中每個記錄由兩個字段組成 學號no及該學生記錄在資料...

實現索引檔案建立和查詢演算法

實驗題目 實現索引檔案建立和查詢演算法 實驗內容 編寫程式,實現檔案訪問。設有兩個檔案 資料主檔案data.dat和 索引檔案index.dat。資料主檔案由記錄學生基本情況的若干條記錄組 成。索引檔案的每個記錄由兩個字段組成 學號及學生基本情況記錄 在資料檔案中的相應位置,索引檔案中的記錄按學號公...