fastq fasta 序列數快速統計

2021-08-21 19:08:19 字數 559 閱讀 3350

統計大於號開始的行數或seqkit 工具

# 通過搜尋》的數量

grep -c '^>' myfasta.fasta

#seqkit統計提取,速度也是很快的

seqkit stats t.fa -t | grep -v file | cut -f 4

# 統計 1-100bp 範圍長的序列數

cat t.fa | seqkit seq -m

1 -m 100 | seqkit stat -t | grep -v file | cut -f 4

壓縮格式解壓,統計行數除以4

# 通常以fastq.gz格式壓縮

zcat input.fastq.gz | awk 'nr%4==2 end'

# 推薦下面的方法 pigz 會比gzip快10倍

pigz -dc input.fastq.gz | awk 'nr%4==2 end'

# 如果不是壓縮格式

cat input.fastq | awk 'nr%4==2 end'

序列資料探勘

於http www.chinabi.net blog user1 105 1636.html 一 時間序列資料探勘 時間序列是資料存在的特殊形式,序列的過去值會影響到將來值,這種影響的大小以及影響的方式可由時間序列中的趨勢週期及非平穩等行為來刻畫。一般來講,時 間序列資料都具有躁聲 不穩定 隨機性等...

Python 序列陣列

list 可變陣列 list 為可變陣列,在執行新增元素操作時,會根據當前陣列長度額外開闢空間 無需每次新增元素都開闢空間 雖然方便修改,但占用記憶體。2.tuple 被視為不可變列表,但其實它是資料的記錄。tuple 一旦建立則無法更改其中的元素,但是可以修改元組元素中的元素 巢狀元素 list ...

時間序列資料

出生 gdp溫度 時間要素 年 季度 月 周 日 數值要素 長期變動趨勢 相當長的一段時間,受長期趨勢影響 持續上公升 下降 不規則變動 隨機擾動項 含白噪音 迴圈變動 市場經濟的商業週期 或者整個國家的經濟週期 1 資料具有週期性才能使用時間序列分解,例如資料是月份資料,季度資料,如果是年份資料則...