使用LUMPY檢測結構變異

2021-09-20 00:15:55 字數 1881 閱讀 5265

lumpy是一款基於概率框架檢測結構變異(structure variants)的軟體, 它根據read-pair, split-read, read-depth和其他先驗知識尋找基因組上可能的結構變異。

lumpy基於paired-end reads比對後得到的三類資訊推斷sv,區域性異常的測序深度,不一致(discordant)的聯配和斷裂的聯配(split-read alignment)。區域性異常的測序深度比較容易理解,平均30x測序的地方,如果深度大於100x,意味著存在著拷貝數變異,如果深度程度非常低,可能意味著這裡存在大片段缺失。不一致的聯配和斷裂的聯配能夠提供的資訊更多,如果基因組乙個區域齊刷刷的截斷(如下圖),就意味著這個區域可能存在插入/缺失。當然也有其他可能,當兩個read在不同鏈或者不同染色體時,可能是易位或倒置。

read截斷

因此,執行lumpy需要預先整理出不一致的短讀以及斷裂的聯配, 如下是lumpy提供的資料預處理方式

# align the data

bwa mem -r "@rg\tid:id\tsm:sample\tlb:lib" human_g1k_v37.fasta sample.1.fq sample.2.fq \

| samblaster --excludedups --addmatetags --maxsplitcount 2 --minnonoverlap 20 \

| samtools view -s -b - \

> sample.bam

# extract the discordant paired-end alignments.

samtools view -b -f 1294 sample.bam > sample.discordants.unsorted.bam

# extract the split-read alignments

samtools view -h sample.bam \

| scripts/extractsplitreads_bwamem -i stdin \

| samtools view -sb - \

> sample.splitters.unsorted.bam

# sort both alignments

samtools sort sample.discordants.unsorted.bam sample.discordants

samtools sort sample.splitters.unsorted.bam sample.splitters

讓人感興趣的是-f 1294用來提取不一致的聯配,用samtools flags 1294可以發現1294表示"proper_pair,unmap,munmap,secondary,dup",帶上-f意味著以上這些標記在我們篩選的聯配記錄中都不會出現,也就意味著篩選的記錄要符合下面要求

於是,經過上一步,那就得到了包含所有資料的sample.bam,不一致的聯配sample.discordants.bam 和斷裂聯配sample.splitters.bam, 使用作者封裝好的呼叫函式進行結構變異檢測。

lumpyexpress \

-b sample.bam \

-s sample.splitters.bam \

-d sample.discordants.bam \

-o sample.vcf

在得到的結構變異基礎上,作者推薦是用svtyper進行基因型確定。

gatk過濾 GATK使用方法詳解(變異檢測)

3.怎麼解釋variation id variant的id。比如在dbsnp中有該snp的id,則會在此行給出 若沒有,則用 表示其為乙個novel variant。ref 和 alt 參考序列的鹼基 和 variant的鹼基。qual phred格式 phred scaled 的質量值,表 示在該...

結構體的變異方法

在swift中,結構體型別或列舉型別等值型別有時需要通過例項方法來修改屬性的值,但預設情況下是不能通過例項化物件通過該方法修改屬性的值,這時只需要在該方法前加上mutating關鍵字即可,這種方法就成為變異方法。struct mypoint func show var p mypoint p.set...

DRAGEN 硬體和軟體共同加速的變異檢測工具

這是一篇工具介紹貼,考慮這個工具是要錢的,那些動不動就說別人忘了初心的使用者肯定認為我寫的是軟文,所以這些人就不要繼續往下看了。變異檢測的軟體目前雖然有很多,samtools bcftools,gatk,freebayes等,但是我看到的大部分文章都是用gatk ug hc。gatk的速度是有目共睹...