利用PLINK進行GWAS分析

2021-08-28 02:41:40 字數 2378 閱讀 6827

plink軟體輸入檔案的常見格式型別:

1,一般格式:ped/map

2,轉置格式:tped/tfam

3,二進位制格式:bed/bim/fam

幾種格式之間可以相互轉換。推薦使用bed/bim/fam這種格式,讀取速度快。bed檔案包含snp資料,是二進位制格式,不能由notepad++等文字編輯器開啟。bim檔案包括snp位置資訊,fam檔案包括家系表型資訊,這兩種檔案都是文字格式。 ped檔案格式:

column1 = familyid

column2 = individualid

column3 = paternalid

column4 = ***

column5 =phenotype (1 = unaffected, 2 = affected, 0 = missing)

column6 + column7 = genotype pair at snp1

column8 + column9 = genotype pair at snp2

…………

例如:

fam1 id1 fid mid 1 1 a t g g

fam1 id2 fid mid 2 1 a t c g

map檔案格式:

column1 = chromosome

column2 = snpidentifier

column3 = genetic distance in morgans(0, if missing)

column4 = physical base-pair position in bp units

# column3 and column4 are not required for basic association testing.

map檔案中染色體編號是根據人類染色體設計的:

1-22:常染色體

23:x染色體

24: y染色體

25:xy染色體擬常染色體區

26:線粒體

plink1.07中--sheep,--cow,--horse,--mouse,--dog,可以根據這幾種的動物基因組設定染色體編號。

讀取綿羊snp資料可以用plink --file test --sheep

plink1.09中--chr-set 26,設定1-26號染色體為常染色體,27號為x染色體,28號為y染色體。

輸入檔案格式彼此轉換的方法:

1、ped/map 轉換為tped/tfam格式

plink --ped test.ped --map test.map  --recode --transpose --out test1

或者plink --file test --recode --transpose --out test1

#生成test1.tped和test1.tfam檔案

2、tped/tfam轉化為ped/map檔案

plink --tped test1.tped --tfam test1.tfam  --recode --out test2

或者plink --tfile test1 --recode --out test2

#生成test2.ped和test2.map檔案

3、生成二進位制格式輸入檔案

#ped/map轉為二進位制格式

plink --file test --make-bed --out test3

#tfam/tped轉為二進位制格式

plink --tfile test1 --make-bed --out test3

#生成test3.bed,test3.bim和test3.fam檔案

4、二進位制格式轉為ped/map或tped/tfam

#用bfile來讀取test3.bed,test3.bim和test3.fam檔案

plink --bfile test3 --recode --transpose --out test4

#生成test4.tped和test4.tfam

plink --bfile test3 --recode --out test5

#生成test5.ped和test5.fam

其他格式轉換命令:

--recodead,snp編碼成加性顯性模式,以0、1、2編碼snp,na為缺失值;

--recode12,snp編碼為數字1或2,缺失值為0.

**:參考:

plink做SNP篩選和GWAS

1.vcf轉ped map plink vcf spirits.recode.vcf recode out test2.統計每個snp的maf,並將maf 0.05 miss 0.2的snp篩選出來並過濾掉。plink file 513lines 4429snps 110506 freq out t...

利用cca進行fmri分析

在肖柯的碩士畢業 中 基於cca的fmri時空模型資料處理方法的研究 他的總體思路是利用cca提取出fmri影象在時間和空間上兩個相關係數,也就是兩個特徵,然後利用pca,對這兩個特徵進行融合,得的乙個綜合的相關係數,然後利用這個綜合的相關係數進行選取閾值,然後判別啟用與否。首先,他沒有降噪。其次,...

利用sparksql進行報表分析

package report import config.confighelper import org.apache.spark.rdd.rdd import org.apache.spark.sql.import utils.makeatpkpi 利用sparksql進行報表分析 object ...