代謝組學 3 資料分析

2022-06-17 10:00:41 字數 3732 閱讀 9921

1.代謝物提取,一般要求每組至少10個樣;

2.在所有提取好的樣本中取等量混合作為qc;

3.qc樣本與實驗樣本穿插上機,開始十個qc,結尾三個qc,中間每十個樣本穿插乙個qc樣本

。得到質譜譜圖資料經軟體處理後得到峰表。

峰**式一般為:每行為乙個m/z,每列為乙個樣本

數值表示該樣本中某個m/z的訊號響應。

第一列為保留時間_質荷比來代表離子,如0.10_96.9574m/z

一般有如下幾點:

1.資料預處理。如缺失值過濾填充、資料歸一化等。

2.資料質控。包括cv分布、qc等。

3.統計分析。包括單變數、多變數等。

4.功能分析。包括pathway、網路分析、biomarker篩選等。

1.資料預處理

缺失值處理

1)缺失原因

a. 訊號很低檢測不到;

b. 檢測錯誤,如離子抑制或者儀器效能不穩定;

c. 提峰的演算法限制,不能從背景中將低的訊號提取出來;

d. 解卷積時不能將重疊的峰全部解析出來。

2)缺失值過濾

比如:qc樣本中缺失超過50%的去除;

樣本中缺失值超過80%的去除。

3)缺失值填充

-- 最小值填充

-- 平均值/中值填充

-- knn( k-nearest neighbour)填充

-- bpca(bayesian pca)填充

-- ppca(probabilistic pca)填充

-- singular value decomposition (svd)

一般推薦knn。

噪音頻號去除

一般是低質量的離子。

1)低質量離子的確定:

計算某個離子在qc樣本中的rsd(標準差/均值);其值越小,說明偏差越小;

2)判斷標準:

-- 對單個離子峰而言,rsd<0.3,則該離子峰合格,否則去除;

-- 對於整體資料而言,rsd<0.3,峰所佔比例》60%,則整體資料合格;

樣本歸一化

目的是為了提高樣本間的可比性。

樣本間有差異性,如不同人的尿液濃度不同,不能直接拿來比較。

可在採集前歸一化,如肌酸酐歸一化;也可在採集後歸一化,如sum,pqn,quantile等。對於資料分析而言,通常是後者,如總和歸一化(sum)。

資料轉換

下游的分析一般要求資料為正態分佈或者高斯分布;

所以資料通常要進行log轉化或power轉化,這兩者都能夠將極大值的抑制效應消除,並且能夠調整資料的分布,如下圖;

log轉化對0值比較敏感,必須首先去除零值。

資料轉換——scaling

目的是消除極大值效應。

對不同樣本中同乙個m/z的強度差異過大進行調整,極大值的存在往往會掩蓋較低值的變化特徵。

可將某個m/z在所有樣本中的強度的值,除以乙個因子(sd值);

方法如auto (uv),pareto(推薦),vast, range等。

相當於上面樣本歸一化是為了樣本可比,scaling是為了離子可比。

qc樣本的tic重疊情況

上圖分別是陰離子和陽離子模式下qc樣本的tic重疊情況。

一般認為:

所有的qc樣本峰重疊良好;

峰強度波動差別不大;

qc樣本中cv<30%的峰所佔比例

pca中qc樣本的聚集程度

qc樣本的相關性

上圖分別為歸一化前和歸一化後的資料。

單變數分析

一次只分析乙個變數,即乙個m/z,考察不同組別不同樣本的這個m/z表達有無差異?

常見的方法有倍數分析,t檢驗,秩和檢驗,方差分析等。

聚類分析

核心思想就是根據具體的指標(變數)對所研究的樣品進行分類;

聚類分析需要設定乙個方法來衡量樣本間的相似性或者不相似性(常用歐式距離,相關性係數等);

常見聚類的方法:系統聚類(層次聚類)、k-均值聚類等。

k-均值首先要估計出將要分出幾個類,然後將全部的基因按照相似性的距離,歸入這幾類中。

k– means計算量要小得多,效率比層次聚類要高。

無論哪種分類方法,最終要分成多少類,並不是完全由方法本身來決定,研究者應結合具體問題而定。

聚類分析是一種探索性的資料分析方法。相同的資料採用不同的分類方法,也會的得到不同的分類結果。分類的結果沒有對錯之分,只是分類標準不同。

使用聚類方法時,首先要明確分類的目的,再考慮選擇哪些變數(或資料)參與分類,最後才需要考慮方法的選擇。

多變數分析

1)pca分析

以下分別是得分圖(樣本在新的座標系中的位置

)和載荷圖(loading圖,原變數與主成分間的夾角)

pca怎麼看?

2)偏最小二乘法

plsda的圖和pca類似。只是一種監督學習的方法,事先給樣本分類,最後看能否將不同組分開。

用r2和q2進行模型評價。

r2是相關性係數,表示這個模型的擬合效果,是乙個定量的測量(範圍0-1),意味著所建立的模型能在多大程度上代表真實的資料;

一般當r2在0.7-0.8表示模型解釋能力較好,較差的模型的r2往往為0.2-0.3

q2表示pls-da模型的**能力

一般q2大於0.5表示**能力較好,並且r2與q2的值應該比較接近。

使用permutation test模型進行過擬合檢驗。

vip ( variable importance in projection)變數重要性投影

每乙個m/z都有vip值,表示這個m/z在某乙個主成分上的投影,即重要程度

一般我們使用第

一、第二主成分的vip來表示這個m/z對模型分型的貢獻程度,vip>=1被認為是具有顯著貢獻的

代謝組學資料分析最後兩部分內容——功能分析和生物標誌物篩選見下節內容

代謝組學 1 代謝組學簡介

目錄代謝物 所有分子量小於1500da的小分子物質,包括醣類 核苷 有機酸 酮類化合物 多肽 氨基酸 有機胺類 醛類化合物 脂質 萜類 類固醇 生物鹼 小分子藥物等等。代謝組 乙個細胞 組織 器官中所有代謝物的集合。代謝組學 利用高通量的技術來鑑定和定量乙個細胞 組織或器官中所有小分子或代謝物的生命...

代謝組學實驗 質控與分析

目錄2.資料分析挖掘 1 專案流程 代謝組學分析的特點 專案流程 樣本製備 質譜儀分析 資料預處理 定量及統計分析 定性分析 生信及後續分析 2 非靶代謝質控 質譜儀訊號波動使非靶代謝訊號隨時間漂移。原因 訊號隨時間漂移或中途裝置維護會嚴重影響多元統計分析效果,如pca中樣品分布不均勻,存在異常值。...

LncRNA與代謝組聯合分析

簡介 長非編碼rna long non coding rna,lncrna 是一類長度大於200個核苷酸但不具備編碼蛋白質能力的分子。普遍存在於人類和各種真核生物中,lncrna具有廣泛轉錄 種類眾多 功能多樣等特點,是多種生物學過程的必需調節劑,並通過多種機制起作用。代謝組是生物體在內外調控下基因...