四個資料歐幾里得距離 常見的相似性 距離指數

2021-10-17 07:12:29 字數 1888 閱讀 3129

**csdn使用者劉永鑫adam的文章221.beta多樣性pcoa和nmds排序

jaccard:

jaccard相似性指數(jaccard similarity index)將兩個樣方共享的物種數量(a)除以兩個樣方**現的所有物種的總和(a + b + c,其中b和c是僅在第乙個和第二個樣方**現的物種數量)。計算公式如下:

其中,y1j和y2j分別是物件1和2中元素j的數值。若是群落物種資料,那麼y1j和y2j即分別是樣方1和2中物種j的豐度。p是物種數(樣方-物種矩陣中的物種數)

bray-curtis距離(bray-curtis distance):

bray-curtis距離(bray-curtis dissimilarity)其計算公式如下:

歐幾里得距離(euclidean distance):

其中p是物種數(樣方-物種矩陣中的物種數),y1j和y2j表示兩個樣方中對應的物種多度。

但是在物種資料的分析中,歐幾里得距離卻表現不佳。因為它將「雙零」現象視作相同存在的方式處理,會縮小兩個共享很少物種的群落之間的距離。雙零」是指在計算群落相似性(或距離)時,所比較的兩個樣方中缺失某些物種的情況。具體在群落中乙個物種在兩個樣方內同時缺失,並不能成為這兩個樣方具有組成相似的依據,因為引起缺失的原因可能完全不同,其次在物種矩陣內,不可解釋的雙零的數量取決於物種的數量,因此也會隨著檢測到的稀有種數量的增加而顯著增加。

若在群落距離計算過程中使用歐幾里得距離,可以先對原始物種資料進行資料轉化(常見的如弦轉化、hellinger轉化等),然後再使用轉化後的資料計算歐幾里得距離。儘管弦距離、hellinger距離等然是對稱指數的範疇,但是相較於使用原始物種豐度資料所得的歐幾里得距離,弦距離、hellinger距離的優勢體現在存在距離的「上限」,降低了歐幾里得距離對「物種豐度」的敏感性,有效減少了「雙零」問題導致的誤差。但是我們通常選擇使用非對稱的bray-curtis距離等。

bray-curtis距離的取值範圍範圍由0(兩個群落的物種型別和豐度完全一致)到1(兩個群落不共享任何物種),因此它也可以直接通過「1 – 距離指數=相似性指數」轉化為相似性指數(上文提到的「相似百分率」)。bray-curtis距離適用於群落物種資料分析的原因在於它是乙個非對稱指數,可有效忽略雙零。

unifrac距離(unifrac distance):

unifrac距離,它常用於微生物群落的資料中(例如,16s擴增子測序)。bray-curtis距離僅考慮了物種的存在與否及其豐度,沒有考慮物種之間的進化關係,距離0表示兩個群落的物種組成結構完全一致。在unifrac距離中,除了關注考慮了物種的存在與否及其豐度外,還將物種之間的進化關係考慮在內,距離0更側重於表示兩個群落的進化分類完全一致。

在16s擴增子測序中,根據16s序列組成構建otus進化樹,otus之間存在進化上的聯絡,因此不同otus之間的(系統發育)距離實際上有「親遠」之分。將系統發育樹和otus豐度資料共同考慮到距離計算就是unifrac距離。而其它非進化距離,忽略了otus之間的進化關係,認為otus間的關係平等。

unifrac距離分為非加權unifrac距離(unweighted unifrac distance)和加權unifrac距離(weighted unifrac distance)。兩種的主要區別是否考慮了物種的豐度。非加權unifrac距離只考慮了物種有無的變化,不關注物種豐度,若兩個微生物群落間存在的物種種類完全一致,則距離為0;加權unifrac距離同時考慮物種有無和物種豐度的變化,若兩個微生物群落間存在的物種種類及豐度完全一致,則距離為0。

關於unifrac距離的計算方法,詳見

企業最常見的四個資料問題

1.資料不一致 由於企業內資料存在不一致,導致企業大量浪費時間,金錢和人力。花費時間和精力用於判斷企業內乙個客戶的真正位址或者其他基礎資訊到底是什麼,並不能增加企業的收入,恰恰相反,沒有乙個好的儲存機制用來儲存比對過的客戶資料,這種一致性處理資料的過程常常會發生多次。2.資料冗餘 大多數企業沒有專業...

資料的四個特徵

我們總是在談資料分析,那麼到底什麼是資料,資料有什麼特徵呢?這個問題雖基礎卻重要。這裡我們所說的資料,僅指應用於企業運營的市場資訊。它是認識事物的中間環節,是事物的表面特徵,其作用在於消除事物的不確定性。它至少具有以下四個基本特徵。一 時效性 所謂時效性是指資料的發生和運用要有個提前期,失去時效性,...

Windows系統的四個常見後門

後門是攻擊者出入系統的通道,惟其如此它隱蔽而危險。攻擊者利用後門技術如入無人之境,這是使用者的恥辱。針對windows系統的後門是比較多的,對於一般的後門也為大家所熟知。下面筆者揭秘四個可能不為大家所了解但又非常危險的後門。這類後門是攻擊者在控制了主機之後,並不建立新的帳戶而是在主機上安裝嗅探工具竊...