機器學習基礎 math(17) 各種距離

2021-08-20 22:03:03 字數 1895 閱讀 6438

任意滿足測度的 4 個條件的函式都可以被定義為距離。

non-negativity or separation axiom(非負性或分離公理)

identity of indiscernibles (不可分辨的同一性)

symmetry(對稱性)

subadditivity or ******** inequality(次可加性或三角不等式)

參考資料:(wiki)

在通訊中累計定長二進位製字中發生翻轉的錯誤資料位,所以它也被稱為訊號距離。

它表示兩個(相同長度)字對應位不同的數量,我們以d(x,y)表示兩個字x,y之間的漢明距離。對兩個字串進行異或運算,並統計結果為1的個數,那麼這個數就是漢明距離。

漢明距離更多的用於訊號處理,表明乙個訊號變成另乙個訊號需要的最小操作(替換位),實際中就是比較兩個位元串有多少個位不一樣,簡潔的操作時就是兩個位元串進行異或之後包含1的個數。

漢明距在影象處理領域也有這廣泛的應用,是比較二進位制影象非常有效的手段。其在包括資訊理論、編碼理論、密碼學等領域都有應用。

1011101 與 1001001 之間的漢明距離是 2。

2143896 與 2233796 之間的漢明距離是 3。

「」toned」」 與 「」roses」」 之間的漢明距離是 3。

計算乙個數字的位元位包含1的個數有個小技巧:value &= value - 1這個運算的結果就是把value最後乙個1去掉,迴圈進行運算直到value等於0(所有的1都被去掉)就可以知道vaule擁有多少個1了。

指字串相對於同樣長度的零字串的漢明距離,也就是說,它是字串中非零的元素個數。

對於二進位制字串來說,就是 1 的個數,所以 11101 的漢明重量是 4。

又稱levenshtein距離,是一種距離度量方式。

重點內容指兩個字串之間,由乙個轉成另乙個所需的最少編輯操作次數。許可的編輯操作包括將乙個字元替換成另乙個字元,插入乙個字元,刪除乙個字元。一般來說,編輯距離越小,兩個串的相似度越大。

euclidean,歐幾里得,歐式

歐氏空間比較常見的定義是 直角座標系和解析幾何。

這些數學空間可以被擴充套件來應用於任何有限維度,而這種空間叫做 n 維歐幾里得空間(甚至簡稱  n維空間)或有限維實內積空間。

歐式空間的定義:設v是實數域r上的線性空間(或稱為向量空間),若v上定義著正定對稱雙線性型g(g稱為內積),則v稱為(對於g的)內積空間或歐幾里德空間(有時僅當v是有限維時,才稱為歐幾里德空間)。[3] 具體來說,g是v上的二元實值函式,滿足如下關係:

(1)g(x,y)=g(y,x);

(2)g(x+y,z)=g(x,z)+g(y,z);

(3)g(kx,y)=kg(x,y);

(4)g(x,x)>=0,而且g(x,x)=0當且僅當x=0時成立。

這裡x,y,z是v中任意向量,k是任意實數。積分值。

例子:

1. (經典歐幾里德空間e^n)在n維實向量空間r^n中定義內積(x,y)=x_1y_1+…+x_ny_n,則r^n為歐幾里德空間。(事實上,任意乙個n維歐幾里德空間v等距同構於e^n。)

2. 設v是[0,1]區間上連續實函式全體,則v是r上線性空間,對於如下內積是歐幾里德空間:(f,g)定義為fg在[0,1]區間上的

x是n維向量(x1,x2,…,xn),

||x||=根號(|x1|方+|x2|方+…+|xn|方)

補充:開平方,跟幾何一樣

也稱歐幾里得距離,它是乙個通常採用的距離定義,它是在m維空間中兩個點之間的真實距離。

在二維和三維空間中的歐氏距離的就是兩點之間的距離,即內積。

二維的公式:d = sqrt((x1-x2)^2+(y1-y2)^2)

三維的公式:d=sqrt((x1-x2)^2+(y1-y2)^2+(z1-z2)^2)

機器學習基礎 math(16) 各種乘積

按元素乘法有時候被稱為hadamard 乘積,或者schur 乘積 訊號與系統等學科中的 卷積操作的本質,神經網路中的卷積就是乘累加 訊號處理中的卷積就是加權疊加。具體點,平移 無反褶 疊加。可以看到卷積的重要的物理意義是 乙個函式 如 單位響應 在另乙個函式 如 輸入訊號 上的加權疊加。樓主這種做...

機器學習基礎 各種學習方式(17) 度量學習

距離的度量對眾多機器學習方法的效能都起到了決定性作用 例如在分類方法中,k近鄰分類器 使用了高斯核的核方法 在聚類方法中,k均值聚類 譜聚類方法都與距離度量密切相關。卡內基梅隆大學機器學習系的邢波教授於2003年提出了距離度量學習。乙個好的距離度量能夠根據資料的結構與分布適用於不同的應用。一般的距離...

機器學習基礎 math(5) 矩陣

主成分分析 pca 的時候,會需要矩陣的跡。對上面的線性方程組,第乙個方程和第二個方程有不同的解,而第2個方程和第3個方程的解完全相同。從這個意義上說,第3個方程是 多餘 的,因為它沒有帶來任何的資訊量,把它去掉,所得的方程組與原來的方程組同解。為了從方程組中去掉多餘的方程,自然就匯出了 矩陣的秩 ...