資料探勘學習筆記 余弦相似性

2021-10-23 03:47:32 字數 798 閱讀 5496

余弦相似性(余弦相似度):通過計算兩個向量的夾角余弦值來評估他們的相似性。

令x,y是兩個待比較的向量,使用余弦度量作為相似性函式:

其中,0度角的余弦值是1,而其他任何角度的余弦值都不大於1;並且其最小值是-1。從而兩個向量之間的角度的余弦值確定兩個向量是否大致指向相同的方向。兩個向量有相同的指向時,余弦相似度的值為1;兩個向量夾角為90°時,余弦相似度的值為0;兩個向量指向完全相反的方向時,余弦相似度的值為-1。這結果是與向量的長度無關的,僅僅與向量的指向方向相關。余弦相似度通常用於正空間,因此給出的值為-1到1之間。

這上下界對任何維度的向量空間中都適用,而且余弦相似性最常用於高維正空間。例如在資訊檢索中,每個詞項被賦予不同的維度,而乙個維度由乙個向量表示,其各個維度上的值對應於該詞項在文件**現的頻率。余弦相似度因此可以給出兩篇文件在其主題方面的相似度。

另外,它通常用於文字挖掘中的檔案比較。此外,在資料探勘領域中,會用到它來度量集群內部的凝聚力。

物件 x 的第 i 個屬性只有兩種可能,有/無,對應的取值是1/0。所以,x·y 的計算結果是 x 和 y 所共有的屬性個數

舉例:x=(0,1,1,0),y=(1,0,1,0),則x·y=0*1+1*0+1*1+0*0=1,即 x 和 y 共有的屬性個數為 1 ,與觀察結果一致

分母表示:x 中有的屬性個數 + y 中有的屬性個數 - x 和 y 共有的屬性個數,即在 x 或 y 中存在的屬性個數

余弦相似性 找出相似文章

為了找出相似的文章,需要用到 余弦相似性 cosine similiarity 下面,我舉乙個例子來說明,什麼是 余弦相似性 為了簡單起見,我們先從句子著手。句子a 我喜歡看電視,不喜歡看電影。句子b 我不喜歡看電視,也不喜歡看電影。請問怎樣才能計算上面兩句話的相似程度?基本思路是 如果這兩句話的用...

TF IDF與余弦相似性

詞頻 term frequency,縮寫為tf 停用詞 表示對找到結果毫無幫助 必須過濾掉的詞,如 的 是 在 這一類最常用的詞 詞頻詞頻 tf 某個詞在文章中出現的次數 考慮到文章有長短之分,所以要對詞頻引數進行歸一化處理,下面是兩種歸一化的方法 1 詞頻 tf 某個詞在 文章中出 現的次數 文章...

基於Python計算余弦相似性

在我們計算相似度時,常常用到余弦夾角來判斷兩個向量或者矩陣之間的相似度,cosine 余弦相似度 取值範圍 1,1 當兩個向量的方向重合時夾角余弦取最大值1,當兩個向量的方向完全相反夾角余弦取最小值 1,兩個方向正交時夾角余弦取值為0。x 1x 1 x1 和 x 2x 2 x2 分別是輸入的兩個向量...