TF IDF與余弦相似性的應用

為了找出相似的文章，需要用到"余弦相似性"（cosine similiarity）。下面，我舉乙個例子來說明，什麼是"余弦相似性"。

為了簡單起見，我們先從句子著手。

句子a：我喜歡看電視，不喜歡看電影。

句子b：我不喜歡看電視，也不喜歡看電影。

請問怎樣才能計算上面兩句話的相似程度？

基本思路是：如果這兩句話的用詞越相似，它們的內容就應該越相似。因此，可以從詞頻入手，計算它們的相似程度。

第一步，分詞。

句子a：我/喜歡/看/電視，不/喜歡/看/電影。

句子b：我/不/喜歡/看/電視，也/不/喜歡/看/電影。

第二步，列出所有的詞。

我，喜歡，看，電視，電影，不，也。

第三步，計算詞頻。

句子a：我 1，喜歡 2，看 2，電視 1，電影 1，不 1，也 0。

句子b：我 1，喜歡 2，看 2，電視 1，電影 1，不 2，也 1。

第四步，寫出詞頻向量。

句子a：[1, 2, 2, 1, 1, 1, 0]

句子b：[1, 2, 2, 1, 1, 2, 1]

到這裡，問題就變成了如何計算這兩個向量的相似程度。

我們可以把它們想象成空間中的兩條線段，都是從原點（[0, 0, …]）出發，指向不同的方向。兩條線段之間形成乙個夾角，如果夾角為0度，意味著方向相同、線段重合；如果夾角為90度，意味著形成直角，方向完全不相似；如果夾角為180度，意味著方向正好相反。因此，我們可以通過夾角的大小，來判斷向量的相似程度。夾角越小，就代表越相似。

以二維空間為例，上圖的a和b是兩個向量，我們要計算它們的夾角θ。餘弦定理告訴我們，可以用下面的公式求得：

假定a向量是[x1, y1]，b向量是[x2, y2]，那麼可以將餘弦定理改寫成下面的形式：

數學家已經證明，余弦的這種計算方法對n維向量也成立。假定a和b是兩個n維向量，a是 [a1, a2, …, an] ，b是 [b1, b2, …, bn] ，則a與b的夾角θ的余弦等於：

使用這個公式，我們就可以得到，句子a與句子b的夾角的余弦。

余弦值越接近1，就表明夾角越接近0度，也就是兩個向量越相似，這就叫"余弦相似性"。所以，上面的句子a和句子b是很相似的，事實上它們的夾角大約為20.3度。

（3）生成兩篇文章各自的詞頻向量；

（4）計算兩個向量的余弦相似度，值越大就表示越相似。

"余弦相似度"是一種非常有用的演算法，只要是計算兩個向量的相似程度，都可以採用它。

你好！這是你第一次使用markdown編輯器所展示的歡迎頁。如果你想學習如何使用markdown編輯器, 可以仔細閱讀這篇文章，了解一下markdown的基本語法知識。

全新的介面設計，將會帶來全新的寫作體驗；

在創作中心設定你喜愛的**高亮樣式，markdown將**片顯示選擇的高亮樣式進行展示；

全新的katex數學公式語法；

增加了支援甘特圖的mermaid語法1

功能；增加了焦點寫作模式、預覽模式、簡潔寫作模式、左右區域同步滾輪設定等功能，功能按鈕位於編輯區域與預覽區域中間；

增加了檢查列表功能。

撤銷：ctrl/command + z

重做：ctrl/command + y

加粗：ctrl/command + b

斜體：ctrl/command + i

無序列表：ctrl/command + shift + u

有序列表：ctrl/command + shift + o

檢查列表：ctrl/command + shift + c

插入**：ctrl/command + shift + k

插入：ctrl/command + shift + g

直接輸入1次#，並按下space後，將生成1級標題。

輸入2次#，並按下space後，將生成2級標題。

以此類推，我們支援6級標題。有助於使用toc語法後生成乙個完美的目錄。

強調文字

加粗文字加粗文字

標記文字

刪除文字

引用文字

h2o is是液體。

210 運算結果是 1024.

帶尺寸的:

居中的:

居中並且帶尺寸的:

當然，我們為了讓使用者更加便捷，我們增加了拖拽功能。

去部落格設定頁面，選擇一款你喜歡的**片高亮樣式，下面展示同樣高亮的**片.

// an highlighted block
var foo =
'bar'
;

專案1專案2

專案3乙個簡單的**是這麼建立的：

專案value

電腦$1600

手機$12

導管$1

使用:---------:居中

使用:----------居左

使用----------:居右

第一列第二列

第三列第一列文字居中

第二列文字居右

第三列文字居左

smartypants將ascii標點字元轉換為「智慧型」印刷標點html實體。例如：

type

ascii

html

single backticks

'isn't this fun?'『isn』t this fun?』

quotes

"isn't this fun?"「isn』t this fun?」

dashes

-- is en-dash, --- is em-dash– is en-dash, — is em-dash

markdown

text-to-

html conversion tool

authors

john

luke

乙個具有註腳的文字。2

markdown將文字轉換為 html。

您可以使用渲染latex數學表示式 katex:

gamma公式展示 γ(n

)=(n

−1)!

∀n∈n

\gamma(n) = (n-1)!\quad\forall n\in\mathbb n

γ(n)=(

n−1)

!∀n∈

n 是通過尤拉積分

γ (z

)=∫0

∞tz−

1e−t

dt.\gamma(z) = \int_0^\infty t^e^dt\,.

γ(z)=∫

0∞t

z−1e

−tdt

你可以找到更多關於的資訊latex數學表示式here.

可以使用uml圖表進行渲染。 mermaid. 例如下面產生的乙個序列圖：:

這將產生乙個流程圖。:

我們依舊會支援flowchart的流程圖：

如果你想嘗試使用此編輯器, 你可以在此篇文章任意編輯。當你完成了一篇文章的寫作, 在上方工具欄找到文章匯出，生成乙個.md檔案或者.html檔案進行本地儲存。

如果你想載入一篇你寫過的.md檔案或者.html檔案，在上方工具欄可以選擇匯入功能進行對應副檔名的檔案匯入，

繼續你的創作。

mermaid語法說明↩︎

註腳的解釋 ↩︎

TF IDF與余弦相似性的應用

原文這個標題看上去好像很複雜，其實我要談的是乙個很簡單的問題。這個問題涉及到資料探勘文字處理資訊檢索等很多計算機前沿領域，但是出乎意料的是，有乙個非常簡單的經典演算法，可以給出令人相當滿意的結果。它簡單到都不需要高等數學，普通人只用10分鐘就可以理解，這就是我今天想要介紹的tf idf演算法。...

TF IDF與余弦相似性

詞頻 term frequency，縮寫為tf 停用詞表示對找到結果毫無幫助必須過濾掉的詞，如的是在這一類最常用的詞詞頻詞頻 tf 某個詞在文章中出現的次數考慮到文章有長短之分，所以要對詞頻引數進行歸一化處理，下面是兩種歸一化的方法 1 詞頻 tf 某個詞在文章中出現的次數文章...

TF IDF與余弦相似性的應用（二）找出相似文章

為了找出相似的文章，需要用到余弦相似性 cosine similiarity 下面，我舉乙個例子來說明，什麼是余弦相似性為了簡單起見，我們先從句子著手。句子a 我喜歡看電視，不喜歡看電影。句子b 我不喜歡看電視，也不喜歡看電影。請問怎樣才能計算上面兩句話的相似程度？基本思路是如果這兩句話的用...

TF IDF與余弦相似性的應用

TF IDF與余弦相似性的應用

TF IDF與余弦相似性

TF IDF與余弦相似性的應用（二） 找出相似文章

相關推薦

TF IDF與余弦相似性的應用（二）找出相似文章