TF IDF與TextRank的關鍵詞提取演算法應用

2022-08-24 14:39:08 字數 936 閱讀 8851

tf-idf

\[tf_ = \frac

\]\[idf_w = log\frac^i(w,d_i)}

\]\[idf_w = log\frac^i(w,d_i)}

\]\[tf - idf_ = tf_ * idf_w

\]從上述定義可以看出:

textrank

pagerank本來是用來解決網頁排名的問題,網頁之間的鏈結關係即為圖的邊,迭代計算公式如下:

\[pr(v_i) = (1 - d) + d * \sum_\fracpr(v_j)

\]其中,pr(vi)表示結點vi的rank值,in(vi)表示結點vi的前驅結點集合,out(vj)表示結點vj的後繼結點集合,d為阻尼係數用於做平滑。

textrank的迭代計算公式如下:

\[ws(v_i) = (1 - d) + d * \sum_\frac}}}ws(v_j)

\]可以看出,該公式僅僅比pagerank多了乙個權重項wji,用來表示兩個節點之間的邊連線有不同的重要程度。

textrank生成摘要

將文字中的每個句子分別看做乙個節點,如果兩個句子有相似性,那麼認為這兩個句子對應的節點之間存在一條無向有權邊。考察句子相似度的方法是下面這個公式:

\[similarity(s_i,s_j) = \frac |}

\]公式中,si,sj分別表示兩個句子詞的個數總數,wk表示句子中的詞,那麼分子部分的意思是同時出現在兩個句子中的同乙個詞的個數,分母是對句子中詞的個數求對數之和。分母這樣設計可以遏制較長的句子在相似度計算上的優勢。

我們可以根據以上相似度公式迴圈計算任意兩個節點之間的相似度,根據閾值去掉兩個節點之間相似度較低的邊連線,構建出節點連線圖,然後計算textrank值,最後對所有textrank值排序,選出textrank值最高的幾個節點對應的句子作為摘要。

參考文獻

tf-idf與textrank

TF IDF原理與實踐

在資訊檢索中,tf idf 詞頻 逆文件頻率 是一種統計方法,用以評估乙個單詞在乙個文件集合或語料庫中的重要程度。經常被用作資訊檢索 文字挖掘以及使用者模型的權重因素。tf idf的值會隨著單詞在文件 現的次數的增加而增大,也會隨著單詞在語料庫 現的次數的增多而減小。tf idf是如今最流行的詞頻加...

TF IDF與余弦相似性

詞頻 term frequency,縮寫為tf 停用詞 表示對找到結果毫無幫助 必須過濾掉的詞,如 的 是 在 這一類最常用的詞 詞頻詞頻 tf 某個詞在文章中出現的次數 考慮到文章有長短之分,所以要對詞頻引數進行歸一化處理,下面是兩種歸一化的方法 1 詞頻 tf 某個詞在 文章中出 現的次數 文章...

TF IDF與余弦相似性的應用

原文 這個標題看上去好像很複雜,其實我要談的是乙個很簡單的問題。這個問題涉及到資料探勘 文字處理 資訊檢索等很多計算機前沿領域,但是出乎意料的是,有乙個非常簡單的經典演算法,可以給出令人相當滿意的結果。它簡單到都不需要高等數學,普通人只用10分鐘就可以理解,這就是我今天想要介紹的tf idf演算法。...