NLP 關鍵詞提取之TextRank詳解

pagerank設計之初是用於google的網頁排名的，以該公司創辦人拉里·佩奇（larry page）之姓來命名。google用它來體現網頁的相關性和重要性，在搜尋引擎優化操作中是經常被用來評估網頁優化的成效因素之一。pagerank通過網際網路中的超連結關係來確定乙個網頁的排名，其公式是通過一種投票的思想來設計的：如果我們要計算網頁a的pagerank值（以下簡稱pr值），那麼我們需要知道有哪些網頁鏈結到網頁a，也就是要首先得到網頁a的入鏈，然後通過入鏈給網頁a的投票來計算網頁a的pr值。這樣設計可以保證達到這樣乙個效果：當某些高質量的網頁指向網頁a的時候，那麼網頁a的pr值會因為這些高質量的投票而變大，而網頁a被較少網頁指向或被一些pr值較低的網頁指向的時候,a的pr值也不會很大，這樣可以合理地反映乙個網頁的質量水平。那麼根據以上思想，佩奇設計了下面的公式：

該公式中，vi表示某個網頁，vj表示鏈結到vi的網頁（即vi的入鏈），s(vi)表示網頁vi的pr值，in(vi)表示網頁vi的所有入鏈的集合,out(vj)表示網頁，d表示阻尼係數，是用來克服這個公式中「d *」後面的部分的固有缺陷用的：如果僅僅有求和的部分，那麼該公式將無法處理沒有入鏈的網頁的pr值，因為這時，根據該公式這些網頁的pr值為0，但實際情況卻不是這樣，所有加入了乙個阻尼係數來確保每個網頁都有乙個大於0的pr值，根據實驗的結果，在0.85的阻尼係數下，大約100多次迭代pr值就能收斂到乙個穩定的值，而當阻尼係數接近1時，需要的迭代次數會陡然增加很多，且排序不穩定。公式中s(vj)前面的分數指的是vj所有出鏈指向的網頁應該平分vj的pr值，這樣才算是把自己的票分給了自己鏈結到的網頁。

textrank是由pagerank改進而來，其公式有頗多相似之處，這裡給出textrank的公式：

1)把給定的文字t按照完整句子進行分割，即

4)根據上面公式，迭代傳播各節點的權重，直至收斂。

將文字中的每個句子分別看做乙個節點，如果兩個句子有相似性，那麼認為這兩個句子對應的節點之間存在一條無向有權邊。考察句子相似度的方法是下面這個公式：

公式中，si,sj分別表示兩個句子，wk表示句子中的詞，那麼分子部分的意思是同時出現在兩個句子中的同乙個詞的個數，分母是對句子中詞的個數求對數之和。分母這樣設計可以遏制較長的句子在相似度計算上的優勢。

我們可以根據以上相似度公式迴圈計算任意兩個節點之間的相似度，根據閾值去掉兩個節點之間相似度較低的邊連線，構建出節點連線圖，然後計算textrank值，最後對所有textrank值排序，選出textrank值最高的幾個節點對應的句子作為摘要

NLP 關鍵詞提取之TextRank詳解

NLP關鍵詞提取

NLP 關鍵詞提取演算法

NLP學習路徑（五） NLP關鍵詞提取演算法

NLP 關鍵詞提取之TextRank詳解

NLP關鍵詞提取

NLP 關鍵詞提取演算法

NLP學習路徑（五） NLP關鍵詞提取演算法

相關推薦