R中如何利用余弦演算法實現文章的自動摘要

2021-08-04 05:47:56 字數 1083 閱讀 6131

演算法步驟:

獲取到需要摘要的文章

對該文章進行詞頻統計

對該文章進行分句 根據中文的標點符號,一般我們採用。,?進行分句

計算分句與文章之間的余弦相似度

**實現:

library(tm)

library(tmcn)

library(rwordseg)

docs

dirsource(

c("sogouc.mini/samplenamed/c000007", "sogouc.mini/samplenamed/c000008",

"sogouc.mini/samplenamed/c000010", "sogouc.mini/samplenamed/c000013",

"sogouc.mini/samplenamed/c000014", "sogouc.mini/samplenamed/c000016",

"sogouc.mini/samplenamed/c000020", "sogouc.mini/samplenamed/c000022",

"sogouc.mini/samplenamed/c000023", "sogouc.mini/samplenamed/c000024")),

readercontrol = list(

language='utf-8'

))#使用矩陣的方式計算

cosinedist

(x)#字串分隔函式

strsplits

(x, splits, ...)

return(x[nchar(x)>3])

}mainsegs

name=c(na),

seg1=c(na),

seg2=c(na),

seg3=c(na)

);for(i in

1:length(docs)) )

mainsegs[i, 1]

mainsegs[i, 2:4]

}

R中如何利用余弦演算法實現相似文章的推薦

推薦 recommended 介紹好的人或事物,希望被任用或接受。在目前的資料探勘領域,推薦包括相似推薦以及協同過濾推薦。相似推薦 similar recommended 當使用者表現出對某人或者某物感興趣時,為它推薦與之相類似的人,或者物,它的核心定理是 人以群分,物以類聚。library tm ...

利用R語言如何進行文字比較演算法 LD演算法

在日常應用中,文字比較是乙個比較常見的問題。文字比較演算法也是乙個老生常談的話題。文字比較的核心就是比較兩個給定的文字 可以是位元組流等 之間的差異。目前,主流的比較文字之間的差異主要有兩大類。一類是基於編輯距離 edit distance 的,例如ld演算法。一類是基於最長公共子串的 longes...

Boosting演算法與R的實現

boost也分為許多種類,如adaboost gradient boost xgboost等,gradient boost顧名思義,與梯度脫不開關係,對梯度有了解或學過數值計算的人應當知道,負梯度方向是函式下降最快的方向。在有監督機器學習中,我們的目標是學得使得損失函式最小的模型,因此梯度下降演算法...