文章內容相關性統計

2021-08-22 10:42:18 字數 1106 閱讀 2207

文章內容相關性統計

左直拳內容相關性我能想到的是比較兩篇文章提取出來的標籤。

每篇文章都可以提取出一些出現頻率比較高的詞語,就是標籤,存放在資料庫裡。並且存放的時候已經按出現頻率從高到低排列,頻率高的標籤儲存在前面,低的在後面。假定標籤表結構如下

pagetag

字段含義

型別id

inttagid

標籤id

intpageid

文章id

int則對於同一篇文章(pageid相同)來講,出現頻率高的標籤,id一定小於頻率低的標籤對應的id。

比較的思路是,如果兩篇文章,相同標籤的頻率越高,數量越多,則說明這兩篇文章的相似度就越高。這好象涉及到乙個叫「權重」之類的東西。不過我不知道什麼叫權重。

select

a.pageid,

sum(b.row)

as weight from

pagetag

as a,

(select

tagid,row_number()

over

(order

by id desc

)as row

from

pagetag

where

pageid=

某篇文章的id)

as b

where

a.pageid<>

某篇文章的id

anda.tagid=b.tagid

group

by a.pageid

結果就可以將文章和相應的相似度列出來了。weight越大,相似度越高。

主要用了row_number()

,並且order

by id desc

,所以頻率越高的,row就越大,最後合計的sum(row)as weight就越大。同時,如果兩篇文章相同的標籤很多,合計數也跟著大,所以這個weight應該可以反映權重。

注:這種演算法在實際應用中效果不佳,除了提取出來的標籤準確度不是很高外,演算法本身也不太完善。比如說,一篇文章很長,提取出來的標籤有10幾個,而短的文章有的只有2、3個,這時候,長文章的標籤權重普遍大於短文章的,統計出來就有偏差。

丟擲我的吊,來吸引您的玉。

文章內容相關性統計

文章內容相關性統計 左直拳內容相關性我能想到的是比較兩篇文章提取出來的標籤。每篇文章都可以提取出一些出現頻率比較高的詞語,就是標籤,存放在資料庫裡。並且存放的時候已經按出現頻率從高到低排列,頻率高的標籤儲存在前面,低的在後面。假定標籤表結構如下 pagetag 字段含義 型別id inttagid ...

python 實現文章內容統計

實現對目標檔案所有字元統計,單獨不重複字元統計,並通過字典列印以及寫入excel,以檔案的形式輸出統計的結果。data read data 為 read 返回的結果 generate excel data generate excel 函式傳入引數 data for key,value in dat...

統計 相關性與自相關性

相關係數度量指的是兩個不同事件彼此之間的相互影響程度 而自相關係數度量的是同一事件在兩個不同時期之間的相關程度,形象的講就是度量自己過去的行為對自己現在的影響。自相關,也稱 序列相關。是乙個訊號於其自身在不同時間點的互相關。非正式地來說,它就是兩次觀察之間的相似度對它們之間的時間差的函式。它是找出重...