基於詞頻的檔案相似度

2021-10-20 19:35:20 字數 551 閱讀 2526

基於詞頻的檔案相似度

實現一種簡單原始的檔案相似度計算,即以兩檔案的公共詞彙佔總詞彙的比

例來定義文章內容相似度。為簡化問題,這裡不考慮中文(因為分詞困難),只

考慮長度不小於 1000 個英文單詞的文章,長度超過 10 字母的單詞只考慮前 10

個字母。

輸入:給出要檢查的英文文字檔案的資料夾位置

輸出:以**形式給出該資料夾下兩兩檔案的相似度數值

可以查詢兩檔案的公共詞彙(按照英文順序輸出)

考慮詞頻【加分點】

說明:兩檔案的相似度定義為兩檔案的公共詞彙量佔兩檔案總詞彙量的百分比。

如檔案 1:aaa bbb ccc

檔案 2:bbb ccc ddd

則相似度為 50%,公共詞彙為 bbb ccc

自己構造測試用輸入輸出資料,驗收時提交。

如資料夾下有 a.txt、b.txt、c.txt 三個檔案,輸出如下

a.txt,b.txt 55%

a.txt,c.txt 60%

a.txt,c.txt 30%

雜湊 基於詞頻的檔案相似度

實現一種簡單原始的檔案相似度計算,即以兩檔案的公共詞彙佔總詞彙的比例來定義相似度。為簡化問題,這裡不考慮中文 因為分詞太難了 只考慮長度不小於3 且不超過10的英文單詞,長度超過10的只考慮前10個字母。輸入首先給出正整數n 100 為檔案總數,隨後按以下格式給出每個檔案的內容 首先給出檔案正文,最...

7 44 基於詞頻的檔案相似度(30 分)

本題目要求實現乙個簡化的熱門話題推薦功能,從大量英文 因為中文分詞處理比較麻煩 微博中解析出話題,找出被最多條微博提到的話題。輸入格式 輸入說明 輸入首先給出乙個正整數n 105 隨後n行,每行給出一條英文微博,其長度不超過140個字元。任何包含在一對最近的 中的內容均被認為是乙個話題,輸入保證 成...

7 44 基於詞頻的檔案相似度 (30 分

實現一種簡單原始的檔案相似度計算,即以兩檔案的公共詞彙佔總詞彙的比例來定義相似度。為簡化問題,這裡不考慮中文 因為分詞太難了 只考慮長度不小於3 且不超過10的英文單詞,長度超過10的只考慮前10個字母。輸入格式 輸入首先給出正整數n 100 為檔案總數。隨後按以下格式給出每個檔案的內容 首先給出檔...