文件的相似性可以使用Shingling演算法進行比較

2021-07-09 09:56:41 字數 691 閱讀 1755

1、文件的相似性,可以將文件轉化為集合,然後計算二個集合的交集,如果交集越大,則二個文件越相似,否則不相似。

可以使用jaccard=|s交t|/|s並t|

2、可以使用shingling演算法,將文件變成乙個集合。

k—shingle  就是將乙個文件變成長度為k的字串的集合,如果元素重複,則只保留乙個。如果把集合看成包,就可以記載重複字串出現的次數。

對於k的選擇時非常重要的。

3、k的選擇很重要

4、將一片文件變成字串的集合,將會造成資料量的增加,因此可以使用hash函式,將字串轉化為乙個整形的數值,減少儲存的空間。

5、基於詞的shingle

這個思想主要就是 使用停用詞+後續的幾個詞 構成shingle集合中的乙個元素。這樣可以區分內容,而忽略其它的因素。

文件相似性設計預言

當下較常用的相似度計算大致分為兩類 一 主題模型 代表方式 lsa lsi nmf lda word2vec等。描述 這類演算法可算作最簡單的機器學習,對於基礎文件進行主題過濾,計算出主題和詞語 主題和文件的關聯性,對於文件中語義的判定提供支援。二 特徵向量 距離演算法 代表方式 simhash 漢...

奶牛的相似性

奶牛的相似性 description 農夫約翰有兩頭奶牛,他想要知道,這兩頭奶牛到底有多相似,所以他給每頭奶牛拍了mn 指m行n列 的數碼相片,他想要你寫乙個程式幫助他。mn的數碼相片可以分辨出奶牛身上黑色和白色的斑塊,下面是兩頭奶牛的數碼 x 表示黑色部分,表示白色部分 其中m 5,n 7。奶牛1...

訊號相似性的描述

訊號相似性的描述 在很多的應用場合,經常要描述兩個訊號的相似性。比如在雷達的訊號檢測中,要比較所接收的訊號是否就是發射訊號的延時。有時候,甚至還要描述乙個訊號本身的相似性,比如在語音編碼中,要通過語音頻號本身的相似性,來 下一時刻的訊號值。我們知道,在訊號處理中,用相關函式來描述訊號的相似性。描述兩...