實踐 SSDEEP相似度比較

2020/06/03 -

其實一開始的時候，我是想看看，他們都是使用什麼特徵來進行比較。。。

首先是工具的安裝，然後通過自己編寫的幾個c原始碼，編譯之後進行比較。

他的結果說明，能夠有相似度出來；然後又對比了這個影象的相似度，發現這個工具並不支援。我估計是因為他是使用線性滑動視窗來進行比較的吧。

ssdeep的使用過程，

ssdeep -s * > sample.ssd這個是生成每個檔案的雜湊數值

ssdeep -m sig_file -s *這個是將要比對的檔案匹配之前的指紋。

-s是遮蔽錯誤。

下面來說一下，我的實踐結果。

主要測試是當時在github上找到的ioc列表。

然後有乙個樣本.i，數量比較多，就拿他做例子。

通過上面的命令，的卻能發現有很大的相似程度，也說明了這種方法的有效性。

但是我再測試其他的內容的時候，發現了乙個問題，很多樣本他們都不匹配。大部分都不能匹配上。

這個結果可能，真的是因為這些樣本不相似吧，當然也能找到一些相似的。但是比較少。

而且，他的結果輸出過程是這樣的，如果他們不相似，就不輸出結果。

這裡呢，產生了一些疑問。

這種相似度的可解釋性有多少高，在我這裡就是說，這東西是**相似呢？

對於系統**的部分，是不是也會被認定為相似，這種應該會有干擾吧。

對於這個聚類的結果，我不是清楚怎麼聚類這個過程。。這裡github上有幾個相關的。、

[1]fuzzy-hashing-ssdeep

語義相似度實踐篇

這篇文章，專門講語義相似度問題。先看場景 scene 二 kb qa的兩個問題獲取question的語義表示把語義表示轉換成知識圖譜的能夠理解的語言邏輯形式。無論是核心推導鏈還是向量建模，核心都是question和answer的語義相似度問題。雖然學術界對於語義相似度問題，都說是熱點和難點，但是...

大文字相似度比較

這個月一直在做文字匹配研究，大到一篇文章，現在小到乙個字段。處於自由散漫的探索，而且時間較短，所以可能較為膚淺，感興趣的可以一起交流。1.查詢一篇重複文字。前一段時間做過測試，google的simhash演算法效果還是不錯的，文字長度與一篇長度差不多。步驟為 a.給整篇文件分詞 term 分詞用的...

Python TF IDF 比較文字相似度

部分 coding utf 8 import codecs import jieba.posseg as pseg from gensim import corpora,models,similarities from hotelmatcher.constant import class tfidf...

實踐 SSDEEP相似度比較

語義相似度 實踐篇

大文字相似度比較

Python TF IDF 比較文字相似度

相關推薦

語義相似度實踐篇