相似本文去重方案 技術棧

2021-10-23 12:35:52 字數 434 閱讀 2614

優化的方法就是「抽屜原理」,因為 2 個 simhash 相似的標準是 <=3 位元的差異,所以如果我們把 64位元的 simhash 切成 4 段,每一段 16 位元,那麼不同的 3 位元最多散落在 3 段中,至少有 1 段是完全相同的。

同理,如果我們把 simhash 切成 5 段,分別長度 13bit、13bit、13bit、13bit、12bit,因為 2 個simhash 最多有 3 位元的差異,那麼 2 個simhash 至少有 2 段是完全相同的。

redis + 冗餘資料儲存 (技術難度較低)

postgres + smlar 外掛程式

hbase

一篇千字左右的文章, jieba 分詞 + 去除停止詞的時間為 0.8 s 左右。

解決方案:

1.安裝 jieba_fast :

2. jieba 開啟並行: eg.

url去重方案

url去重方案 1.通過資料庫進行url的去重,獲取一條資料的時候,將url也儲存到資料庫中,在獲取其他url的時候,先從資料庫中查詢是否存在這個url,如果存在就丟棄,反之就儲存。效率太低。2.通過set 在記憶體中符url進行去重。對記憶體的占用太高。eg 100000000條url 50字元 ...

文字相似度 小說去重

之前寫了爬蟲爬取 總檔案大概70g。但如果換 進行爬取會重複爬取同樣的 產生不必要的空間浪費。由於不同 對 命名不同,例如 名 斗羅大陸.txt,在 網a命名為斗羅大陸,b 斗羅大陸 c 斗羅大陸全集什麼的。如果從 名來判斷會有很多麻煩,並且有的 名和 內容嚴重不符,因此根據 名來判斷被否決。隨著研...

陣列去重的4種方案

方法一 這是最簡單原始的陣列去重方法,效率應該是最低的吧。具體方法就看 吧var arr 1,12,10,14,11,14,1,11,14,16,18,31 function norepeat if flag console.log newarr 1,12,10,14,11,16,18,31 方法二...