重複資料刪除的方法

2021-05-26 22:17:42 字數 464 閱讀 4426

我們的磁碟備份裝置的容量已經趨於飽和,在資料中心已經沒有足夠的空間來備份pt級的資料,在這種情況下,當我們希望將備份資料儲存乙個月時,卻只能儲存兩到三天。問題是在我們的備份裝置中有太多的重複資料。現在終於有了解決這個問題的辦法,善於抓住機會賺錢的廠商們聲稱他們的新一代「刪除重複資料」產品可以按20:1,甚至300:1的比例縮減我們需要儲存的資料量。果真如此嗎?讓我們仔細看看。

目前有兩種主要的重複資料刪除方法:基於雜湊的方法和基於位元組比較的方法。基於雜湊的方法利用一種演算法對輸入資料進行處理來建立很小的表示式和資料唯一的識別符號(即所謂的雜湊值)。然後,將其與儲存在查尋表中的雜湊值進行比較。但是,利用查尋表來確定重複的雜湊串會造成巨大的效能壓力,並且可能需要幾周時間才能取得最優的重複刪除效率。

但是,從經濟角度考慮,磁帶仍是儲存的首選;在部署磁碟方案時,使用者必須最大程度地減少儲存在磁碟上的資料,以保持成本平衡。許多站點發現磁碟方案速度比磁帶慢,因為它們作為備份裝置沒有進行優化。

sql 刪除重複資料的方法

建立表 並在表中新增重複資料 create table dbo repeat emp no nvarchar 50 null,name nvarchar 50 null,age int null on primary 插入測試資料 insert into repeat values 000 zhan...

刪除重複資料

介紹兩種刪除重複行的方式 1.使用臨時表,分組找出重複部分的id進行刪除 刪除table goods info 中存在重複goods id的記錄 select identity int,1,1 as autoid,into temptable from goods info select min a...

sql刪除重複資料

1 建立表 create table dbo test id numeric 18,0 identity 1,1 not null primary key,name varchar 200 collate chinese prc ci as null remark varchar 1024 coll...