差分隱私學習

2021-09-05 11:09:58 字數 1914 閱讀 1862

差分隱私

是對統計資料庫洩漏問題提出的新的隱私定義。在此定義下,對資料集的計算處理結果對於具體某個記錄的變化是不敏感的,單個記錄在資料集中或者不在資料集中對計算結果影響微乎其微。所以,一 個記錄因其加入到資料集中所產生的隱私洩露風險 被控制在極小的、可接受的範圍內,攻擊者無法通過 觀察計算結果而獲取準確的個體資訊。

當資料集d中包含個體alice時,設對d進 行任意查詢操作f(例如計數、求和、平均值、中位數 或其它範圍查詢等)所得到的結果為f(d),如果將 alice的資訊從d中刪除後進行查詢得到的結果仍然為f(d),則可以認為,alice的資訊並沒有因為被包含在資料集d中而產生額外的風險。差分隱私保護就是要保證任乙個個體在資料集中或者不在資料集中,對最終發布的查詢結果幾乎沒有影響。

設有兩個幾乎完全相同的資料集(兩者的區別 僅在於乙個記錄不同),分別對這兩個資料集進行查詢訪問,同一查詢在兩個資料集上產生同一結果的概率的比值接近1

乙個醫療資料集d,其中的每 個記錄表示某個人是否患有癌症(1表示是,0表示否).資料集為使用者提供統計查詢服務(例如計數查詢),但不能洩露具體記錄的值.設使用者輸入引數i,呼叫查詢函式 f(i)=count(i) 來得到資料集前i行 中滿足「診斷結果」=l的記錄數量,並將函式值反 饋給使用者.假設攻擊者欲推測alice是否患有癌症, 並且知道alice在資料集的第5行,那麼可以用 count(5) - count(4)來推出正確的結果.

但是,如果,是乙個提供e一差分隱私保護的查 詢函式,例如 f(i)=count(i) + noise,其中noise是服從某種隨機分布的雜訊.假設.f(5) 可能的輸出來 自集合,那麼,f(4) 也將以幾乎完全相同 的概率輸出中的任一可能的值,因此攻擊 者無法通過f(5) - f(4)來得到想要的結果.

隱私保護預算

它事實上體現了m所能夠提供的隱私保護水平.在實際應用中,£通常取很小的值,£越小,表示隱私保護水平越 高.當£等於0時,保護水平達到最高,此時對於任意鄰近資料集,演算法都將輸出兩個概率分布完全相同的結果,這些結果也不能反映任何關於資料集的 有用的資訊.因此,£的取值要結合具體需求來達到輸出結果的安全性與可用性的平衡.

敏感度差分隱私保護可以通過在查詢函式的返回值中 加入適量的干擾雜訊來實現.加入雜訊過多會影響 結果的可用性,過少則無法提供足夠的安全保障.敏 感度是決定加入雜訊量大小的關鍵引數,它指刪除 資料集中任一記錄對查詢結果造成的最大改變. 在差分隱私保護方法中定義了兩種敏感度,即全域性敏感度 和 區域性敏感度

全域性敏感度大 需要新增的雜訊大

例如求中位數 f(d) = median(x1,x2,…,xn) xi 是區間[a,b]內的實數。

設n為奇數,且資料已被排序,那麼函式的返回值即為第m = (n-1)/2個數極端情況下前m = (n-1)/2是a,後明面都是b,刪掉乙個變了b-a,敏感度是b-a,可能會很大的乙個值

當全域性敏感度較大時,必須在函式輸出中新增 足夠大的雜訊才能保證隱私安全,導致資料可用性 較差。

所以提出區域性敏感度, f 是d上 的區域性敏感度,

區域性敏感度由函式f及給定資料集d中的具體 資料共同決定.由於利用了資料集的資料分布特徵, 區域性敏感度通常要比全域性敏感度小得多.以前文的求 中位數函式為例,其區域性敏感度為max(xm - xm-1, xm+1- xm).另外,區域性敏感度與全域性敏感度之間的 關係可以表示為

由於區域性敏感度在一定程度上體現了數 據集的資料分布特徵,如果直接應用區域性敏感度來 計算雜訊量則會洩露資料集中的敏感資訊.因此,區域性敏感度的平滑上界被用 來與區域性敏感度一起確定雜訊量的大小.

差分隱私 python 差分隱私

差分隱私的由來 想要在乙個統計資料庫裡面保護使用者的隱私,那麼理想的隱私定義是這樣的 訪問乙個統計資料庫而不能夠洩露在這個資料庫中關於個人的資訊。也就是說統計資料庫應該提供乙個統計值,但是對於個人的資訊不應該被查詢到。但是,這個理想的定義是不可行的,它並沒有考慮到輔助資訊。比如這麼乙個例子 乙個關於...

差分隱私簡介

time 20191008 差分隱私描述了乙個承諾,該承諾是由資料持有者或者管理員向資料主體發起 將資料用在任何研究 分析中,資料主體不會受到不利影響,且不管其他研究,資料集以及資訊源是什麼。差分隱 理的是從個體上學習不到任何資訊而整體上可以習得有用資訊的悖論。比如說,醫療資料庫可以告知我們抽菸會導...

差分隱私基礎

資料的隱私保護問題最早由統計學家dalenius 在20世紀70年代末提出,他認為,保護資料庫中的隱私資訊,就是要使任何使用者 包括合法使用者和潛在的攻擊者 在訪問資料庫的過程中無法獲取關於任意個體的確切資訊 從已有的研究來看,k anonymity及其擴充套件模型在隱私保護領域影響深遠且被廣泛應用...