差分隱私學習

差分隱私

是對統計資料庫洩漏問題提出的新的隱私定義。在此定義下，對資料集的計算處理結果對於具體某個記錄的變化是不敏感的，單個記錄在資料集中或者不在資料集中對計算結果影響微乎其微。所以，一個記錄因其加入到資料集中所產生的隱私洩露風險被控制在極小的、可接受的範圍內，攻擊者無法通過觀察計算結果而獲取準確的個體資訊。

當資料集ｄ中包含個體alice時，設對ｄ進行任意查詢操作f（例如計數、求和、平均值、中位數或其它範圍查詢等）所得到的結果為f(d)，如果將 alice的資訊從ｄ中刪除後進行查詢得到的結果仍然為f(d)，則可以認為，alice的資訊並沒有因為被包含在資料集ｄ中而產生額外的風險。差分隱私保護就是要保證任乙個個體在資料集中或者不在資料集中，對最終發布的查詢結果幾乎沒有影響。

設有兩個幾乎完全相同的資料集（兩者的區別僅在於乙個記錄不同），分別對這兩個資料集進行查詢訪問，同一查詢在兩個資料集上產生同一結果的概率的比值接近１

乙個醫療資料集ｄ，其中的每個記錄表示某個人是否患有癌症（１表示是,０表示否).資料集為使用者提供統計查詢服務（例如計數查詢），但不能洩露具體記錄的值．設使用者輸入引數i，呼叫查詢函式 f(i)＝count(i) 來得到資料集前ｉ行中滿足「診斷結果」=ｌ的記錄數量，並將函式值反饋給使用者．假設攻擊者欲推測alice是否患有癌症，並且知道alice在資料集的第５行，那麼可以用 count(5) - count(4)來推出正確的結果．

但是，如果，是乙個提供ｅ一差分隱私保護的查詢函式，例如 f(i)＝count(i) + noise，其中noise是服從某種隨機分布的雜訊．假設．f(5) 可能的輸出來自集合，那麼，f(4) 也將以幾乎完全相同的概率輸出中的任一可能的值，因此攻擊者無法通過f(5) - f(4)來得到想要的結果．

隱私保護預算

它事實上體現了ｍ所能夠提供的隱私保護水平．在實際應用中，￡通常取很小的值，￡越小，表示隱私保護水平越高．當￡等於０時，保護水平達到最高，此時對於任意鄰近資料集，演算法都將輸出兩個概率分布完全相同的結果，這些結果也不能反映任何關於資料集的有用的資訊．因此，￡的取值要結合具體需求來達到輸出結果的安全性與可用性的平衡．

敏感度差分隱私保護可以通過在查詢函式的返回值中加入適量的干擾雜訊來實現．加入雜訊過多會影響結果的可用性，過少則無法提供足夠的安全保障．敏感度是決定加入雜訊量大小的關鍵引數，它指刪除資料集中任一記錄對查詢結果造成的最大改變．在差分隱私保護方法中定義了兩種敏感度，即全域性敏感度和區域性敏感度

全域性敏感度大需要新增的雜訊大

例如求中位數 f(d) = median(x1,x2,…,xn) xi 是區間[a,b]內的實數。

設n為奇數，且資料已被排序，那麼函式的返回值即為第m = (n-1)/2個數極端情況下前m = (n-1)/2是a，後明面都是b，刪掉乙個變了b-a，敏感度是b-a,可能會很大的乙個值

當全域性敏感度較大時，必須在函式輸出中新增足夠大的雜訊才能保證隱私安全，導致資料可用性較差。

所以提出區域性敏感度, f 是d上的區域性敏感度,

區域性敏感度由函式f及給定資料集ｄ中的具體資料共同決定．由於利用了資料集的資料分布特徵，區域性敏感度通常要比全域性敏感度小得多．以前文的求中位數函式為例，其區域性敏感度為max(xm - xm-1, xm+1- xm).另外，區域性敏感度與全域性敏感度之間的關係可以表示為

由於區域性敏感度在一定程度上體現了數據集的資料分布特徵，如果直接應用區域性敏感度來計算雜訊量則會洩露資料集中的敏感資訊．因此，區域性敏感度的平滑上界被用來與區域性敏感度一起確定雜訊量的大小．

差分隱私學習

差分隱私 python 差分隱私

差分隱私簡介

差分隱私基礎

差分隱私學習

差分隱私 python 差分隱私

差分隱私簡介

差分隱私基礎

相關推薦