差分隱私基礎

2022-07-07 14:24:15 字數 2349 閱讀 7879

資料的隱私保護問題最早由統計學家dalenius 在20世紀70年代末提出,他認為,保護資料庫中的隱私資訊,就是要使任何使用者(包括合法使用者和潛在的攻擊者)在訪問資料庫的過程中無法獲取關於任意個體的確切資訊 。

從已有的研究來看,k-anonymity及其擴充套件模型在隱私保護領域影響深遠且被廣泛應用。這些模 型的基本思想是將資料集裡與攻擊者背景知識相關的屬性定義為準識別符號,通過對記錄的準識別符號值進行泛化、壓縮處理,使得所有記錄被劃分到若干個等價類(equivalence group),每個等價類中的記錄具有相同 的準識別符號,從而實現將乙個記錄隱藏在一組記錄中。因此,這類模型也被稱為基於分組的隱私保護模型。

差分隱私是dwork在2023年針對統計資料庫的隱私洩露問題提出的一種新的隱私定義。在此定義下,對資料集的計算處理結果對於具體某個記錄的變化是不敏感的,單個記錄在資料集中或者不在資料集中,對計算結果的影響微乎其微。所以,一 個記錄因其加入到資料集中所產生的隱私洩露風險被控制在極小的、可接受的範圍內,攻擊者無法通過觀察計算結果而獲取準確的個體資訊。

差分隱私保護模型的思想源自於乙個很樸素的觀察:當資料集 d 中包含個體 alice時,設 對 d 進行任意查詢操作f(例如計數、求和、平均值、中位數 或其它範圍查詢等)所得到的結果為f(d),如果將 alice的資訊從 d 中刪除後進行查詢得到的結果仍然為f(d),則可以認為,alice的資訊並沒有因為被包含在資料集 d 中而產生額外的風險。差分隱私保護就是要保證任乙個體在資料集中或者不在資料 集中時,對最終發布的查詢結果幾乎沒有影響。具體地說,設有兩個幾乎完全相同的資料集(兩者的區別僅在於乙個記錄不同),分別對這兩個資料集進行查 詢訪問,同一查詢在兩個資料集上產生同一結果的概率的比值接近於1。

隱私保護預算\(\epsilon\)用來控制演算法m在兩個相鄰資料集上獲得相同輸出的概率比值,它事實上體現了m所能夠提供的隱私保護水平。實際應用中,\(\epsilon\)的取值很小,例如0.01,0.1,或者ln2,ln3等,\(\epsilon\)越小,表示隱私保護水平越高。當\(\epsilon\)為0時,表示對於任意臨近資料集,演算法都將輸出兩個概率分布完全相同的結果,這些結果也不能反映出任何關於資料集的有用的資訊。因此,\(\epsilon\)的取值要考慮到安全性和可用性之間的平衡。

敏感度是決定加入雜訊大小的關鍵引數,它指刪除資料集中任一記錄對查詢結果造成的最大改變。差分隱私中定義了兩種敏感度,即全域性敏感度區域性敏感度

函式的全域性敏感度由函式本身決定,不同的函式會有不同的全域性敏感度。一些函式的全域性敏感度較小,因此只需要加入少量的雜訊即可掩蓋因乙個記錄被刪除對查詢結果所產生的的影響。但某些函式的全域性敏感度較大,必須在函式輸出中新增足夠大的雜訊才能保證隱私安全,導致資料可用性較差。因此提出了區域性敏感度的概念。

但是,區域性敏感度在一定程度上體現了資料集的資料分布特徵,如果直接應用區域性敏感度來計算雜訊量則會洩露資料集中的敏感資訊,因此區域性敏感度的平滑上界被用來與區域性敏感度一起確定雜訊量的大小。

所有滿足這一定義的函式都可被定義為平滑上界,將區域性敏感度帶入到此函式中可得到平滑敏感度,進而用於計算雜訊大小。

由於絕大部分關於差分隱私保護的研究均針對計數查詢、求和查詢等敏感度較小的函式,因此,若無特殊說明,本文中敏感度均指全域性敏感度。

乙個複雜的隱私保護問題通常需要多次應用差分隱私才能解決。在這種情況下,為了保證整個過程的隱私保護水平控制在給定的預算\(\epsilon\)之內,需要合理地將全部預算分配到整個演算法的各個步驟中。這時可以利用隱私保護演算法的兩個組合性質:

為了使乙個演算法滿足差分隱私保護的要求,對不同的問題有不同的實現方法,這些實現方法稱為「機制」。拉普拉斯機制指數機制是兩種最基礎的差分隱私保護機制。其中,拉普拉斯機制適用於對數值型結果的保護,指數機制適用於非數值型結果。

laplace機制通過向確切的查詢結果中加入服從laplace分布的隨機雜訊來實現\(\epsilon\)-差分隱私保護。記位置引數為0、尺度引數為b的laplace分布為lap(b),那麼其概率密度函式為

雜訊(尺度)引數b取決於當我們修改乙個人的資料時,查詢結果總會改變多少。一組查詢總共的「最大改變」被稱為他們的敏感度,取b=敏感度/\(\epsilon\)即能滿足\(\epsilon\)-差分隱私。

指數機制適用於非數值型的資料,設查詢函式的輸出域為\(range\),域中的每個值\(r\in range\)為乙個實體物件,在指數機制下,函式\(q(d,r)\rightarrow r\)稱為輸出值\(r\)的可用性函式,用來評估輸出值\(r\)的優劣程度。

差分隱私 python 差分隱私

差分隱私的由來 想要在乙個統計資料庫裡面保護使用者的隱私,那麼理想的隱私定義是這樣的 訪問乙個統計資料庫而不能夠洩露在這個資料庫中關於個人的資訊。也就是說統計資料庫應該提供乙個統計值,但是對於個人的資訊不應該被查詢到。但是,這個理想的定義是不可行的,它並沒有考慮到輔助資訊。比如這麼乙個例子 乙個關於...

差分隱私學習

差分隱私 是對統計資料庫洩漏問題提出的新的隱私定義。在此定義下,對資料集的計算處理結果對於具體某個記錄的變化是不敏感的,單個記錄在資料集中或者不在資料集中對計算結果影響微乎其微。所以,一 個記錄因其加入到資料集中所產生的隱私洩露風險 被控制在極小的 可接受的範圍內,攻擊者無法通過 觀察計算結果而獲取...

差分隱私簡介

time 20191008 差分隱私描述了乙個承諾,該承諾是由資料持有者或者管理員向資料主體發起 將資料用在任何研究 分析中,資料主體不會受到不利影響,且不管其他研究,資料集以及資訊源是什麼。差分隱 理的是從個體上學習不到任何資訊而整體上可以習得有用資訊的悖論。比如說,醫療資料庫可以告知我們抽菸會導...