去匿名化(De anonymization)

2021-08-15 21:39:53 字數 2220 閱讀 4544

去匿名化是指一種資料探勘

策略,其中的匿名資料和其它資料**相互對照來重新識別匿名的資料

**。區別乙個資料**和另乙個資料**的任一資訊

都能用於去匿名化。

netflix

在2023年為改善電影推薦服務,公布了部分使用者評分的資料集,其中包括使用者對電影的打分和打分日期。可以將資料集看成乙個矩陣

的形式,每一列都代表一部電影,每一行代表乙個使用者對電影的打分情況。資料集中

包含約500000個使用者,每個使用者看過的電影以及評分都不盡相同,打分的電影相似程度都很低,因此,又可以把這個資料集看作稀疏矩陣。

因為電影的數量很多,資料集維度太高,並不存在準識別符號,k匿名化在這個資料集上並不適用。在這個資料集中

知道幾部電影就可以有較高的正確率。

攻擊者首先通過計算自己的資訊和資料集中

每乙個使用者資訊的相似度,然後選擇相似度最高的作為結果。相似度的計算其實是通過分別比較每一部電影的相似程度而得出,如果攻擊者想識別的使用者和資料集中

的一位使用者對同一部電影的評分和日期相差在一定的範圍內,比如日期相差不到14天,評分相等,則認為兩者相似。為使演算法更加健壯,規定

相似度最大的值必須遠高於相似度第二大的值,這樣不但更好區分候選的使用者,也能更好地判斷攻擊者知道的使用者是否在資料集中。另外可以區分電影的冷熱程度,如果一部電影看的人很多,則這部電影對相似度的權重

就會小一點,反之冷門電影對相似度起到的作用會大一些。

最後的實驗結果表明,通過8部電影的評分,和誤差

允許14天的評分日期,就可以唯一標識

資料集中99%的使用者;通過2部電影,68%的使用者可以被標識出來。即僅通過2到8部電影,就可以識別出這個使用者。而乙個人8部的電影記錄很容易獲得,通過與其聊天或者檢視部落格就有可能得到。

社會網路

在近幾年非常流行

,其中的資料也是另一類被研究很多的資料。與矩陣

不同,它首先包括乙個有向圖或者無向圖,圖中節點表示網路中的實體,邊表示實體間的關係,圖的點和邊也會有不同的屬性。社會網路的資料除了組織機構

公開在網上的,還可以通過社交**提供的應用程式介面

(api)自己進行爬取。匿名化

的方法主要有隨機的刪除邊和增加邊,還有對點和邊的屬性進行k匿名化等。

社會網路

的去匿名化主要針對的是節點的去匿名化,識別乙個節點就是獲得乙個人的真實資訊。對於社會網路的去匿名化方法可以分為兩類,一類是基於對映的方法,另一類是基於猜測的方法。基於對映的方法是將攻擊者了解的或爬取得到的真實網路結構與公開的經過匿名化

的網路結構

資料做節點匹配。基於猜測的方法則是利用攻擊者已知的背景知識在公開資料中找到符合的乙個或多個節點。

在對映的方法中攻擊者假定了解少量使用者的詳細資訊,而且通過爬蟲

等方法也得到了網路

中大量的使用者和關係,最終希望能把公開網路中與自己獲取的網路中節點一一對應起來。根據攻擊者的方式可以將其分為主動攻擊和被動攻擊,主動攻擊的方法是在資料發布之前攻擊者就建立一定數量的賬號

並使他們各自成為好友關係,這樣形成一種很容易分辨出來的形式,在資料匿名發布後,首先找到這些點的對映,之後以此為中心對其他節點進行去匿名化也比較容易。被動攻擊則是需要

獲取其他相關

資訊,比如其他熱門社交網路的資料,來幫助實現對映的過程。

而是通過一種基於反饋的自增強方式進行匹配的,進行去匿名化。具體

演算法分為兩步。

1、種子的識別。首先攻擊者利用少量使用者的詳細資訊,包括每個節點的度、每對節點公共鄰居的數量等,在公開網路中尋找相似的結構

,完成對這些少量節點的對映。

2、擴散。利用第一步中得到的對映關係,不斷找出新的節點對映關係,並加入到原有的關係中。

以部落格為例,網路

上的文章大部分是匿名的,每個人寫作風格不同,可以使用機器學習

,也可以將同乙個人寫的不同部落格識別出來。

首先要對文章進行預處理,只保留用英文寫的較長的文章。有些作者喜歡在每篇文章開頭或結尾留下簽名或者代表自己的一段話,由於文章研究是利用文法對匿名文章分類,為了實驗準確,這種前字尾也需要去掉。然後通過對文章進行自然語言處理

,將文章抽象為包含文章特徵的高維特徵向量,其中包括文章長度、單詞長度、不同型別詞出現的頻率

以及一些文法的特徵。

再使用機器學習的方法,用不同的分類器識別出文章的作者或他的部落格,除了使用乙個分類器進行分類,還可以將兩個不同的分類器結合,對比兩者的結果,得出最終答案。

↑ 孫廣中;魏燊;謝幸.《大資料時代中的去匿名化技術及應用》[j].資訊通訊技術.2023年06期

一種被動的Tor網路去匿名化方法

本文講述的是一種被動的tor網路去匿名化方法,旨在服務社會,供安全研究人員學習使用,請勿用於其他非法用途,違者後果自負。目前針對tor的攻擊檢測方法都是採用主動攻擊,本文將介紹一種被動攻擊的去匿名化方法。一 當前 tor 網路檢測方法 當前對tor網路的攻擊檢測一般有以下幾種方法 1.控制出口節點,...

中心化和去中心化

中心化和去中心化 分布式的架構中,同乙個服務會部署若干服務節點,在面對具體服務請求時,怎麼決定由哪個節點來提供服務,根據實現方案分為中心化和去中心化兩種方式。中心化 在開源中介軟體codis的集群組網中,應用對快取節點的訪問都通過codis的proxy 由 來決定資料儲存到哪個節點上 這種分布式的組...

豆瓣的去中心化

都想著方法去黏住使用者,所以現在的網際網路熙熙攘攘,喧鬧嘈雜。我們總是去嘗試著那些最新的應用,我們痴迷於最尖端的技術,我們熱衷於最流行的八卦 儘管它們中的很多其實是專門為我們設計的 這樣的體驗你感覺好嗎?至少我的感覺很不好。我展望乙個更為清淨的網際網路,正如文中的前半段所說,我們應該也有 不被人隨時...