聯邦學習簡介

2021-10-07 19:17:17 字數 1654 閱讀 2195

對聯邦學習做個簡單的記錄

聯邦學習定義:

定義n個資料所有者,他們所有人都希望通過合併各自的資料來訓練機器學習模型。 一種常規方法是將所有資料放在一起,並使用d = d1 u d2 u ... dn來訓練模型msum。 聯邦學習是一種學習過程,其中資料所有者共同訓練乙個模型mfed,在該過程中,任何資料所有者fi都不會將其資料di暴露給其他人。此外,mfed的準確性(表示為vfed應該非常接近msum,vsum的效能。令δ為非負實數,如:

稱聯邦學習演算法有δ-acc級的損失。

聯邦學習的私隱性:

隱私是聯邦學習的基本屬性之一。 這就需要安全模型和分析來提供有意義的隱私保證。 在本節中,我們簡要回顧和比較用於聯邦學習的不同隱私技術,並確定防止間接洩漏的方法和潛在挑戰。

安全多方計算(smc)。smc安全模型自然包含多個參與方,並在定義明確的**框架中提供安全證明,以確保完全零知識,也就是說,每個參與方除了其輸入和輸出外一無所知。零知識是非常需要的,但是這種期望的屬性通常需要複雜的計算協議,並且可能無法有效實現。在某些情況下,如果提供了安全保證,則可以認為部分知識公開是可以接受的。可以在較低的安全性要求下用smc建立安全性模型,以換取效率。最近,研究使用smc框架訓練帶有兩個伺服器和半誠實假設的機器學習模型。 引文使用mpc協議進行模型訓練和驗證,而無需使用者透露敏感資料。最先進的smc框架之一是sharemind。 引文[44]提出了乙個誠實多數的3pc模型,並在半誠實和惡意假設中考慮了安全性。這些作品要求參與者的資料在非衝突伺服器之間秘密共享。

差異隱私。 另一種工作方式是使用差分隱私或k-匿名技術保護資料隱私。 差異隱私,k匿名和多樣化的方法涉及給資料新增雜訊,或者使用歸納方法掩蓋某些敏感屬性,直到第三方無法區分個人為止,從而使資料無法恢復以保護使用者隱私。但是,這些方法的根源仍然要求將資料傳輸到其他地方,並且這些工作通常需要在準確性和隱私之間進行權衡。 在[23]中,作者介紹了一種針對聯邦學習的差分隱私方法,目的是通過在訓練期間隱藏客戶的貢獻來為客戶端資料提供保護。

同態加密。 在機器學習過程中,還採用同態加密來通過加密機制下的引數交換來保護使用者資料隱私。 與差異隱私保護不同,資料和模型本身不會被傳輸,也不會被對方的資料猜中。 最近的工作採用同態加密來集中和訓練雲上的資料。 在實踐中,加性同態加密被廣泛使用,並且需要進行多項式逼近來評估機器學習演算法中的非線性函式,從而在準確性和保密性之間進行權衡。

間接資訊洩漏

聯邦學習之前的文章公開了一些成果,例如來自諸如隨機梯度下降(sgd)之類的優化演算法的引數更新,但是沒有提供安全保證,當這些梯度與諸如以下的資料結構一起公開時,這些梯度的洩漏實際上可能會洩漏重要的資料資訊。在影象畫素的情況下。研究人員已經考慮了一種情況,即聯邦學習系統的成員之一通過允許插入後門來學習他人的資料來惡意攻擊他人。在[6]中,作者證明了有可能將隱藏的後門插入到聯邦全域性模型中,並提出一種新的「約束和規模」模型中毒方法以減少資料中毒。在[43]中,研究人員發現了協作機器學習系統中的潛在漏洞,協作學習中不同方使用的訓練資料容易受到推理攻擊。他們表明,對抗性參與者可以推斷出成員資格以及與訓練資料子集相關的屬性。他們還討論了針對這些攻擊的可能防禦措施

聯邦學習學習心得(1) 聯邦學習簡介

國際社會上對資訊保安 個人隱私的問題越來越重視,各種相關的法案相繼頒布,對私人資料的管理 監督 保護更加全面化 嚴格化 密集化。各個公司對各自的資料也越來越重視,作為資產不可能拿出來分享,這就造成了資料孤島的現象。同時與傳統的機器學習 machine learning 和深度學習 deep lear...

聯邦學習 聯邦學習

文章內容主要來自文末網盤內部分資料 最近微眾舉辦了乙個面向高校大學生的ai比賽,題目如下 基於微眾提出的聯邦學習模型,設計一款有應用場景的產品。資料來源之間存在著難以打破的壁壘,一般情況下人工智慧的所需要的資料會涉及多 個領域,例如在基於人工智慧的產品推薦服務中,產品銷售方擁有產品的資料 使用者購買...

聯邦學習綜述

在聯邦學習 1 中給出了明確的聯邦學習的定義 綜上,聯邦學習的目的是 使多個參與方在保護資料隱私 滿足合法合規要求的前提下繼續進行機器學習,解決資料孤島問題。在實際中,孤島資料具有不同的分布特點,根據這些特點,可以提出相應的聯邦學習方案。以孤島資料的分布特點為依據可將聯邦學習分為三類 橫向聯邦學習 ...