如何破解AI資料困境?京東智聯雲聯邦學習平台有良方

2022-06-07 15:18:10 字數 3600 閱讀 6950

隨著網際網路業務的不斷發展,很多機構都積累了海量的線上資料,充分利用這些資料,進行相關的資料分析、特徵挖掘、演算法建模是各機構重點發展的方向。然而在大多數行業與企業中,資料是以孤島形式存在的,由於行業競爭、隱私安全、行政手續複雜等問題,即使是在同乙個公司的不同部門之間實現資料整合也面臨著重重阻力,在現實中想要將分散在各地、各個機構的資料進行整合幾乎是不可能的,或者說所需的成本是巨大的。

另一方面,隨著大資料的進一步發展,重視資料隱私和安全已經成為了世界性的趨勢。這給人工智慧領域帶來了前所未有的挑戰,如何在滿足安全和監管要求的前提下,設計乙個機器學習框架,讓人工智慧系統能夠更加高效、準確的共同使用各自的資料,是當前人工智慧發展的乙個重要課題。

近兩年,聯邦學習技術 (federated learning)的出現,為跨團隊資料合作,打破「資料孤島」提供了新的解決方案。

聯邦學習是一種新興的人工智慧基礎技術,在2023年由谷歌最先提出,原本用於解決安卓手機終端使用者在本地更新模型的問題,其設計目標是在保障大資料交換時的資訊保安、保護終端資料和個人資料隱私、保證合法合規的前提下,在多參與方或多計算結點之間開展高效率的機器學習。聯邦學習可使用的機器學習演算法不侷限於神經網路,還包括隨機森林等重要演算法。聯邦學習有望成為下一代人工智慧協同演算法和協作網路的基礎。

京東智聯雲聯邦學習平台旨在建立乙個基於分布式資料集的聯邦學習模型。在訓練過程中,模型資訊以加密的形式在各機構間互動,互動過程不會暴露任何機構的隱私資料,訓練好的模型在各個機構間共享。

前不久,憑藉在排程管理能力、資料處理能力、演算法實現、效果及效能以及安全性等方面的出色表現,京東智聯雲聯邦學習平台順利通過信通院的「大資料產品能力評測 」,被授予聯邦學習基礎能力專項評測證書,獲得業界權威認可。

京東智聯雲聯邦學習平台可以很好地解決各個政企間資料孤島林立的現象,充分釋放ai應用潛能,實現在隱私資料安全前提下的多方聯合建模。(如圖 1)

▲圖1 京東智聯雲聯邦學習平台▲

為什麼京東智聯雲聯邦資料平台可以具備以上特性呢?

資料的質量和數量決定了機器學習的效果上限。為了讓模型(如神經網路)達到更好的效果就可能需要給模型輸入更多的資料。而大量的資料需要消耗更多的儲存和算力,此時就要依靠分布式的方法來為機器學習提供充足的算力、儲存以及合理的任務排程。聯邦學習也是如此,從圖 2的京東智聯雲分布式聯邦學習架構我們可以看出其本質是一種加密的分布式機器學習技術。

▲圖2 京東智聯雲分布式聯邦學習架構▲

京東智聯雲聯邦資料平台可以打通合作方之間的資料孤島,讓多方資料在相互隔離的環境下,建立虛擬共有模型,充分釋放ai潛能,實現「共同富裕」。

▲圖3 聯邦學習應用場景▲

如圖3所示,京東智聯雲聯邦資料平台可以打通京東自有資料與合作方之間的資料壁壘,在資料相互隔離的環境下進行建模,建立在京東資料賦能下的共有模型,實現應用場景的深度挖掘與創新。

京東智聯雲聯邦學習平台由聯邦學習客戶端和京東智聯雲閘道器組成,客戶端主要負責資料加密和科學計算工作,京東智聯雲閘道器負責把必要的加密的引數在各個參與方的客戶端間傳輸。

客戶端以映象的方式交給各參與方,聯邦學習各參與方開發人員無需關心作業系統版本和開發相關的軟體環境,直接載入映象即可。在映象內啟動聯邦學習平台,就可以開始聯邦學習訓練了。

京東智聯雲閘道器主要工作包括:對聯邦學習客戶端做系統鑑權、給各參與方傳遞必要的加密的引數。為了保證各參與方的網路安全,京東智聯雲聯邦學習平台採用單向的網路傳輸策略,即各參與方可以傳送網路請求給京東智聯雲閘道器,而京東智聯雲閘道器無法傳送網路請求給各參與方。有了該策略的支援,企業可以只開放網路的上行許可權,而關閉下行許可權。這有效緩解了某些參與方對網路安全的擔心。

同時,京東智聯雲聯邦學習平台支援兩種樣本對齊方式,分別是聯邦加密對齊和md5對齊,聯邦加密對齊用rsa演算法結合隨機雜訊,幫助兩個參與方找到相同的使用者id,保證非共有的id不會洩漏給對方。

京東智聯雲自研梯度資訊保護,參與訓練的各方均在本地更新自己的模型引數,因此可以在加密梯度傳送之前,加入足夠大的雜訊,解密方接收到的是無法恢復的加雜訊梯度,而本方可以通過減去該雜訊恢復真實梯度,繼而進行本方的模型引數更新。這樣的設計充分保護自身梯度資訊,同時保證了模型精度。

此外,京東智聯雲聯邦學習通過分析稀疏格式資料的儲存方式,結合同態加密對加法、數乘運算的支援,巧妙地實現了稠密加密數與稀疏資料間的矩陣乘法運算,執行效率只與非零元素個數有關。

京東智聯雲聯邦學習還提供logistic regressionxgboostdnn等演算法。支援pearson、spearman、woe(weight of evidence)、iv(information value)等特徵分析演算法,提供了異常值填充、歸一化、特徵分桶、count_encoding、one-hot等特徵處理工具。

京東智聯雲聯邦學習平台不依賴spark、yarn、k8s等三方框架,整個網路的搭建是基於google全新推出的tensorflow2.0和其高階api tf.keras。在雙塔網路的基礎上,使用者可以自己定義每個塔的dnn結構。相較於tensorflow 1.x,新版tensorflow模型的除錯更簡單,api相對清晰,且tensorflow 2.x也會是未來的趨勢。

在fate的模型訓練過程中,使用的是tensorflow中的sequential api ,無法很好地將bottom網路和interactive網路的計算流暢地串聯起來—訓練過程中,bottom網路的前向傳播的結果,沒有記錄在反向傳播中。這導致反向京東智聯雲聯邦學習傳播時,需要再次進行前向傳播。兩次地前向傳播,一方面會增加執行時間,另一方面,如果網路中包含隨機數,很可能產生錯誤的結果。而在京東智聯雲聯邦學習平台中,採用的是subclassing api,更具有靈活性,訓練過程中只需一次前向傳播即可,可有效降低執行時間和隨機數帶來的不穩定性。

目前,京東智聯雲聯邦學習平台已經廣泛服務於零售汽車教育風控等行業。在汽車行業,建模訓練2週後,模型效果即顯著提公升17%,實現客戶轉化率與roi雙重提公升,驅動企業實現全鏈路數智化轉型。

某汽車品牌多家線下4s店通過聯邦學習平台安全融合線上線下資料,並利用機器學習技術共同建模;該模型有效**了到店購車的人群、使用者對車型的偏好,同時對每個使用者的到店概率及車型偏好進行評分,配合簡訊與**觸達高潛人群,大幅提公升銷售的成單效率以及不同車型的轉化率。

在部署方面,京東智聯雲聯邦學習三天內即可完成平台的部署除錯工作,一周內即可開始使用。同時支援視覺化特徵分析,不用手寫**,在頁面選擇點選即可實現特性相關性分析。

歡迎點選【京東智聯雲】,了解開發者社群

JOIN US 京東智聯雲誠聘技術精英

有前景的行業有空間的平台有夢想的夥伴 京東智聯雲期待你的加入 招聘崗位 ai售前解決方案經理 業務拓展經理 演算法工程師 科學家 測試開發工程師 openstack資深研發工程師 python 客戶端c 開發工程師windows驅動工程師 詳情請見下文 京東智聯雲 jd cloud ai 是京東集團...

容聯CPO熊謝剛 破解AI落地困境抓住兩個要素

乙個客戶今天選擇ai產品,絕對不會是因為認同ai的未來,去決定這個專案花多少錢,更多的是看選擇ai產品能夠解決什麼問題,達到什麼效果。在meet 2021量子位智慧型未來大會上,容聯雲通訊cpo熊謝剛從 ai商業化落地路徑 企業會為怎麼的ai產品買單 ai與通訊結合的應用場景 等多角度詮釋了智慧型通...

紅榜丨第六期京東智聯雲培訓 認證課程

首先恭喜大家順利完成了我們的培訓與認證課程!上了紅榜的小夥伴現在可以在後台回覆 紅榜 解鎖社群神秘周邊禮包哦 不僅有小夥伴每天陪你一起學習 進步,我們的小助手還會定期在群裡為大家發放考試模擬題哦 為了幫助想學習雲計算相關產品及實操的小夥伴提公升知識儲備 錘煉專業技術 提高就業競爭力,去年年底我們推出...