新聞中心
一、背景
1.1 隱私泄漏場景
隨著用戶自身隱私保護意識的提升和《數(shù)據(jù)安全法》、《個人信息保護法》等國家法律法規(guī)的陸續(xù)施行,如何在收集、使用用戶數(shù)據(jù)的過程中保障用戶的隱私安全、滿足監(jiān)管要求,成為了挑戰(zhàn)性的問題。在互聯(lián)網(wǎng)廠商的日常業(yè)務(wù)中,常見的用戶隱私泄露場景有:

創(chuàng)新互聯(lián)是一家專業(yè)提供東川企業(yè)網(wǎng)站建設(shè),專注與網(wǎng)站設(shè)計、成都做網(wǎng)站、H5建站、小程序制作等業(yè)務(wù)。10年已為東川眾多企業(yè)、政府機構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)網(wǎng)站設(shè)計公司優(yōu)惠進行中。
(1)數(shù)據(jù)統(tǒng)計查詢: 對用戶數(shù)據(jù)進行統(tǒng)計查詢的結(jié)果直接向客戶返回(如客群洞察等業(yè)務(wù)),存在通過差分攻擊從統(tǒng)計結(jié)果中獲取個體信息的可能性。
例如,某互聯(lián)網(wǎng)公司為外部客戶提供客群畫像服務(wù),客戶分別查詢?nèi)后w A 和群體 B(群體 B 與群體 A 相比,僅多出一名用戶甲)的居住地分布,如果第二次查詢結(jié)果中居住在南京鼓樓的人數(shù)比第一次報告中多 1,那么可以推斷出甲的居住地在南京鼓樓,泄露了甲的隱私信息。
(2)用戶數(shù)據(jù)采集: 手機 APP、移動終端通常會采集多種用戶信息(如地理位置,健康狀態(tài)等)以提升服務(wù)質(zhì)量和用戶體驗。然而,直接采集可能會導(dǎo)致用戶隱私的泄露,同時也受到法律法規(guī)的嚴(yán)格限制。
例如,用戶甲在某??漆t(yī)院看病時打開了位置定位,互聯(lián)網(wǎng)廠商通過收集用戶甲的地理位置,可能會推斷出用戶甲患有某種疾病,從而造成用戶甲的隱私泄露。
因此,對于廣大互聯(lián)網(wǎng)廠商來說,研發(fā)高質(zhì)量的隱私保護服務(wù),以解決統(tǒng)計發(fā)布、數(shù)據(jù)采集等場景中的用戶隱私泄露問題,同時保證數(shù)據(jù)的可用性,從而滿足監(jiān)管要求,為業(yè)務(wù)賦能,成為了重要的工作。
1.2 去標(biāo)識化與差分隱私
傳統(tǒng)的隱私保護手段往往通過解耦、泛化等方法去除用戶記錄的標(biāo)識符信息(如姓名、身份證號、設(shè)備 ID 等),或通過匿名化技術(shù)(如 K-匿名、L-多樣性等)對用戶記錄的準(zhǔn)標(biāo)識符(如街道、郵編等)進行泛化、壓縮,使得攻擊者無法直接或間接地把處理過的數(shù)據(jù)與用戶準(zhǔn)確地重新關(guān)聯(lián)。然而,傳統(tǒng)方法的安全性與攻擊者所掌握的背景知識密切相關(guān),并且難以對隱私保護水平進行定量分析。例如上文中的查詢場景,由于攻擊者有背景知識存在(知道員工甲是否在查詢范圍中),傳統(tǒng)的匿名化方法無法起到預(yù)期的作用。
為解決這些問題,差分隱私(Differential Privacy,簡稱 DP) [1]技術(shù)應(yīng)運而生。該技術(shù)提供了一種嚴(yán)格、可證明的隱私保護手段,且其保護強度不依賴于攻擊者所掌握的背景知識。由于這些特點,差分隱私一經(jīng)提出便得到了學(xué)術(shù)界和工業(yè)界的廣泛認(rèn)可和應(yīng)用。特別地,差分隱私的通用定義為:
則稱算法 M 提供 ε-DP,其中 S 是由算法 M 所有可能的輸出構(gòu)成的集合,參數(shù) ε 稱為隱私預(yù)算。通過調(diào)整隱私預(yù)算 ε 的取值,可以控制差分隱私保護的程度。ε 越小,添加或刪除一條記錄對結(jié)果的影響程度越小,隱私保護強度也就越大,計算結(jié)果的可用性越低,反之亦然。因此,在實際應(yīng)用中,根據(jù)不同場景和需求,設(shè)定合理的 ε 取值以達到隱私保護和數(shù)據(jù)可用性之間的平衡,是差分隱私技術(shù)應(yīng)用的關(guān)鍵問題之一。
1.3 基于差分隱私的保護服務(wù)
為了解決查詢統(tǒng)計以及用戶數(shù)據(jù)采集場景中隱私泄露問題,火山引擎安全研究團隊基于差分隱私技術(shù),依托自研的 Jeddak 數(shù)據(jù)安全隱私計算平臺,分別研發(fā)了面向查詢保護的 DPSQL 服務(wù)(Differentially Private SQL Query Service)以及面向采集保護 LDPDC 服務(wù)(Locally Differentially Private Data Collection Service),在保障查詢和采集過程中用戶隱私的基礎(chǔ)上,實現(xiàn)了數(shù)據(jù)的高可用目標(biāo)。以下分別對兩個服務(wù)進行介紹。
二、DPSQL 查詢保護服務(wù)
DPSQL 采用中心化差分隱私(Centralized Differential Privacy,簡稱 CDP,適用于數(shù)據(jù)管理者可信的場景)[1]模式,以中間件的形式接收 SQL 統(tǒng)計查詢請求,返回滿足差分隱私的查詢結(jié)果。由于現(xiàn)實場景中查詢請求的多樣性,DPSQL 服務(wù)構(gòu)建面臨以下關(guān)鍵挑戰(zhàn):
- 如何兼容不同類型數(shù)據(jù)庫的查詢方言,以降低使用成本、保障客戶的查詢體驗?
- 如何在復(fù)雜 SQL 語句情況下計算合適的差分隱私噪聲,兼顧隱私保護效果與保證數(shù)據(jù)效用?
以下將從服務(wù)架構(gòu)和關(guān)鍵設(shè)計兩個方面闡述 DPSQL 的應(yīng)對措施,并對落地應(yīng)用進行簡要介紹。
2.1 服務(wù)架構(gòu)
DPSQL 服務(wù)包含三個組件:
- DPSQL 核心服務(wù):以原始 SQL 統(tǒng)計查詢語句作為輸入,輸出滿足差分隱私的結(jié)果,其中包括 SQL 解析與重寫、差分隱私加噪等模塊;
- 元數(shù)據(jù)管理服務(wù):維護數(shù)據(jù)庫的元數(shù)據(jù)及數(shù)據(jù)表屬性特征,以便于對數(shù)據(jù)表屬性進行敏感度分析;
- 隱私預(yù)算管理服務(wù):維護每個數(shù)據(jù)表的隱私預(yù)算分配與消耗記錄,提供隱私預(yù)算余量查詢、報表和審計功能,以便于對查詢請求進行隱私控制。
一個典型的查詢請求處理流程如下:
首先,核心服務(wù)接受客戶提交的 SQL 查詢語句,對該語句進行解析和重寫,以便于計算隱私噪聲(如將 AVG 計算改為 SUM/COUNT);
然后,核心服務(wù)調(diào)用元數(shù)據(jù)管理服務(wù),計算重寫后的 SQL 查詢所對應(yīng)的數(shù)據(jù)表敏感度,同時在數(shù)據(jù)庫上執(zhí)行重寫后的 SQL 查詢,得到原始的查詢結(jié)果;
最后,核心服務(wù)調(diào)用隱私預(yù)算管理服務(wù)得到為該查詢分配的隱私預(yù)算,并結(jié)合敏感度在原始的查詢結(jié)果中添加噪聲并返回。
2.2 關(guān)鍵設(shè)計
針對前文所述 SQL 方言兼容以及查詢噪聲計算的挑戰(zhàn),團隊在 DPSQL 中實現(xiàn)了多源異構(gòu)的 SQL 解析與重寫機制,以及自適應(yīng)的 差分隱私加噪機制。
2.2.1 多源異構(gòu)數(shù)據(jù)庫 SQL 解析與重寫機制
- 采用靈活可擴展的 SQL 解析機制(parser),可支持多種 SQL 方言,與傳統(tǒng)數(shù)據(jù)庫查詢無差別。
- 采用定制化的 SQL 重寫機制(rewriter),可支持多種語法特征,例如聚合函數(shù)、多層子查詢、join、group by 等。
2.2.2 自適應(yīng)的差分隱私加噪機制
- 根據(jù) SQL 查詢包含的聚合函數(shù)類型,自適應(yīng)地為查詢分配隱私預(yù)算,降低隱私預(yù)算的消耗;
- 根據(jù) SQL 查詢的聚合函數(shù)類型,高效分析聚合函數(shù)在多表鏈接查詢、多層子查詢等場景下的敏感度,分配合適的差分隱私加噪算法,提高服務(wù)性能和查詢結(jié)果的可用性。
2.3 落地應(yīng)用
目前,DPSQL 服務(wù)已接入火山引擎的客戶數(shù)據(jù)平臺,為銀行、車企、零售等行業(yè)客戶提供隱私保護的用戶群體洞察服務(wù)。
三、 LDPDC 采集保護服務(wù)
LDPDC 服務(wù)以本地化差分隱私(Local Differential Privacy)[2]為核心技術(shù),為用戶提供端上的 LDP-SDK,實現(xiàn)端上的數(shù)據(jù)的擾動處理。同時,配套提供了服務(wù)端的計算服務(wù),對 LDP-SDK 采集的數(shù)據(jù)進行匯總分析。同樣地,LDPDC 面臨以下挑戰(zhàn):
- 如何在滿足用戶個性化隱私保護需求的同時,降低通信開銷?
- 如何針對分析任務(wù),降低采集數(shù)據(jù)中的噪聲,提高數(shù)據(jù)可用性?
同樣的,以下從服務(wù)架構(gòu)和關(guān)鍵設(shè)計兩個方面闡述 LDPDC 的應(yīng)對措施,并對落地應(yīng)用進行簡要介紹。
3.1 服務(wù)架構(gòu)
LDPDC 服務(wù)兩個模塊構(gòu)成:
客戶端:內(nèi)置 LDP-SDK,包含個性化的擾動機制,用以接受用戶個性化的隱私保護需求設(shè)置,并據(jù)此對用戶數(shù)據(jù)進行擾動處理,從而為用戶提供差分隱私保護;
服務(wù)端:收集匯總客戶端傳輸?shù)臄?shù)據(jù),提供定制化的降噪聚合機制,用于對匯總的數(shù)據(jù)進行降噪聚合處理,提高數(shù)據(jù)可用性。處理后的數(shù)據(jù)可應(yīng)用于推薦系統(tǒng)、統(tǒng)計查詢、機器學(xué)習(xí)等數(shù)據(jù)分析服務(wù);
3.2 關(guān)鍵設(shè)計
針對端上擾動和匯聚噪聲降低的挑戰(zhàn),LDPDC 設(shè)計了個性化的擾動機制和定制化的降噪聚合機制。
3.2.1 個性化的擾動機制
- 為用戶提供隱私保護強度配置選項(低、中、高三擋),滿足用戶對自身數(shù)據(jù)的個性化隱私保護需求。
- 提供高效的數(shù)據(jù)壓縮和交互機制(如 GRR 機制、OLH 機制等),減少客戶端與服務(wù)端之間的信息傳輸量和交互次數(shù),降低通信開銷。
3.2.2 定制化的降噪聚合機制
- 針對不同類型的個人數(shù)據(jù),使用定制化的降噪聚合機制,以保證所收集到數(shù)據(jù)的高效用。
- 提供無偏性處理機制,使得加噪聚合后的統(tǒng)計信息理論上等于真實數(shù)據(jù)的統(tǒng)計信息。
- 提供一致性處理機制,使得聚合后的統(tǒng)計信息能夠與公開的背景知識保持一致,如將小于 0 的頻數(shù)置為 0 等。
3.3 落地應(yīng)用
目前,LDPDC 服務(wù)將開始在地理位置采集等服務(wù)中進行應(yīng)用,輔助業(yè)務(wù)部門對于用戶信息采集進行合規(guī)治理,為廣告推薦等服務(wù)提供策略支持。
四、結(jié)語
DPSQL 服務(wù)和 LDPDC 服務(wù)是差分隱私技術(shù)在火山引擎實際應(yīng)用場景中的成功實踐。未來,差分隱私相關(guān)服務(wù)將出現(xiàn)在火山引擎云安全系列產(chǎn)品矩陣中,服務(wù)于火山云客戶?;鹕揭姘踩芯繄F隊將繼續(xù)探索業(yè)務(wù)場景,深入挖掘用戶數(shù)據(jù)隱私保護需求,研究前沿隱私保護技術(shù)的落地應(yīng)用,為用戶的數(shù)據(jù)隱私安全提供強力保障。
引用文獻
[1] Dwork C., Mcsherry F., Nissim K., et al. Calibrating Noise to Sensitivity in Private Data Analysis [A]. Theory of Cryptography, Third Theory of Cryptography Conference, TCC 2006, New York, NY, USA, March 4-7, 2006, Proceedings: 265–284.
[2] Kasiviswanathan S.P., Lee H.K., Nissim K., et al. What Can We Learn Privately? [A]. 49th Annual IEEE Symposium on Foundations of Computer Science, FOCS 2008, October 25-28, 2008, Philadelphia, PA, USA: 531–540.
文章題目:差分隱私技術(shù)在火山引擎的應(yīng)用實踐
文章出自:http://www.dlmjj.cn/article/ccsjejh.html


咨詢
建站咨詢
