網(wǎng)絡(luò)數(shù)據(jù)隱私保護，阿里工程師怎么做？

callmewhy 發(fā)布于2019-06-21 16:49 / 3198人閱讀

摘要：針對網(wǎng)絡(luò)數(shù)據(jù)中的隱私保護問題，浙江大學加州大學戴維斯分校和阿里云團隊，共同發(fā)表了最新的研究成果，這項成果也已論文形式收錄在中。

個人數(shù)據(jù)挖掘和個人隱私保護，并非魚與熊掌，可視分析的技術(shù)手段能夠幫助我們保護個人隱私數(shù)據(jù)，避免后續(xù)的數(shù)據(jù)挖掘暴露隱私的同時，平衡數(shù)據(jù)質(zhì)量發(fā)生的變化，減少對后續(xù)數(shù)據(jù)挖掘的影響。針對網(wǎng)絡(luò)數(shù)據(jù)中的隱私保護問題，浙江大學、加州大學戴維斯分校和阿里云DataV團隊，共同發(fā)表了最新的研究成果《GraphProtector: a Visual Interface for Employing andAssessing Multiple Privacy Preserving Graph Algorithms》【1】，這項成果也已論文形式收錄在IEEE TVCG中。

背景

關(guān)系描述了人與人之間的互相聯(lián)系，它可以是一種靜態(tài)的連接，如“親屬”、“朋友”等，也可以是動態(tài)的，通過動作將其關(guān)聯(lián)，例如“通話”、“郵件”等。科技的進步使得人與人之間的聯(lián)系更為密切，關(guān)系變得更復雜，進而形成了一張偌大的網(wǎng)，因此，我們也把這類數(shù)據(jù)稱之為網(wǎng)絡(luò)數(shù)據(jù)（或圖數(shù)據(jù)）。網(wǎng)絡(luò)數(shù)據(jù)的研究被廣泛應用于各個領(lǐng)域，它能夠幫助識別社團、劃分人群，定位特殊人物、研究信息傳播、追蹤欺詐行為等。但在對這類數(shù)據(jù)進行研究的同時，伴隨著巨大的隱私泄露風險。為了能夠在探索數(shù)據(jù)背后巨大價值的同時，保護用戶的隱私不被泄露，我們提出了一個能夠應對網(wǎng)絡(luò)數(shù)據(jù)隱私攻擊，提供有效隱私保護的可視分析系統(tǒng)——GraphProtector，它不僅能夠更全面、更細致地保護用戶隱私，同時也能夠兼顧數(shù)據(jù)的實用性，保證數(shù)據(jù)的質(zhì)量。

隱私保護方法和流程

針對網(wǎng)絡(luò)數(shù)據(jù)的隱私保護相較于一般數(shù)據(jù)而言，更為困難，原因主要有以下兩點：

1) 網(wǎng)絡(luò)數(shù)據(jù)自身結(jié)構(gòu)特征繁多，例如，度數(shù)分布，最短路徑分布，接近中心性分布等，任意的結(jié)構(gòu)特征都有可能成為攻擊者的攻擊入口，可謂是防不勝防；

2) 網(wǎng)絡(luò)數(shù)據(jù)中節(jié)點和邊都攜帶了大量的數(shù)據(jù)，這些數(shù)據(jù)無疑給了攻擊者更多的機會去識別用戶現(xiàn)實世界中的身份。

因此，想要完全解決圖數(shù)據(jù)中的隱私問題，將會是一個非常復雜和困難的工作。在當前階段，我們將研究的重點放在了網(wǎng)絡(luò)數(shù)據(jù)的結(jié)構(gòu)特征上，通過修改圖的結(jié)構(gòu)特征保護用戶的身份不被泄露。其中，之所以選擇結(jié)構(gòu)特征作為著手點，最重要的原因是結(jié)構(gòu)特征是網(wǎng)絡(luò)數(shù)據(jù)的基礎(chǔ)屬性，解決結(jié)構(gòu)特征暴露的隱私風險是是解決隱私暴露的必經(jīng)之路。在這次的研究中，我們先以以下三種結(jié)構(gòu)特征作為示例：

度數(shù)：節(jié)點度數(shù)是和它關(guān)聯(lián)的邊的總數(shù)（如圖二中，圖c表格中Degree展示了原始圖圖a的度數(shù)分布）；

中心指紋：是指在最長路徑i的限制下，圖中普通節(jié)點和中心節(jié)點們之間的最短路徑所形成的向量。這里為了簡化復雜度，我們?nèi)?b>i設(shè)為了1，即普通節(jié)點和中心節(jié)點們是否存在相鄰關(guān)系作為節(jié)點的中心指紋（如圖二中，圖c中HubFingerprint為選取了原始圖圖a中4號節(jié)點和7號節(jié)點作為中心的的中心指紋分布）；

子圖：指節(jié)點集和邊集分別是某一圖的節(jié)點集的子集和邊集的子集的圖（如圖二中，圖b為原始圖圖a的子圖）；

前人的研究提供了多種隱私匿名保護思路，如k-匿名、聚類和查分隱私等等，我們在研究中選取了k-匿名模型作為我們保護的基本方法。k-匿名模型是最經(jīng)典的語義匿名模型之一，在隱私保護領(lǐng)域得到了廣泛的應用，在這個模型中，它通過準標識符將數(shù)據(jù)分成若干個等價類（例如度數(shù)相同的節(jié)點形成了一個度數(shù)等價類，中心指紋相同的節(jié)點形成了一個中心指紋等價類，結(jié)構(gòu)相同的子圖形成了一個子圖等價類），并要求每個等價類中至少存在k個數(shù)據(jù)記錄（例如當k為2時，k-匿名模型要求每一個度數(shù)等價類中至少存在2個節(jié)點），對于這k個數(shù)據(jù)記錄中的任意一條，被識別出的概率為1/k，從而使得攻擊者無法確定他們的攻擊目標。

通過前人的研究分析我們得知，沒有任何一種隱私保護方法能夠抵抗所有的攻擊，k-匿名模型是眾多方法中最為強大的一種，它在一定條件下可以抵抗大部分的隱私攻擊，并且對于數(shù)據(jù)質(zhì)量傷害的程度較小，使得經(jīng)過隱私匿名保護后的數(shù)據(jù)仍然能夠應用于后面的分析和研究中。

在k-匿名模型的基礎(chǔ)上，為了盡可能地減少對數(shù)據(jù)質(zhì)量的損害，我們采取了保持節(jié)點個數(shù)不變，僅增加或減少邊的策略。同時，在目前我們的研究中，為了減少保護方法之間的沖突以及降低計算的復雜度，我們首先將研究的重點放在了增加邊的策略上。

上文中多次提到了“數(shù)據(jù)質(zhì)量”，保證數(shù)據(jù)質(zhì)量是我們隱私保護過程中的一個重要目標（試想，如果不考慮數(shù)據(jù)質(zhì)量，我們完全可以同化所有的用戶數(shù)據(jù)，這樣一來攻擊者將無法定位到攻擊目標，但這樣的數(shù)據(jù)卻失去了研究意義）。在使用k-匿名模型增加邊的方法來保護數(shù)據(jù)隱私時，有兩種處理策略：

1）為當前等價類中的元素增加適當?shù)倪叄沟眠@些元素全部轉(zhuǎn)移到其他等價類中，使得當前等價類不存在，也就不會存在隱私暴露風險；

2）為其他等價類中元素增加適當?shù)倪叄蛊渲械脑剞D(zhuǎn)移到當前等價類中，從而使當前等價類滿足k-匿名模型的要求。基于保護數(shù)據(jù)質(zhì)量的目的，對于這兩種策略，我們將計算它們的代價，及增加邊的數(shù)量，采取代價較小的的方法執(zhí)行。我們設(shè)計了詳細的算法來實現(xiàn)這一目標。另一方面，對于數(shù)據(jù)質(zhì)量的變化，系統(tǒng)提供若干的實用性指標，如度數(shù)、最短路徑等，我們將在數(shù)據(jù)處理中以及數(shù)據(jù)處理后呈現(xiàn)這些指標的變化，幫助使用者進行決策，從而能夠采取“最優(yōu)”的解決方案。

下圖展現(xiàn)了采用GraphProtector進行網(wǎng)絡(luò)數(shù)據(jù)隱私保護的流程：

數(shù)據(jù)導入：首先，導入待保護的網(wǎng)絡(luò)數(shù)據(jù)，系統(tǒng)將使用節(jié)點連接圖的形式呈現(xiàn)原始數(shù)據(jù)。此外，系統(tǒng)還提供一些原始數(shù)據(jù)的結(jié)構(gòu)特征分布供使用者觀察和探索。

優(yōu)先級制定及評估指標選取：在這個階段，通過觀察原始數(shù)據(jù)的結(jié)構(gòu)特征分布，使用者對節(jié)點的優(yōu)先級進行排序，優(yōu)先級排序決定了節(jié)點的處理順序，排序較高的節(jié)點將會被優(yōu)先處理。此外，使用者在優(yōu)先級排序時可以鎖定一些節(jié)點，被鎖定的節(jié)點（一般為比較重要的節(jié)點，如核心人物等）將不會參與到處理過程中，因此在隱私保護處理前后，它的關(guān)聯(lián)關(guān)系將不發(fā)生改變。在這個階段，使用者還需要選擇關(guān)注的實用性指標，在數(shù)據(jù)處理前后，系統(tǒng)將呈現(xiàn)這些指標的變化，使用者可以通過它們來評估數(shù)據(jù)質(zhì)量的變化。

隱私保護處理：經(jīng)過以上步驟，我們進入了隱私保護的核心步驟，系統(tǒng)在這個階段提供多個保護器（Protector）用來進行隱私保護處理。每一個保護器僅針對一種結(jié)構(gòu)特征，使用者可以按照自己的需求選擇多個保護器進行組合，從而實現(xiàn)更為全面和細致的保護。

這些保護器的使用方法將統(tǒng)一遵循圖三種c圖所示的流程，首先，根據(jù)用戶自定義的k值，保護器會去識別數(shù)據(jù)中風險，并將風險通過一定的視覺編碼呈現(xiàn)給使用者。然后，使用者可以制定一個或多個保護方案（即保護目標），對于每一個制定的方案，使用者都可以查看處理前后數(shù)據(jù)實用性指標的變化。接著，使用者對比不同方案的處理結(jié)果，觀察是否達到了隱私保護的目的，以及數(shù)據(jù)質(zhì)量變化是否在可接受的范圍之內(nèi)，最終選擇“最優(yōu)”的方案進行執(zhí)行。

導出數(shù)據(jù)：最后，當數(shù)據(jù)處理到滿意的程度時，使用者可以選擇導出經(jīng)過處理的的數(shù)據(jù)和數(shù)據(jù)的節(jié)點鏈接圖，以及指標變化情況。

系統(tǒng)設(shè)計

下面將向大家詳細介紹GraphProtector 系統(tǒng)的可視化及交互設(shè)計。系統(tǒng)主要圍繞兩個界面進行（圖一和圖四）：

圖四展示了數(shù)據(jù)導入（圖四a）和優(yōu)先級制定（圖四b）及評估指標選取（圖四c）階段的視圖：

節(jié)點鏈接圖視圖（圖四a）：主要通過節(jié)點鏈接圖以及力引導布局形式展現(xiàn)了原始數(shù)據(jù)的分布，在數(shù)據(jù)處理過程中，用戶可以調(diào)出該視圖查看數(shù)據(jù)變化。

優(yōu)先級視圖（圖四b）：使用者可以通過結(jié)構(gòu)特征優(yōu)先級的分布，在坐標軸上選取節(jié)點屬性的范圍，從而制定節(jié)點的優(yōu)先級。視圖右側(cè)的每一個區(qū)塊都代表了一個節(jié)點集合，其中羅列了該集合中節(jié)點的屬性以及該集合中節(jié)點的個數(shù)，使用者通過拖拽交互來調(diào)整集合的優(yōu)先級順序，以及選擇是否鎖定某些集合的節(jié)點。

實用性視圖（圖四c）：使用者通過這個視圖，選取所關(guān)注的數(shù)據(jù)質(zhì)量評估指標，這些指標的變化將會在處理前后呈現(xiàn)出來。

圖一為隱私保護處理（圖一a,b）和數(shù)據(jù)導出階段的視圖：

保護器視圖（圖a）：主要用于風險定義，風險識別，風險處理和數(shù)據(jù)評估。這些保護器具有統(tǒng)一的處理流程（如下圖五所示），分別通過保護器中的以下控件完成：

?●??全局k值輸入框：快速設(shè)定保護器內(nèi)的k值；
?●??“半運行”按鈕：模擬執(zhí)行制定方案的運行結(jié)果，并記錄數(shù)據(jù)變化；
?●??“記錄”按鈕：記錄一個方案，方便后續(xù)對比不同方案的執(zhí)行效果；
?●??“方案相冊”按鈕：展現(xiàn)所有被記錄的方案以及這些方案被執(zhí)行后的實用性指標變化，方便使用者進行比較，從而選取“最優(yōu)”方案執(zhí)行；

目前系統(tǒng)設(shè)計了三種保護器，分別為度數(shù)保護器，中心指紋保護器和子圖保護器。

度數(shù)保護器

我們采用柱狀圖可視化了數(shù)據(jù)中的節(jié)點度數(shù)分布，橫軸編碼度數(shù)，按照從小到大的順序排列，此外，在橫軸上，我們還設(shè)計了一個“度數(shù)跳躍”符來編碼度數(shù)分布之間的跳躍情況。縱軸編碼該度數(shù)等價類中的節(jié)點個數(shù)，藍色和灰色矩形分別編碼鎖定和未鎖定的節(jié)點個數(shù)。

為了減少用戶的認知和交互負擔，我們設(shè)定了縱軸上的最高值，這個值是我們認為的安全值，即當度數(shù)等價類中的節(jié)點個數(shù)超過這個值時，這個等價類一般是安全的，所以當節(jié)點度數(shù)高于這個值時，我們可以暫且忽略其具體值，而將重點放在那些不滿足k值的節(jié)點上。系統(tǒng)用虛線來編碼整體k值（在系統(tǒng)中，我們稱之為k線），輔助用戶判斷k值和節(jié)點個數(shù)的關(guān)系，從而定位風險所在。使用者除了可以通過滑動坐標軸上滑塊來調(diào)整當前保護器內(nèi)的整體k值外，還可以通過刷選度數(shù)范圍，調(diào)整范圍內(nèi)的局部k值（系統(tǒng)中用實線編碼），制定更加細致的隱私保護方案。

中心指紋保護器

中心指紋保護器分為兩個部分，左側(cè)為中心節(jié)點選取面板，右側(cè)為中心指紋樹。中心節(jié)點選取面板呈現(xiàn)了所有節(jié)點的結(jié)構(gòu)信息，用戶通過這個面板，選取重要的節(jié)點作為中心節(jié)點。右側(cè)中心指紋樹將根據(jù)用戶的選擇進行實時響應，樹上每個節(jié)點代表了一個中心指紋等價類，即這個等價類中的節(jié)點具有相同的中心指紋，樹中深度為i+1的等價類節(jié)點表示與i個中心節(jié)點相鄰，所以若n為中心節(jié)點的個數(shù)，那么樹的高度為n+1。

中心指紋樹上的每一個節(jié)點編碼與度數(shù)等價中的編碼保持一致，虛線表示當前保護器設(shè)定的整體k值，藍色和灰色舉行分別編碼鎖定和未鎖定的節(jié)點個數(shù)，右側(cè)從上到下排列的i個矩形分別代表i個中心節(jié)點，順序和左側(cè)中心節(jié)點選取面板中中心節(jié)點的順序保持一致，只有與當前節(jié)點等價類關(guān)聯(lián)的中心節(jié)點所代表的矩形將才會被繪制出來，通過這種編碼方式表達每個中心指紋等價類的指紋信息。

子圖保護模塊

子圖保護器分為三個部分，左側(cè)為子圖設(shè)定面板，使用者通過這個面板設(shè)定子圖，子圖可以來自于一些經(jīng)典拓撲結(jié)構(gòu)，如形狀結(jié)構(gòu)，環(huán)形結(jié)構(gòu)等，也支持從外部導入。在子圖設(shè)定面板中，系統(tǒng)同樣通過灰色矩形的個數(shù)編碼識別得到的子圖的個數(shù)。中間面板為子圖識別面板，將可視化圖中識別得到的當前子圖結(jié)構(gòu)和相似子圖結(jié)構(gòu)，當識別得到的當前子圖結(jié)構(gòu)不滿足k值時，用戶可以選擇將相似的子圖補全成為當前的子圖。右側(cè)子圖結(jié)構(gòu)展示面板，使用者可以通過與子圖識別面板的交互查看子圖在圖中的位置。

歷史記錄視圖

歷史記錄視圖使用時間軸的形式可視化了每一步隱私保護操作后數(shù)據(jù)的變化。在每一個歷史記錄中，標題描述了該步驟采用的是哪種類型的保護器，記錄左側(cè)我們采用CDE（curvedensity estimates）的方法可視化了圖的原始分布（即圖四a的節(jié)點連接圖），邊越多顏色越深。在CDE得到的分布圖上，我們使用深色的直線表示當前處理所增加的邊，當用戶鼠標移動到一個歷史記錄時，該步所增加的邊將在圖四a中高亮出來。右側(cè)則呈現(xiàn)了數(shù)據(jù)指標的變化，包括指標的當前值和變化量，通過紅綠顏色編碼指標的增加和遞減，而對于不能計算增量的指標，我們用藍色進行編碼。

云服務器99元拼團購！拉新還可贏現(xiàn)金紅包！300萬等你瓜分！
馬上一鍵開團贏紅包： http://click.aliyun.com/m/100...

本文作者：關(guān)會華

閱讀原文

本文來自云棲社區(qū)合作伙伴“阿里技術(shù)”，

GPU云服務器云服務器信息安全等級保護怎么做系統(tǒng)上云服務器了怎么做等級保護網(wǎng)絡(luò)數(shù)據(jù)分析怎么做怎么與阿里云服務器做數(shù)據(jù)傳輸

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/11412.html

發(fā)表評論

登陸后可評論

0條評論

callmewhy

男|高級講師

我要關(guān)注我要私信

TA的文章

普通大一學生的自我反思

閱讀 2335·2021-11-15 11:38
買了云主機還要買什么-我需要云存儲為什么要先買云主機？

閱讀 3544·2021-09-22 15:16
Hostdare：CN2 GIA線路9折優(yōu)惠，KVM架構(gòu)，洛杉磯Cera機房，年付$44.99起

閱讀 1187·2021-09-10 11:11
C++多態(tài)底層刨析(虛函數(shù)指針，虛函數(shù)表)

閱讀 3156·2021-09-10 10:51
Web 性能優(yōu)化：21種優(yōu)化CSS和加快網(wǎng)站速度的方法

閱讀 2920·2019-08-30 15:56
用鍵盤8個鍵演奏一首蒲公英的約定送給996的自己或者一首月亮代表我的心給七夕的她

閱讀 2774·2019-08-30 15:44
小番茄的CSS筆記匯總（二）

閱讀 3185·2019-08-28 18:28
每日 30 秒 ? 判斷是否為頁面底部

閱讀 3525·2019-08-26 13:36

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

網(wǎng)絡(luò)數(shù)據(jù)隱私保護，阿里工程師怎么做？

背景

隱私保護方法和流程

系統(tǒng)設(shè)計

度數(shù)保護器

中心指紋保護器

子圖保護模塊

歷史記錄視圖

相關(guān)文章

阿里云推企業(yè)云安全架構(gòu) 11層防護武裝到“牙齒”

人工智能融入“云”端

孔明說天有不測風云，我說無災備不上云

發(fā)表評論

0條評論

callmewhy

男|高級講師

TA的文章

普通大一學生的自我反思

買了云主機還要買什么-我需要云存儲為什么要先買云主機？

Hostdare：CN2 GIA線路9折優(yōu)惠，KVM架構(gòu)，洛杉磯Cera機房，年付$44.99起

C++多態(tài)底層刨析(虛函數(shù)指針，虛函數(shù)表)

Web 性能優(yōu)化：21種優(yōu)化CSS和加快網(wǎng)站速度的方法

用鍵盤8個鍵演奏一首蒲公英的約定送給996的自己或者一首月亮代表我的心給七夕的她

小番茄的CSS筆記匯總（二）

每日 30 秒 ? 判斷是否為頁面底部

最新活動