ComputerEngineeringandApplications计算机工程与应用 2011,47(30) 109 面向统计应用的隐私保护发布 金华,鞠时光,兰丽辉,刘善成 JIN Hua,JU Shiguang,LAN Lihui,LIU Shancheng 江苏大学计算机科学与通信工程学院,数据库与信息安全研究所,江苏镇江212013 School of Computer Science&Telecommunications Engineering,Institute of Database&Information Security.Jiangsu Univer- siyt,Zhenjiang,Jiangsu 212013,China JIN Hua,JU Shiguang。LAN Lihui。et a1.Preserving privacy for statistical application in data publishing.Computer Engi- neering and Applications.2011。47(30):109—112. Abstract:Current privacy preservation models are almost general data publishing methods.Evaluation of information loss Call not reflect the quality of published data well for some speciifc application.This paper proposes a sequence table publishing model based on user interactivity for statistical application.The model considers requirements of users and publishes data based on min—covers of consistent class without separating quasi identifiers and sensitive attributes.Experimental results show that the proposed model has a good query accuracy for mass data sets. Key words:data publishing;privacy preservation;statistical application;user interactivity;sequence table 摘要:现有的隐私保护模型多为通用发布方法,基于信息损失率的评价方法在具体应用中并不能很好地反映数据的发布质 量。面向统计应用提出了一种基于交互的序列表发布模型,结合用户查询需求基于QI相容类最小覆盖,在不割裂QI和敏感属性 的基础上进行数据发布。实验结果表明,该模型对于大数据集的隐私保护发布具有很高的查准率。 关键词:数据发布;隐私保护;统计应用;用户交互;序列表 DOI:10.3778/j.issn.1002.8331.2011.30.030 文章编号:1002—8331(2011)30-0109-04 文献标识码:A 中图分类 ̄:TP311 l引言 表2中进行3种联合查询: 随着信息技术的发展和社会生活的一体化,包含个人信 查询1:年龄大于50岁的平均收入。这一查询正好覆盖了 息数据收集的种类和数量呈指数增长。信息共享成为人们日 表中的第三个等价类,可以查询到准确的结果。其平均收入 常工作、生活和学习中日益普遍的行为。但信息共享中隐私 为¥80 000。 泄露的现象也屡见不鲜。因此要在发布数据的同时进行隐私 查询2:年龄在35岁至55岁之间的收入总和。对于泛化 保护n。 。近年来国外研究者已经提出了一些基于匿名思想的 表2存在两个极端的情况:一是等价类1和等价类3都不满足 隐私保护发布模型,如 匿名模型 ]、L 多样性模型 、t-clos— 时,查询结果即为等价类2的和¥210 000;二是等价类1和等 ness框架[51和个性化匿名模型 等。这些隐私保护模型都为通 价类3都满足时,查询结果即为¥615 000。显然查询结果误 用的数据发布方法,实现通常基于泛化或有损连接的算法 , 差很大。 衡量发布质量都用基于信息度量的信息损失率来表示 。其 表1原始数据 度量方法通常有:最小信息缺损度量、可辨识度量、ILoss和折 Age Zipcode 衷度量。但是基于这些通用信息度量方法的信息损失率,在 35 27 101 ¥54 000 一些具体的应用中并不能很好地反映数据发布的质量,比如 38 27 120 ¥55 000 在一些统计分析中,往往需要进行联合查询,用户关心的是在 40 27 130 ¥56 000 41 27 229 满足隐私保护的前提下其查询的结果需具有很高的准确率, ¥65 000 43 27 269 ¥75 000 只有查询结果准确了,这些发布的数据才有较高的统计应用 47 27 243 ¥70000 价值。下面用一个例子来考察一下隐私保护的联合查询。 52 27 656 ¥8O 000 表1是一个微数据发布的原始数据,对应的表2为该数据 53 27 686 ¥75 000 采用泛化的方法经过3.匿名保护后发布的数据。比如在发布 58 27 635 ¥85 000 基金项目:国家自然科学基金(me National NaRn'al Science Foundation of China under Grant No.60773049);江苏省自然科学基金(No.BK2010192); 教育部博士点基金项目(No.200932271 10005)。 作者简介:金华(1977~),男,博士生,讲师,CCF会员,研究方向为数据库安全、数据隐私保护;鞠时光(1955一),男,博导,教授,博士;兰丽辉 (1976一),女,博士生;刘善成(1988一),男,硕士生。E-mail:jinhua@ujs.edu.ca 收稿日期:2011—07—22;修回日期:2011-09—02 110 2011,47(30) ComputerEngineering andApplications计算机工程与应用 表2基于泛化的3.匿名表 Zipcode Sex Salary 系。因此上述这些方法无法得到用户实际所关心的准确查询 结果。本文提出的基于交互的序列表发布隐私保护模型是在 不割裂QI和SA对应关系的前提下,实现的隐私保护,对于大 数据集具有很高的查准率。本文模型的出发点是基于统计应 m一 2 3 4 6 7 9 用查询的实际需求和对大量实际数据集QI属性的分析作出 的。在实际的应用查询中查询所涉及到的QI属性数目一般为 ∞ 钙钾观 一3个左右,而以往基于匿名的发布模型都是将所有OI属性捆 一” 抛 ne l绑在一起进行匿名的。通过对UCI machiearning reposi. tory的人口统计数据,Adult原始数据集(30 169条记录)进行 统计发现,存在大量本身就满足匿名的数据记录,其所占比例 一M M M F F M M F M 跟QI的数目存在密切的关系。图l为列举所有QI属性组合的 271 271 ¥54 000 ¥55 000 271 272* A一 枷 枷枷枷枷圳枷圳 272 272 276* ¥56 000 ¥65 000 ¥75 000 ¥70 000 ¥80 000 276* 276* ¥75 000 ¥85 000 查询3:女性的最低收入。因为Sex属性为全泛化,因此查 询结果为[¥54 000,¥85 000],造成了巨大的误差。 文献【9]针对上述问题提出了一种基于置换的发布方法。 其具体步骤是:首先采用泛化的方法得到匿名泛化表,然后在 泛化表的等价类中对敏感屙性SA进行置换,最后将泛化的准标 识符QI恢复原值。对表1进行置换方法发布可得到表3。该置 换方法针对上述三种联合查询,得到的结果分别为:¥8O 000, [¥530 000,¥540 000],[¥54 000,¥85 ooo]。该方法虽然在一定 程度上降低了查询的误差,但是如果查询范围跨越了等价类 的界限,由于等价类中的SA已经被置换过了,因此还会存在 较大的误差;而且该方法只适用于数值型的敏感属性,而不适 用于类别型的敏感属性。 表3基于置换的3.匿名表 Salary ¥56 000 ¥54 000 ¥55 000 ¥65 000 ¥70 000 ¥75 000 ¥75 000 ¥80 000 ¥85 000 本文在前人工作的基础上针对统计应用的隐私数据发布 问题进行了进一步研究。其主要贡献如下: (1)通过对大量实际数据集的分析,并结合统计应用查询 的实际需求,总结了QI属性与记录 匿名之间的影响关系。 (2)提出了一种基于交互的序列表发布隐私保护模型,通 过该模型的发布能够在保证隐私保护要求的前提下,最大程 度地满足用户统计应用查询的需求。 (3)给出了发布模型的算法描述,并基于实验,对所提出 的方法进行了验证与分析比较,测试了算法发布数据的质量, 结果表明所提出的方法能够在提供足够的隐私保护度的前提 下,具有更高的查准率,更符合实际应用的需求。 2面向统计应用的序列表发布模型 2.1模型思想 有损连接的方法是将QI和SA分表发布的,其QI属性和 SA之间是被割裂开的,在发布表中不存在QI和SA之间的准 确对应关系。置换方法将等价类中的SA错乱了,因此QI和 SA之间的对应关系也是错乱的。泛化方法将QI进行了泛化, 虽然没有分表发布,但本质上也割裂了QI和SA之间的对应关 平均统计数据,当QI数目为3时,即使k取20,其平均满足比例 也将近85%,而所有QI组合满足比例只有5%,即使k-=2时,也 只有40%。可见将所有QI属性捆绑在一起进行匿名,必然导 致大量记录的OI和SA被割裂。 0O 祠 9O 丑 80 懈 70 6O 暇 50 岛 40 30 l盥I 20 10 0 撰 图1 Adult数据集满足k匿名统计 基于上述分析,本文提出一种序列表的发布模型,将满足k 匿名的记录按照QI屙I生数目由高到低分成一组序列表进行发 布。首先发布包含全部9个QI和SA属性表,且满足k匿名的记 录。然后将剩余的记录按照8个QI和SA属性表,发布满足k匿 名的记录。以此类推,直到QI的数目为3。最后将所有剩余的记 录采用泛化方法进行发布,为了缩小泛化范围,将这些剩余记录 按照3个QI和SA属性表泛化发布,从而提高泛化表的查准率。 序列表的发布过程中,在选取QI时存在较多的QI组合方 式,遍历所有QI组合会导致发布序列表数量的庞大,而且从实 际出发有相当一些组合并没有现实意义。为此本文引入交互 的发布方式,并提出QI相容类和相容类最小覆盖的概念。 定义1(QI相容类)设原 椭 个QI屙陛, f](f∈[1, 棚)为表中第j个QI属性,则与任一用户查询相关的所有 [i] 集合称为一个QI相容类。记作ConClass{Q/[ …,Q, ) ,m 集合中的OI属性数。 定义2(QI相容类最小覆盖)当发布,2个QI和SA属性表 时,能覆盖所有相容类的最少个{ [ …, [ } 组合称为n 个QI的相容类最小覆盖。记作MinCoverQI 。 通过与用户的简单交互,将查询分为感兴趣查询、一般查 询和不感兴趣查询三种情况。将查询映射成QI相容类,根据 用户兴趣确定相容类的优先级顺序,仅考虑前两种查询对应 的相容类,设计GetMinCover算法计算发布n个QI序列表的最 小覆盖。模型基于oI相容类最小覆盖进行序列表发布,既考 虑了用户的查询需求,同时又大大减少了需要发布的序列表 数量。该模型发布的数据能够满足高准确率的查询,但其缺 陷在于所发布的数据存储在多种不同结构的表中,因此在发 布数据的同时应该开发一个相应的查询接口一起发布,这对 于开发人员而言是比较简单的工作。 金华,鞠时光,兰丽辉,等:面向统计应用的隐私保护发布 表4 Adult实验数据集描述 2.2算法描述 根据序列表发布模型的思想,本文设计了一个基于交互 (14) (15) (16) if记录的SA为类别型 将剩余记录进行泛化发布,添加到 else 式的序列表发布算法(IsTA),具体算法描述如下所示: 算法1 GetMinCover (17) (18) 基于置换发布,添加到 end if 输入:原始数据表T,QI属性; QI相容类Jagged ArrayCC(ConClass[1],…,ConClass[i],…); 输出:最小覆盖序Y ̄Jagged ArrayMC(MinCoverQI[3],…, MinCoverQI[d一1])。 流程:(1)foreach Jagged ArrayCC (19)end for (20)end for (21)end while ・ (22)将所有序列表 输出; (2) it]ConClass[i]l<3且为其他相容类的子类 (3) 将ConClass[i]从Jagged ArrayCC中删除; (4) end if (5)end for 3实验结果及分析 本文基于UCI machine learning repository人口统计实际 (6)for(j=d一1,j>2,j..)//j表示记录的QI数目 (7)Temp ArrayCC Jagged ArrayCC 数据集进行实验分析,该数据集共有14种属性,实验选择其中 的9种作为QI属性,Salary作为sA,原数据集中的Salary只有 大于50 000和小于50 000两种,对其按照6个级别进行了重 新分配。具体描述如表4所示。实验环境为Intel Pentium D 3.00 GHz CPU,1 GB内存;XP系统;编程环境为Microsoft Vi. sual Studio 2008编译器。 (8) foreach所有QI数目为j的覆盖组合 (9) 多的ConClass (1O) (11) (12) if MinCoverQI[j][i]可以覆盖Temp ArrayCC中最 将MinCoverQID][i]添加到Jagged ArrayMC; 从Temp ArrayCC中删除被覆盖的ConClass; end if 根据实际用户查询需求,选取感兴趣查询和—般查询:[Age, Education,Sex]、[Race,Education,Sex]、[Age,Occupation]、[Oc— cupation,Native.country1,将其映射为相容类,并获得最小覆 盖,如n=6时,MinCoverQI { 1】,鲫2】,鲫3],Q/j6】,鲫7], 鲫8】}。分别从最终用户所关心的查询准确率和算法执行效 (13) (14) (15) if Temp ArrayCC为空 break; end if 率两个方面比较了基于Incognito的全域泛化、置换和序列表 方法。 (16)end for (17)end for 3.1查准率比较 从最终用户需求的角度出发,在满足隐私保护要求的前 提下,查询准确率是用户最关心的性能发布指标,它反映的是 发布数据的查询结果与原始数据查询结果的完全匹配程度。 它由两部分构成:查询出的记录为原始记录(未泛化记录),这部 分记录的查准率为100%,记作P… ;查询出的记录为泛化记录, 这部分记录的查准率通过两个结果间的距离来反映,本文采用 (18)输出Jagged ArrayMC 算法2 ISTA 输入:原始数据表T,匿名约束k,QI屙陛,SA属性; 最小覆盖序列Jagged ArrayMC; 输出:发布序列表 (Ts。, ,…, --)。 流程:(1)while T≠ (2)for(j=lQI J,J>2,j一) (3) foreach Jagged ArrayMC中的MinCoverQI[j】 文献[10]中的加权泛化距离来表示,记作Pgen 示属性最大泛化距离。则总的查询率尸=P . #i'ige ̄nP一 1 V14. —茬 × ^ 』m (4) (5) (6) (7) foreach T中所有记录 if记录的MinCoverQI[j][i]组合满足k-匿名 将该记录的MinCoverQI[j][i]组合添加到 。; end if 100%,其中WHD…der表示记录的泛化距离,MaxCWHD ̄)表 : + ^ J,” (8) end for ,其中Num为查询所涉及到的所有记录总数, (9) end for (1O)从T中删除被添加的记录; (11)end for Num .啪为查询结果中的未泛化记录数,Hum 为泛化记 (12)foreach Jagged ArrayMC中的MinCoverQI[3] (13)for each T中剩余记录 录数。 图2为k取值为5、10时,泛化方法、置换方法和本文基于 交互的序列表方法查准率实验结果比较。 Computer Engineering andApplications计算机工程与应用 +Generalization Permutation十ISTA +Generalization一-*--Permutation+ISTA ∞∞鲫加∞如∞如加m O 、 得 斟 500 2 000 5 000 10 000 15 000 20 000 25 000 30 000 500 2 000 5 000 10 000 15 000 20 000 25 000 3O 000 选取记录数 选取的记录数 (a)k=5 图2查准率比较 十25.0O (b)k-10 Generalization Permutation—★ISTA —・一Generalization Perm【utation ★ISTA 20 00 垦15 00 10 00 5.0O 0.0O 500 2 000 5 000 10 000 15 000 20 000 25 000 3O 000 ∞\匠曾 500 2 000 5 000 10 000 15 000 20 000 25 000 30 000 记录数 (a)k--5 如 m 0 ∞∞∞∞∞∞∞∞ 记录数 (b)k=10 图3算法执行时间 可以看到,在面向大数据集发布时,序列表方法具有更高 的查询准确率,这是因为泛化或者置换方法都始终要求缸匿名 在所有的QI属性上。当QI属性个数较多时,需要泛化的记录数 直线上升,因此泛化的范围越来越大,甚至某些属性被完全泛 化,从而造成了很大的信自损失,使得查询结果只能很大的范围 描述,误差很大。但是实际上,面向统计分析的应用,其查询范 围很少是在多QI屙陧上进行查询,绝大部分是少量的几个QI属 性间的查询。序列表方法是基于大数据集本身存在大量无需泛 化就满足缸匿名保护的记录,尽可能多地发布这些原始记录,再 通过泛化发布剩余记录。因此本文提出的基于交互式的序列表 发布模型更能贴切实际的应用需求,在满足缸匿名隐私保护的 前提下,大大提高了查询准确率,具有更高的数据发布质量。 的概念,给出了模型的发布算法ISTA。以最终用户所关心的 查询结果准确率来反映数据发布的质量,与泛化和置换方法 进行了实验比较,结果表明,本文的模型能够满足统计应用的 发布需求,具有更高的发布质量。 参考文献: 【1】Fung B C M,Wang Ke,Chen Rui,et a1.Privacy-preserving data publishing:a survye on recent developments[J].ACM Computing Surveys,2010,42(4):1-55. [2]周水庚,李丰,陶宇飞,等.面向数据库应用的隐私保护研究综述[J]. 计算机学报,2009,32(5):847—860. [3]Meyerson A,Williams R.On the complexity of optimal k-ano- nymiy[tC]//Proc of the 23rd ACM Symposium on Principles of DatabaSC Systems.Paris,France:ACM Press,2004:223.228. 3.2执行效率比较 实验分别汁算了k-=5、10时,Generalization、Permutation和 ISTA的算法执行时间,如图3所示。 总的来讲随记录数的增加、 的变大,三种方法的执行时间 [4]Machanavajjhala A,Gehrke J,Kifer D,et a1.L—diversity:privacy beyond k-anonymiy[tC]//Proc of the 22nd International Confer_ ence on Data Engineering.Atlanta,Georgia,USA:IEEE Press,2006: 24—36 都有所增加,但是前两种方法的增加幅度较大,而ISTA增加幅度 较小,而且总的执行时间要明显小于前两种方法。因为当记录 数增加时,ISTA方法需要泛化记录数的相对比例反而减小。大 量的记录不需要进行泛化处理,直接分表发布就可以了。而且 [5]Li Ninghui,Li Tincheng,Venkataasubramanian S.Closeness:a new privacy measure for data publishing[J].IEEE Trans on Knowledge and Data Engineering,2010,22(7):943—956. 它的泛化是基于相容类最小覆盖进行泛化的,无需象Generaliza. tion和Permutation方法那样将9个QI屙l生绑定在一起泛化。此 外,Permutation是在Generalization的基础上得到等价类之后再 将表中的内容恢复原值,再置换,因此庀的执行时间最长。 [6】TAO Yu-fei,CHEN He-kang,XIAO Xiao-kui,et a1.ANGEL:enhanc. ing the utility of generalization for privacy preserving publica— tion[J].IEEE Trans on Knowledge and Data Engineering,2009,21 (7):1073 1087. [7]韩建民,岑婷婷,虞慧群.数据表缸匿名化的微聚集算法研究[J】.电 子学报,2008,36(11):2021—2029. 4结束语 针对现有通用隐私保护模型不能很好适合具体应用的情 况,面向统计应用数据发布进行了研究。通过对实际数据集 进行分析,从用户的实际查询需求出发,提出了基于交互的序 列表发布模型。在不割裂QI和敏感属性之间关系的前提下, [8]兰丽辉,鞠时光,金华,等.数据发布中隐私保护研究综述[J].计算 机应用研究,2010,27(8):2822.2827. 【9]Zhang Qing.Microdata privacy protection through permutation— based approaches[D].North Carolina State Universiy,2008.t [1O]韩建民,于娟,虞慧群,等.面向敏感值的个性化隐私保护[J].电子 学报,2010,38(7):1723—1728. 达到隐私保护发布的目的。基于QI相容类和相容类最小覆盖