发布信息

一种基于隐私保护的数据处理方法、装置以及电子设备与流程

作者:admin      2022-07-13 09:08:06     675



计算;推算;计数设备的制造及其应用技术1.本发明涉及计算机领域,特别是涉及一种基于隐私保护的数据处理方法、装置以及电子设备。背景技术:2.随着科学技术的发展,对于数据的研究逐渐受到人们的关注。例如,科研人员利用以科学研究为目的的数据发布平台上的数据,研究变量之间影响关系。在上述数据发布场景中,可能会存在数据隐私泄露的问题。3.通常会对数据进行隐私保护的处理,用以降低数据隐私泄露的情况。然而,目前会对数据进行隐私保护的处理方式,会导致数据对于科学研究的价值大幅度降低,也即经过隐私保护的数据的可用性较低。技术实现要素:4.有鉴于此,本技术提供一种基于隐私保护的数据处理方法、装置以及电子设备,用以提高经过隐私保护的数据的可用性。5.需要说明地是,本技术中对数据的获取和处理等过程,均是在数据所有者知情的情况下进行的,均是经过数据所有者同意的前提下进行的。6.第一方面,本技术提供一种基于隐私保护的数据处理方法,该方法包括:7.获取原始数据;其中,原始数据的取值仅包括第一取值和第二取值两种,原始数据包括案例组的原始数据和对照组的原始数据;8.确定原始数据的卡方值;9.根据原始数据的卡方值,确定噪声数据的卡方值的取值范围;其中,噪声数据的取值仅包括第一取值和第二取值两种,噪声数据包括案例组的噪声数据和对照组的噪声数据,案例组的噪声数据是对案例组的原始数据进行加噪得到的,对照组的噪声数据是对对照组的原始数据进行加噪得到的;原始数据的卡方值和临界值的大小关系,和噪声数据的卡方值和临界值的大小关系是相同的;噪声数据的卡方值小于原始数据的卡方值;10.根据原始数据的卡方值和噪声数据的卡方值的取值范围,确定第一噪声频数的取值范围;其中,第一噪声频数为案例组的噪声数据中取值为第一取值的数目;11.根据第一噪声频数的取值范围,以及原始数据和噪声数据之间的差异,确定第一噪声频数的取值;12.基于第一噪声频数的取值,分别对案例组的原始数据和对照组的原始数据进行加噪处理,得到案例组的噪声数据和对照组的噪声数据。13.在一种可能的实现方式中,确定原始数据的卡方值,具体包括:14.根据第一原始频数、第二原始频数、第一数目和第二数目,确定原始数据的卡方值;其中,第一原始频数为案例组的原始数据中取值为第一取值的数目,第二原始频数为案例组的原始数据中取值为第二取值的数目,第一数目为第一原始频数和对照组的原始数据中取值为第一取值的数目之和,第二数目为第二原始频数b对照组的原始数据中取值为第二取值的数目之和。15.在一种可能的实现方式中,临界值是查询卡方分布临界值表得到的。16.在一种可能的实现方式中,根据第一噪声频数的取值范围以及原始数据和噪声数据之间的差异,确定第一噪声频数的取值,具体包括:17.在第一噪声频数的取值范围内确定第一噪声频数的数值,以使原始数据和噪声数据之间的差异最大。18.在一种可能的实现方式中,原始数据和噪声数据之间的差异具体包括原始数据和噪声数据之间期望估计误差。19.在一种可能的实现方式中,在基于第一噪声频数的取值,分别对案例组的原始数据和对照组的原始数据进行加噪处理,得到案例组的噪声数据和对照组的噪声数据之后,方法还包括:20.对案例组的噪声数据和对照组的噪声数据进行后处理,后处理包括以下中的至少一种:对数据进行取整,或者根据精度需求对数据进行四舍五入运算。21.在一种可能的实现方式中,该方法还包括:22.获取身份数据,其中,身份数据用于标识个体的身份;23.对身份数据进行模糊处理,其中,模糊处理包括:对身份数据进行去标识化处理,或者对身份数据进行泛化处理,泛化处理为利用预设字符代替多个身份数据中的差异字符。24.第二方面,本技术提供一种基于隐私保护的数据处理装置,该装置包括:25.数据获取单元,用于获取原始数据,其中,原始数据的取值仅包括第一取值和第二取值两种,原始数据包括案例组的原始数据和对照组的原始数据;26.第一确定单元,用于确定原始数据的卡方值;27.第二确定单元,用于根据原始数据的卡方值,确定噪声数据的卡方值的取值范围;其中,噪声数据的取值仅包括第一取值和第二取值两种,噪声数据包括案例组的噪声数据和对照组的噪声数据,案例组的噪声数据是对案例组的原始数据进行加噪得到的,对照组的噪声数据是对对照组的原始数据进行加噪得到的;原始数据的卡方值和临界值的大小关系,和噪声数据的卡方值和临界值的大小关系是相同的;噪声数据的卡方值小于原始数据的卡方值;28.第三确定单元,用于根据原始数据的卡方值和噪声数据的卡方值的取值范围,确定第一噪声频数的取值范围,其中,第一噪声频数为案例组的噪声数据中取值为第一取值的数目;29.第四确定单元,用于根据第一噪声频数的取值范围,以及原始数据和噪声数据之间的差异,确定第一噪声频数的取值;30.加噪处理单元,用于基于第一噪声频数的取值,分别对案例组的原始数据和对照组的原始数据进行加噪处理,得到案例组的噪声数据和对照组的噪声数据。31.第三方面,本技术提供一种电子设备,该电子设备包括处理器和存储器,其中,存储器存储有代码,处理器用于调用存储器中存储的代码,以执行上述任一的方法。32.第四方面,本技术提供一种计算机可读存储介质,该计算机可读存储介质用于存储计算机程序,计算机程序用于执行上述任一的方法。附图说明33.图1为本技术实施例提供的基于隐私保护的数据处理方法的流程图;34.图2为本技术实施例提供的基于隐私保护的数据处理装置的结构示意图;35.图3为本技术实施例提供的电子设备的结构示意图。具体实施方式36.为了便于理解本技术实施例提供的技术方案,下面结合附图对本技术实施例提供的一种基于隐私保护的数据处理方法、装置以及电子设备进行说明。37.虽然附图中显示了本技术的示例性实施例,然而应当理解,可以以各种形式实现本技术而不应被这里阐述的实施例所限制。基于本技术中的实施例,本领域技术人员在没有作出创造性贡献前提下所获得的其他实施例,都属于本技术的保护范围。38.在本技术的权利要求书和说明书以及说明书附图中,术语“包括”和“具有”以及它们的任何变形,目的在于覆盖不排他的包含。39.在以科学研究为目的的医学数据、人口统计数据等数据发布平台中,通常会发布调查数据或者提供数据查询接口,让研究者通过查询到的统计数据,或者下载到的原始数据,进行统计学差异分析研究,例如,研究定类变量或定量变量之间的影响关系。然而在此类数据发布场景中,存在一些数据隐私问题,比如攻击者可以结合统计数据以及相关背景知识,进行差分攻击,从而判断某个个体是否存在于该数据库中;或者通过原始数据与其他数据库联合进行推理攻击属性攻击等;甚至有些数据库虽然仅公布统计数据的查询接口,但仍然会受到爬虫攻击,导致用户原始数据被爬取。40.在这种数据发布场景下,研究者们想要获取数据,而数据提供方则需要考虑到数据的隐私保护程度。此时密码学无法发挥其优势,而权限访问控制则限制了研究数据获取的门槛,相比之下,差分隐私采用对数据适当扰动来保护数据隐私,在一定的隐私容忍范围内,给原始数据添加满足拉普拉斯分布的噪声,更适合用作发布场景下的数据保护。41.通常会对数据进行隐私保护的处理,用以降低数据隐私泄露的情况。然而,目前会对数据进行隐私保护的处理方式,会导致数据对于科学研究的价值大幅度降低,也即经过隐私保护的数据的可用性较低。42.基于此,在申请人提供的本技术的实施例中,首先获取原始数据,该原始数据的取值仅包括第一取值和第二取值两种,原始数据包括案例组的原始数据和对照组的原始数据,也即原始数据为二分类数据;在确定原始数据的卡方值之后,根据原始数据的卡方值,确定噪声数据的卡方值的取值范围;其中,噪声数据的取值仅包括第一取值和第二取值两种,噪声数据包括案例组的噪声数据和对照组的噪声数据,案例组的噪声数据是对案例组的原始数据进行加噪得到的,对照组的噪声数据是对对照组的原始数据进行加噪得到的;原始数据的卡方值和临界值的大小关系,和噪声数据的卡方值和临界值的大小关系是相同的;噪声数据的卡方值小于原始数据的卡方值;然后根据原始数据的卡方值和噪声数据的卡方值的取值范围,确定第一噪声频数的取值范围,该第一噪声频数为案例组的噪声数据中取值为第一取值的数目;之后根据第一噪声频数的取值范围,以及原始数据和噪声数据之间的差异,确定第一噪声频数的取值;最后基于第一噪声频数的取值,分别对案例组的原始数据和对照组的原始数据进行加噪处理,得到案例组的噪声数据和对照组的噪声数据。43.采用本技术实施例的技术方案,对原始数据(二分类数据)进行加噪得噪声数据实现隐私保护,并且在隐私保护处理的过程中考虑了数据实用性的问题。具体地,通过确定噪声数据的卡方值的取值范围,使得噪声数据和原始数据的统计意义保持一致;利用原始数据和噪声数据之间的差异表征隐私保护的程度,并在确定第一噪声频数的取值时考虑隐私保护的程度,使得最终得到的噪声数据能够同时具备隐私保护效果和较高的数据实用性。44.需要说明地是,在本技术实施例中对数据的获取和处理等过程,均是在数据所有者知情的情况下进行的,均是经过数据所有者同意的前提下进行的。45.本技术提供了一种基于隐私保护的数据处理方法。46.请参阅图1,图1为本技术实施例提供的基于隐私保护的数据处理方法的流程图。47.需要说明地是,本技术实施例中对数据的获取和处理等过程,均是在数据所有者知情的情况下进行的,均是经过数据所有者同意的前提下进行的。48.如图1所示,本技术实施例中的基于隐私保护的数据处理方法包括s101-s106。49.s101、获取原始数据,该原始数据的取值仅包括第一取值和第二取值两种,原始数据包括案例组的原始数据和对照组的原始数据。50.原始数据为二分类数据,原始数据的取值仅包括两种。51.例如,二分类数据集:指的是究中两个变量都各有两种取值,比如卡方检验要研究变量a对变量b的影响关系,变量a取值为0或者1,变量b取值为是或者否,包含变量a和变量b的样本集就是二分类数据集。52.对于案例组和对照组,例如,研究年龄是否对患某种病是否有影响(或者显著影响),案例组和对照组分别表示患病群体和正常群体。案例组的数据对应的个体是患病的个体,对照组的数据对应的个体是正常的个体。53.s102、确定原始数据的卡方值。54.卡方值是非参数检验中的一个统计量,主要用于非参数统计分析中,它是卡方检验中的一个主要测试指标。55.卡方检验是一种用途很广的计数资料的假设检验方法,它属于非参数检验的范畴,主要是比较两个及两个以上样本率(构成比)以及两个分类变量的关联性分析,其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。卡方检验通常针对分类变量。56.s103、根据原始数据的卡方值,确定噪声数据的卡方值的取值范围,噪声信号是对原始数据进行加噪得到的。57.噪声数据的取值仅包括第一取值和第二取值两种,噪声数据包括案例组的噪声数据和对照组的噪声数据。58.噪声信号是对原始数据进行加噪得到的,也即,案例组的噪声数据是对案例组的原始数据进行加噪得到的,对照组的噪声数据是对对照组的原始数据进行加噪得到的。59.对原始数据加噪以施加扰动,实现对原始数据的隐私保护。60.原始数据的卡方值和临界值的大小关系,和噪声数据的卡方值和临界值的大小关系是相同的;噪声数据的卡方值小于原始数据的卡方值。61.原始数据的卡方值和临界值的大小关系,和噪声数据的卡方值和临界值的大小关系是相同的,用以通过让噪声数据的卡方检验统计值仍然处于原始数据的统计意义范围内,减小加噪对于数据效用的降低。62.噪声数据的卡方值不超过原始的卡方值,用以不过分进行噪声扰动。63.通过约束噪声数据的卡方值和原始的卡方值的关系,能够减小加噪对于数据效用的降低。64.s104、根据原始数据的卡方值和噪声数据的卡方值的取值范围,确定第一噪声频数的取值范围,该第一噪声频数为案例组的噪声数据中取值为第一取值的数目。65.通过对原始数据进行统计分析,能够得到案例组的原始数据中取值为第一取值的数目;在对原始数据进行噪声扰动后,该数目会发生变化,变为上述第一噪声频数。66.s105、根据第一噪声频数的取值范围,以及原始数据和噪声数据之间的差异,确定第一噪声频数的取值。67.原始数据和噪声数据之间的差异用以衡量对于原始数据的隐私保护程度。68.原始数据和噪声数据之间的差异越大,表明噪声对原始数据的扰动越大,数据隐私保护程度越高。69.s106、基于第一噪声频数的取值,分别对案例组的原始数据和对照组的原始数据进行加噪处理,得到案例组的噪声数据和对照组的噪声数据。70.分别对案例组的原始数据和对照组的原始数据进行加噪处理,得到案例组的噪声数据和对照组的噪声数据,也即对原始数据进行加噪处理得到噪声数据。71.对原始数据进行加噪处理后,第一噪声频数的取值会发生变化。当第一噪声频数的取值确定后,对原始数据进行加噪的方式(例如加噪数量)能够确定,从而基于得到的加噪方式实现加噪得到噪声数据,使得对噪声数据进行统计分析(统计案例组的噪声数据中取值为第一取值的数目),能够得到上述第一噪声频数的取值。72.采用本技术实施例的技术方案,对原始数据(二分类数据)进行加噪得噪声数据实现隐私保护,并且在隐私保护处理的过程中考虑了数据实用性的问题。具体地,通过确定噪声数据的卡方值的取值范围,使得噪声数据和原始数据的统计意义保持一致;利用原始数据和噪声数据之间的差异表征隐私保护的程度,并在确定第一噪声频数的取值时考虑隐私保护的程度,使得最终得到的噪声数据能够同时具备隐私保护效果和较高的数据实用性。73.下面结合具体的实现方式进行说明。74.本技术实施例还提供了另一种数据的隐私保护方法。75.本技术实施例中的数据的隐私保护方法包括s201-s203。76.需要说明地是,本技术实施例中对数据的获取和处理等过程,均是在数据所有者知情的情况下进行的,均是经过数据所有者同意的前提下进行的。77.s201、获取数据,并将数据划分为身份元数据和分类数据。78.身份元数据可以包括一种或多种类型,分类数据可以包括一种或多种类型。79.分类数据的取值仅包括两种。80.需要进行隐私保护的数据通常分为两类,一类为身份元数据,一类为分类数据。81.身份元数据用于标识个体的身份,例如,一个个体的身份元数据可以包括多个类型,例如:该个体的姓名、身份证号、地址、学历、性别、年龄、电话号码等。通常,个体身份元数据主要指能唯一或者综合推断个体隐私的数据。82.分类数据是统计研究用到的数据,例如,一个个体的分类数据可以包括:例如该个体的收入、患病情况等。83.分类数据仅包括两种情况,例如,个体的收入包括“高”和“低”;患病情况包括“患病”和“未患病”。84.身份元数据和分类数据可以具有一定的因果关系,例如,年龄和患病情况之间可以具有一定的因果关系。85.分类数据可以是统计研究用到的数据;身份元数据虽然通常不在数据研究的范围内,但是可能会受到推理攻击。86.推理攻击指的是攻击者通过多数据库的联合查询,结合大量背景知识,对个体身份进行识别或推测。87.为了更加清楚地说明本技术实施例的数据的隐私保护方法,下面对本技术实施例的具体应用场景进行说明。88.可以理解地是,本应用场景仅用于说明本技术实施例的数据的隐私保护方法,本技术实施例的数据的隐私保护方法还可以用于其他任何场景。89.需要进行隐私保护的数据,用于研究年龄对患某种疾病的情况是否有显著影响。90.获取到的数据可以是通过卡方检验得到的。91.获取到的数据具体包括案例组的数据和对照组的数据,其中,案例组的数据是患病个体的数据,对照组的数据是未患病个体的数据。92.将获取到的数据分为身份元数据和分类数据两类,对案例组和对照组的数据均进行上述划分。93.具体地,可以将获取到的数据的分布表进行划分,得到包含身份元数据的部分,以及包含分类数据的部分。94.例如,身份元数据的类别可以包括:姓名、性别、生日、邮编,分类数据的类别可以包括年龄。95.可以理解地是,上述身份元数据的类别和分类数据的类别均为举例,还可以包括其他的。[0096]“年龄”在本技术实施例中为分类数据,因此“年龄”包括两种情况“0”和“1”。具体地,可以设置一个固定的年龄数值。当个体的年龄大于或等于该数值时,分类数据“年龄”取“1”;当个体的年龄小于该数值时,分类数据“年龄”取“0”。[0097]s202、对身份元数据进行匿名保护处理。[0098]身份元数据可以包括一个或多个类型的身份元数据。[0099]对于每个类型的身份元数据来说,匿名保护处理的方法可以是相同的。[0100]当存在多个类型的身份元数据时,对于各个类型的身份元数据来说,匿名保护处理的方法可以是相同的,也可以是不同的。[0101]以下为本技术实施例提供的进行匿名保护处理的方法的举例,在一些可能的情况中,还可以采用其他的方式对身份元数据进行匿名保护处理。[0102]在一种可能的实现方式中,对身份元数据进行去标识化处理。[0103]例如,对于个体的姓名,采用去标识化的方式,隐藏个体的真实姓名,并且统一抽象为自增的id号码。[0104]例如,个体的姓名包括:第一姓名、第二姓名和第三姓名。第一姓名、第二姓名和第三姓名均是由真实的姓氏和名组成的。[0105]将个体的姓名进行去标识化处理,统一抽象为自增的id号码,对“第一姓名”处理得到“1”,对“第二姓名”处理得到“2”,对“第三姓名”处理得到“3”。[0106]也即,身份元数据包括第一姓名、第二姓名和第三姓名,对身份元数据进行去标识化处理,得到id为1、2、3。[0107]在一种可能的实现方式中,对身份元数据进行数据泛化处理。[0108]例如,对于生日、邮编、居住地址等属性,采用数据泛化的方式。[0109]具体地,保留相同位数或字符,用任一特殊字符代替差异字符,增加数据被推理攻击的难度。[0110]请参见表1和表2,表1为对案例组的身份元数据进行匿名保护处理之前的数据,表2为对对照组的身份元数据进行匿名保护处理之前的数据。[0111]表1 案例组的数据表[0112][0113]表2 对照组的数据表[0114][0115][0116]如表1和表2所示,案例组中的数据分为了身份元数据和分类数据;身份元数据包括:姓名、生日和邮编等,分类数据包括年龄等。对照组中的数据同上。[0117]请参见表3和表4,表3为对案例组的身份元数据进行匿名保护处理之后的数据,表4为对对照组的身份元数据进行匿名保护处理之后的数据。[0118]表3 案例组的数据表[0119][0120]表4 对照组的数据表[0121][0122]“id”这一类身份元数据即为由“姓名”这一类身份元数据经过处理得到的。[0123]在一种可能的实现方式中,丢弃每个身份元数据中的部分。[0124]例如,每个身份元数据由三部分组成:a、b和c,通过丢弃c这一部分实现对数据的匿名保护处理。[0125]在一些可能的实现方式中,还可以综合利用多种匿名保护处理方式,对数据进行处理。[0126]如表1至表4所示,对于“生日”这一类身份元数据,原始数据包括具体的年份、月份和日期;丢弃原始数据中的月份和日期,仅保留年份,并且使用特殊字符“x”代替年份的最后一位数字(可以看作是差异字符),得到表2中的数据。[0127]s203、对二分类数据进行差分隐私保护处理。[0128]二分类数据的取值包括0和1,如表1-4中的“年龄”。[0129]在一种可能的实现方式中,通过对二分类数据的加噪,实现对二分类数据的隐私保护。[0130]例如,为了保护“年龄”数据,需要给案例组和对照组中的“年龄”数据加噪。[0131]当包括多个类别的二分类数据时,可以别对各个类别的二分类数据进行加噪处理。[0132]下面具体说明对二分类数据的加噪,包括s301-s307。[0133]s301、获得案例组的二分类数据和对照组的二分类数据。[0134]这里案例组的二分类数据和对照组的二分类数据可以看作是原始数据,也即处理之前的数据。[0135]原始数据包括案例组的原始数据和对照组的原始数据。[0136]二分类数据的取值包括两种,分别为第一取值和第二取值。例如,如表1所示,第一取值和第二取值分别为0和1。[0137]请参见表5,表5为加噪前的二分类数据联表,具体地,表5为卡方检验的频数表。[0138]表5 加噪前的二分类数据联表[0139]年龄案例组对照组合计0acm1bdn合计n/2n/2n[0140]二分类数据可以看作是自变量,自变量的频数指的是自变量实际发生的数量,例如,案例组中年龄为“0”的频数为a,对照组中年龄为“1”的频数为d。[0141]对数据进行加噪后得到加噪后的二分类数据联表,由于对数据进行了加噪,自变量的频数会发生变化,如表6所示。[0142]参见表5和表6,对于案例组中年龄为“0”,加噪前自变量的频数为a,加噪后自变量频数变为a’。[0143]设定加噪后总计数不变,即保证表5中的m、n、n这些统计数据不变,当a变为a’时,b、c、d也会跟着变化。[0144]确定a作为跟踪目标,首先确定加噪后卡方值的范围(记为卡方值可扰动范围),然后根据卡方值可扰动范围,选择合适的a’,然后通过加噪以使自变量为0的个数是a’(案例组中年龄为“0”的个数是a’),即达到了最终需要的加噪结果。[0145]表6 加噪后的二分类数据联表[0146]年龄案例组对照组合计0a’c’=m-a’m1b’=n/2-a’d’=n/2-c’n合计n/2n/2n[0147]s302、确定原始的卡方值。[0148]卡方值是非参数检验中的一个统计量,主要用于非参数统计分析中,它是卡方检验中的一个主要测试指标。[0149]通过以下的公式(1)计算原始的卡方值:[0150][0151]上式中各个参数的含义请参见表5。[0152]s303、确定噪声数据的卡方值的取值范围。[0153]噪声数据为噪声扰动后的数据,包括案例组的噪声数据和对照组的噪声数据。[0154]噪声数据是对原始数据进行加噪后得到的数据:案例组的噪声数据是对案例组的原始数据进行加噪得到的,对照组的噪声数据是对对照组的原始数据进行加噪得到的。[0155]在得到原始的卡方值后,确定噪声数据的卡方值的取值范围。[0156]噪声数据的卡方值的取值范围,可以看作是卡方值可扰动范围。[0157]在本技术实施例中,通过让噪声数据的卡方检验统计值仍然处于原始数据的统计意义范围内,减小加噪对于数据效用的降低。[0158]例如,对原始数据(二分类数据)进行加噪后得到噪声数据。当对原始数据进行统计分析,得到自变量对因变量有显著影响(也即原始的卡方值大于临界卡方值)时,对加噪后得到噪声数据进行统计分析,依旧能够得到自变量对因变量有显著影响(也即噪声数据的卡方值依旧大于临界卡方值)。[0159]另外,噪声数据的卡方值不超过原始的卡方值,用以不过分进行噪声扰动。[0160]基于此,噪声数据的卡方值需要满足以下的拘束不等式:[0161][0162]χ2为原始的卡方值,为噪声数据卡方值,为临界卡方值。[0163]对于2*2的列联表,自由度v为1,给定显著水平α,根据自由度v和显著水平α能够在卡方值表中,通过查表的方式确定临界卡方值为3.84。[0164]s304、确定a’的取值范围[0165]a’为加噪后的案例组中年龄为“0”的个数,也即加噪后自变量的频数。[0166]根据上述得到的原始的卡方值,以及噪声数据的卡方值的取值范围,确定a’的取值范围。[0167]也即,根据上述的式(1)和式(2)确定a’的取值范围。[0168]经过计算可以得到a’的取值范围:[0169]a’∈(a1,a2)∪(a3,a4)[0170]其中,∪为并集运算符,(a1,a2)∪(a3,a4)为(a1,a2)和(a3,a4)的并集。[0171][0172][0173][0174][0175]c1=m2-nmχ2/n[0176]c2=m2-nmχα,v2/n[0177]s304、确定a’的取值[0178]在确定a’的取值范围之后,通过均衡数据效用和隐私保护以确定合适的a’的取值。[0179]噪声数据的卡方值和原始的卡方值的关系能够表征数据在加噪后效用受到的影响。[0180]在本技术实施例中,利用卡方值衡量数据的效用。[0181]同构约束噪声数据的卡方值和原始的卡方值的关系,能够减小加噪对于数据效用的降低。[0182]根据原始数据和噪声数据得到的期望估计误差(expected estimation error,eee),能够衡量对于原始数据的隐私保护程度。[0183]期望估计误差为加噪前后的数据的期望估计误差,根据下式得到:[0184][0185]y为添加在原始数据上的噪声,p(yi)表示第i个噪声被添加给数据库第i个记录的概率,d为原始的数据库,|d|为数据库的大小,d’为加噪后的扰动数据库,|di-d′i|表示对应元组的元素差值。[0186]eee用于衡量d和d’之间的误差,能够直观地显示出噪声带来的扰动程度。eee越大噪声扰动越大,数据的隐私保护程度越高。[0187]下面对均衡数据效用和隐私保护进行说明。[0188]通过对数据进行加噪处理,能够实现对数据的隐私保护。通过保证加噪后的卡方值在原始的统计意义范围内,降低加噪后的数据的效用损失。例如,加噪前数据的卡方值小于卡方值的临界值,加噪后数据的卡方值也小于卡方值的临界值。[0189]期望估计误差(eee)是由数据加噪前后的差值绝对值与噪声概率的乘积得到的,因此,期望估计误差越大表明噪声对数据的扰动越大,数据隐私保护程度越高。[0190]综上,当噪声数据的卡方值在原始的统计意义范围内,并且期望估计误差最大时,可以看作是数据效用和隐私保护达到了均衡。[0191]具体地,当加噪数量变化时,确定噪声数据的卡方值位于原始的统计意义范围内且期望估计误差最大的加噪数量为最终选取的加噪数量。[0192]a’和a之间的差距越大,添加在数据上的噪声对于数据的扰动越大;期望估计误差越大,对数据的隐私保护的程度越高。因此,选择距离a值最远的值作为a’。[0193]同时,由于卡方值为二次函数,当a’值越接近边界值时,加噪后的卡方值越接近原始的卡方值,也即卡方值的统计意义变化不大(几乎不会被改变)。故而,当原始数据的频数a距离(a1,a2)更远时,确定a′=a1+1;当原始数据的频数a距离(a3,a4)更远时,确定a′=a4-1。[0194]目前对于数据的加噪处理,通常是对数据添加拉普拉斯噪声,然而随意添加的噪声会导致数据效用损失较多。本技术实施例通过计算噪声均衡点,确定加噪的合理数量,降低数据效用的损失。[0195]s305、基于a’的取值生成噪声[0196]确定加噪数量后,生成对应数量的拉普拉斯或者离散拉普拉斯噪声,用以使得加噪后统计频数是a*。[0197]噪声的概率分布密度和差分隐私预算相关。在一种可能的实现方式中,确定隐私预算为零,以使噪声的扰动范围更大,得到更好的扰动效果。[0198]隐私预算的大小还可以确定为其他的数值,本技术实施例对隐私预算的大小不作具体的限定。[0199]由于隐私预算的大小通常不会影响最终加噪数量的结果,不会影响最终数据的统一意义,因此,可以根据实际需求进行调节。[0200]目前对数据添加拉普拉斯噪声实现差分隐私保护,通常随意添加的声,导致数据效用损失较多。本技术实施例中的技术方案,确定噪声均衡点,找到加噪的合理数量,从而提高数据效用。[0201]s306、基于生成的噪声,分别对案例组的二分类数据和对照组的二分类数据进行加噪处理。[0202]得到生成的噪声后,给案例组的二分类数据和对照组的二分类数据进行加噪处理,得到噪声数据(案例组的噪声数据和对照组的噪声数据)。[0203]生成噪声后,给分类数据按照案例组、对照组分别加噪。[0204]s307、对加噪后的二分类数据进行后处理[0205]可以根据实际需求进行后处理。例如,有些数据可能其范围仅限定在一个区间内,而噪声的产生范围是任意的,因此可以对加噪后的二分类数据做后处理。[0206]后处理可以包括对加噪后的二分类数据进行模余运算、四舍五入运算、数据取整处理等。[0207]四舍五入运算是一种精确度的计数保留法,能使被保留部分的与实际值的差值不超过最后一位数量级的二分之一。[0208]例如,原始的二分类数据的取值范围为(m,n),对加噪后的二分类数据进行模余运算,对加噪后的数据模(n-m)取余,以使加噪后的二分类数据的范围也为(m,n)。[0209]若对于加噪后的二分类数据有取整的需求,则可以对加噪后的二分类数据进行取整处理。[0210]若对于数据有精度的需求,则可以对加噪后的二分类数据进行四舍五入处理,以满足精度的需求。[0211]在一些可能的情况中,对加噪后进行的后处理操作还可以包括其他操作,本技术实施例对此不作具体的限定。[0212]在一些可能的情况中,在对二分类数据进行加噪处理后还可以不进行后处理操作。[0213]经过以上的处理,得到匿名保护的身份元数据和加噪后的二分类数据。[0214]在一些可能的实现方式中,可以将两者结合进行发布,用以在提高数据隐私程度的同时,不会使保护后的数据失去其统计学意义,能够均衡数据效用及隐私保护。[0215]在具体的统计分析数据发布场景下,存在潜在的差分攻击、推理攻击等攻击风险,本技术实施例的技术方案围绕差异分析研究中卡方检验所涉及的大量个体身份数据和二分类数据集,提出一种数据处理方法,用以维持数据集统计分析意义,并且保护隐私。[0216]本技术实施例的技术方案主要针对卡方检验的数据保护。例如,开放平台在发布适用于卡方检验的数据时,采用本技术实施例的技术方案,对数据进行保护后再发布,可以在一定程度上既保护个体身份原生信息进行泛化模糊处理,也能用卡方值约束保证重要的样本数据经过合理扰动后维持其统计学意义,实现数据隐私保护和数据可用性的均衡。[0217]本技术实施例还提供了一种基于隐私保护的数据处理装置。[0218]请参见图2,图2为本技术实施例提供的基于隐私保护的数据处理装置的结构示意图。[0219]如图2所示,本技术实施例的基于隐私保护的数据处理装置200包括以下单元:[0220]数据获取单元201,用于获取原始数据,其中,原始数据的取值仅包括第一取值和第二取值两种,原始数据包括案例组的原始数据和对照组的原始数据。[0221]第一确定单元202,用于确定原始数据的卡方值。[0222]第二确定单元203,用于根据原始数据的卡方值,确定噪声数据的卡方值的取值范围;其中,噪声数据的取值仅包括第一取值和第二取值两种,噪声数据包括案例组的噪声数据和对照组的噪声数据,案例组的噪声数据是对案例组的原始数据进行加噪得到的,对照组的噪声数据是对对照组的原始数据进行加噪得到的;原始数据的卡方值和临界值的大小关系,和噪声数据的卡方值和临界值的大小关系是相同的;噪声数据的卡方值小于原始数据的卡方值。[0223]第三确定单元204,用于根据原始数据的卡方值和噪声数据的卡方值的取值范围,确定第一噪声频数的取值范围,其中,第一噪声频数为案例组的噪声数据中取值为第一取值的数目。[0224]第四确定单元205,用于根据第一噪声频数的取值范围,以及原始数据和噪声数据之间的差异,确定第一噪声频数的取值。[0225]加噪处理单元206,用于基于第一噪声频数的取值,分别对案例组的原始数据和对照组的原始数据进行加噪处理,得到案例组的噪声数据和对照组的噪声数据。[0226]上述基于隐私保护的数据处理装置200所包括的单元,能够达到和以上实施例中的基于隐私保护的数据处理方法相同的技术效果,为避免重复,这里不再赘述。[0227]本技术实施例还提供一种电子设备。[0228]请参见图3,图3为本技术实施例提供的电子设备的结构示意图。[0229]如图3所示,本技术实施例的电子设备300包括处理器301和存储器302,其中,存储器302存储有代码,处理器301用于调用存储器302中存储的代码,以执行上述任一的基于隐私保护的数据处理方法。[0230]上述电子设备300所包括的单元,能够达到和以上实施例中的基于隐私保护的数据处理方法相同的技术效果,为避免重复,这里不再赘述。[0231]在本技术的实施例中,还提供一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述基于隐私保护的数据处理方法,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(read-only memory,简称rom)、随机存取存储器(random access memory,简称ram)、磁碟或者光盘等。[0232]对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部