首页> 中国专利> 数字图书馆用户图书行为偏好隐私保护评价方法及系统

数字图书馆用户图书行为偏好隐私保护评价方法及系统

摘要

本发明公开了一种数字图书馆用户图书行为偏好隐私保护评价方法及系统。所述方法包括以下步骤:(1)获取偏好隐私保护方法针对用户图书行为序列输出的伪图书行为序列集;(2)计算其与用户图书行为序列特征相似性;(3)计算其与用户图书行为序列偏好安全性;(4)当所述特征相似性超过预设的特征相似性阈值且所述偏好安全性超过偏好安全性阈值时,评价所述偏好隐私保护方法能有效确保用户图书行为序列的偏好隐私安全性。所述系统包括数据获取模块、特征相似性获取模块、偏好安全性获取模块、以及判断模块。本发明提供了统一的评价方法和系统,提供了量化指标,可行性高,标准统一。

著录项

  • 公开/公告号CN107977583A

    专利类型发明专利

  • 公开/公告日2018-05-01

    原文格式PDF

  • 申请/专利权人 温州大学瓯江学院;

    申请/专利号CN201711188176.4

  • 发明设计人 吴宗大;李仁超;谢坚;

    申请日2017-11-24

  • 分类号

  • 代理机构武汉臻诚专利代理事务所(普通合伙);

  • 代理人胡星驰

  • 地址 325035 浙江省温州市瓯海经济开发区东方南路38号温州市国家大学科技园孵化器

  • 入库时间 2023-06-19 05:12:00

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-12-18

    授权

    授权

  • 2018-05-25

    实质审查的生效 IPC(主分类):G06F21/62 申请日:20171124

    实质审查的生效

  • 2018-05-01

    公开

    公开

说明书

技术领域

本发明属于隐私保护领域,更具体地,涉及一种数字图书馆用户图书行为的偏好隐私保护方法及系统。

背景技术

随着云计算等新兴网络信息技术的迅速发展,数字图书馆的范畴得到不断的延伸,已成为人们日常生活的重要组成部分。然而,在给用户带来巨大便利同时,数字图书馆的服务器端也正变得越来越“不可信”,从而引发了数字图书馆用户对个人隐私安全的极度担忧。用户隐私安全问题已成为制约数字图书馆发展与应用的重要障碍之一。数字图书馆的用户个人隐私主要表现为两个方面:①用户个人资料隐私,包括身份标识隐私(如身份证号)和背景资料隐私(如职业、收入等);②用户图书行为偏好隐私,即使用图书服务时(如图书浏览服务、图书检索服务、图书推荐服务等),用户图书行为(用户服务请求)背后所蕴含的用户兴趣偏好隐私(如图书浏览图书行为蕴含着用户偏好的图书偏好类别)。这些敏感信息被不可信数字图书馆服务器大量地收集,已成为用户个人隐私泄露的主要根源。其中,用户资料隐私安全问题可通过数据加密技术较好地解决,即将用户个人资料加密后再存放到数字图书馆服务器中,这样即使它们不幸泄露,也难以被读懂。然而,加密方法并不适用于用户图书行为偏好隐私,因为图书馆服务需要服务器的支持,如果加密用户图书行为会使得服务器因无法“读懂”服务请求,而使得图书馆服务变得不可用。为此,如何有效地保护数字图书馆用户的图书行为偏好隐私安全,已成为一个至关重要的问题。

早期,图书馆领域学者更多地从法律角度研究数字图书馆的用户隐私保护问题。虽然制定用户隐私权相关的法律能在一定程度上保护用户隐私,但是并不能根本上解决用户隐私安全问题,数字图书馆的用户隐私安全问题更多地需要采用隐私保护技术加以解决。近年来,学者尝试从技术角度研究该问题,但已有的技术方法还不够深入且缺乏系统,并且它们更多是针对用户资料隐私,没有关注用户图书行为隐私问题。此外,针对不可信网络环境下的用户隐私安全问题,信息科学领域学者已给出了许多有效方法,代表性地有:隐私加密技术、掩盖变换技术和匿名化技术。以下简要介绍这些方法的技术特点,

(1)隐私加密是指通过加密变换,使得用户图书行为对服务器端不可见,以达到隐私保护的目的,代表性地有隐私信息检索技术。但该类技术方法没有考虑用户隐私安全度量问题,不能实现对用户隐私的完全保护。更重要地是,该类技术不仅要求额外硬件和复杂算法的支持,且要求改变服务器端的服务算法,从而引起整个平台架构的改变,降低了方法在数字图书馆中的可用性。

(2)敏感数据掩盖技术是指通过伪造数据或者使用一般化数据来掩盖涉及用户敏感偏好的图书行为数据。例如,文献设计了一个针对个性网页搜索的用户偏好保护方法,它通过建立用户偏好分层树,并使用概括性偏好代替针对性偏好,以保护用户敏感偏好。针对其它应用场景,研究者还提出了一些其它的用户隐私变换掩盖技术。由于改写了用户图书行为数据,该类方法对服务的准确性会造成一定负面影响,即其隐私保护需以牺牲服务质量为代价,难以满足数字图书馆的应用需求。

(3)匿名化技术是用户隐私保护中广泛使用的一种技术,它通过隐藏或伪装用户身份标识,允许用户以不暴露身份的方式使用系统。然而,匿名化隐私保护技术也受到了许多质疑。文献分析了匿名化对隐私保护的不足,并给出实验证明。结果表明,通过匿名化技术收集的用户数据往往难以保证质量,因为在没有确认身份的情况下,用户可能会提交许多无用的数据。更重要地是,数字图书馆一般要求用户必须实名登录后才能使用各项图书馆服务,所以,匿名化隐私保护技术难以有效地应用于数字图书馆。

越来越多的数字图书馆用于隐私图书行为保护方法被开发出来,然而这些方法隐私保护效果如何,是否能保证用于隐私,并没有方法来评价

发明内容

针对现有技术的以上缺陷或改进需求,本发明提供了一种数字图书馆用户图书行为的偏好隐私保护方法及系统,其目的在于数字图书馆用户图书行为的偏好隐私保护评价方法及系统,由此解决现有技术没有统一的方法科学客观的评价数字图书馆用户隐私保护方法的隐私保护效果的技术问题。

为实现上述目的,按照本发明的一个方面,提供了一种数字图书馆用户图书行为偏好隐私保护评价方法,包括以下步骤:

(1)对于待评价的数字图书馆用户图书行为的偏好隐私保护方法,输入给定由不同行为类别用户图书行为组成的用户图书行为序列,并获取所述偏好隐私保护方法针对所述用户图书行为序列输出的伪图书行为序列集;

(2)对于步骤(1)获取的伪图书行为序列集以及用户图书行为序列,计算其与用户图书行为序列特征相似性,所述序列特征相似性即所述为图书行为序列与用于图书行为序列之间分布特点、连续性和/或关联性的相似程度;

(3)对于步骤(1)获取的伪图书行为序列集,计算其与用户图书行为序列偏好安全性,所述偏好安全性即针对用于预设的敏感图书偏好集合的用于图书行为暴露程度降低;

(4)判断步骤(2)中获得的特征相似性是否超过预设的特征相似性阈值;判断步骤(3)中获得的偏好安全性是否超过预设的偏好安全性阈值;当所述特征相似性超过预设的特征相似性阈值且所述偏好安全性超过偏好安全性阈值时,评价所述偏好隐私保护方法能有效确保用户图书行为序列的偏好隐私安全性。

优选地,所述数字图书馆用户图书行为偏好隐私保护评价方法,其步骤(2)所述伪图书行为序列集与用户图书行为序列相似性特征记作:

其中为伪图书行为序列集中的一个伪图书行为序列,为用户图书行为序列,为所述用户图书行为序列与所述伪图书行为序列特征相似值。

所述用户图书行为序列与所述伪图书行为序列特征相似值按照如下方法计算:

所述用户图书行为序列由n个不同行为类别的图书行为子序列构成,即所述伪图书行为序列也由n个不同行为类别的图书行为子序列构成,即其中对应1≤j≤n;则关于的特征相似值为两者的分布特征相似值、连续特征相似值和关联特征相似值的总和。

优选地,所述数字图书馆用户图书行为偏好隐私保护评价方法,其关于的特征相似值计算公式如下:

其中,为第j类用户图书行为子序列和第j类伪图书行为子序列的分布特征相似值,为第j类用户图书行为子序列和第j类伪图书行为子序列的连续特征相似值,为第j类用户图书行为子序列和第j类伪图书行为子序列的关联特征相似值;为关联的用户图书行为序列,即中除外的用户图书行为序列,为关联的伪图书行为序列,即中除外的伪图书行为序列。用户图书行为子序列伪图书行为子序列

优选地,所述数字图书馆用户图书行为偏好隐私保护评价方法,其第j类用户图书行为子序列和第j类伪图书行为子序列的分布特征相似值按照如下方式计算:

其中,为伪图书行为的分布特征向量,为用户图书行为的分布特征向量;

对于任意图书行为其分布特征向量为:

其中,为图书行为的第q项可区分特征的特征值,记作表示正实数,表示所有可能行为组成的空间,其仅与图书行为本身相关。

优选地,所述数字图书馆用户图书行为偏好隐私保护评价方法,其第j类用户图书行为子序列和第j类伪图书行为子序列的连续特征相似值为伪图书行为子序列连续特征向量和用户图书行为子序列连续特征向量的余弦值,r为可区分连续特征的项数,即可区分不同图书行为序列的连续特征项数,按照如下方法计算:

其中,为伪图书行为子序列第s项连续特征的值,为用户图书行为子序列第s项连续特征的值,计算方法如下:

其中,为前l个图书行为构成的子序列,为前l个图书行为构成的子序列,为伪图书行为关于图书行为序列连续特征函数值,及连续特征函数的返回值,为用户图书行为关于图书行为序列连续特征函数值,及连续特征函数的返回值。其中,表示正实数,表示所有可能行为组成的空间。

优选地,所述数字图书馆用户图书行为偏好隐私保护评价方法,其关联特征相似值为伪图书行为序列关于用户图书行为序列的关联特征向量之间的余弦相似性,即:

其中为伪图书行为序列的关联伪图书行为序列,为用户图书行为序列的关联用户图书行为序列,为伪图书行为关于行为序列的关联特征,为伪图书行为关于行为序列的关联特征,按照如下方法计算:

任意图书行为和其它行为类别任意行为序列(即与属于不同行为类别,如下载行为和浏览行为,则行为a关于行为序列的关联特征函数可定义为表示正实数。假定行为的可区分关联特征(即可区分不同行为的关联特征)共有t项,它们的函数分别记作:

优选地,所述数字图书馆用户图书行为偏好隐私保护评价方法,其步骤(3)所述伪图书行为序列集与用户图书行为序列暴露程度降低记作:

其中,p*为用户敏感图书偏好类别,为用户敏感图书偏好类别集合,由用户预先设定,且为偏好p*关于用户图书行为序列的暴露程度;为偏好p*关于用户图书行为序列和伪图书行为序列集的并集的暴露程度。

优选地,所述数字图书馆用户图书行为偏好隐私保护评价方法,其对于任意图书偏好类别和任意图书行为序列p关于的暴露程度按照如下方式计算:

对于任意图书偏好类别和任意图书行为序列集p关于的暴露程度按照如下方式计算:

其中,为图书偏好类别关于任意图书行为序列的出现频度,即图书行为序列中蕴含图书偏好类别p的行为数量,记作:

其中,p(a)为任意图书行为a背后所蕴含的偏好类别集合,由与a相关度超过阈值的所有偏好类别组成,记作:

其中,θ为阈值,用于移除偏好类别空间中与图书行为a相关度较小的偏好,可简单设置为0;Re(a,p)为偏好类别p与图书行为a的相关度,计算方法如下:

其中,表示正实数,表示所有可能行为组成的空间,表示所有可能偏好组成的空间。

按照本发明的另一个方面,提供了一种数字图书馆用户图书行为偏好隐私保护评价系统,包括:

数据获取模块:用于将给定的由不同行为类别用户图书行为组成的用户图书行为序列输入到待评价的数字图书馆用户图书行为的偏好隐私保护系统,并获的其输出的伪图书行为序列集;并将用户图书行为序列和为图书行为序列集提交给特征相似性获取模块和偏好安全性获取模块;

所述特征相似性获取模块,用于根据数据获取模块提交的获取的伪图书行为序列集以及用户图书行为序列,计算待评价的数字图书馆用户图书行为的偏好隐私保护系统输出的伪图书行为序列集与用户图书行为序列特征相似性,并提交给判断模块;所述序列特征相似性即所述为图书行为序列与用于图书行为序列之间分布特点、连续性和/或关联性的相似程度,计算公式如下:计算公式如下:

其中,为第j类用户图书行为子序列和第j类伪图书行为子序列的分布特征相似值,为第j类用户图书行为子序列和第j类伪图书行为子序列的连续特征相似值,为第j类用户图书行为子序列和第j类伪图书行为子序列的关联特征相似值;为关联的用户图书行为序列,即中除外的用户图书行为序列,为关联的伪图书行为序列,即中除外的伪图书行为序列。用户图书行为子序列伪图书行为子序列

所述偏好安全性获取模块,用于根据数据获取模块提交的获取的伪图书行为序列集以及用户图书行为序列,计算所述伪图书行为序列集的偏好安全性,并提交给判断模块;所述偏好安全性即针对用于预设的敏感图书偏好集合的用于图书行为暴露程度降低;具体地:

所述伪图书行为序列集与用户图书行为序列暴露程度降低记作:

其中,p*为用户敏感图书偏好类别,为用户敏感图书偏好类别集合,由用户预先设定,且为偏好p*关于用户图书行为序列的暴露程度;为偏好p*关于用户图书行为序列和伪图书行为序列集的并集的暴露程度;

所述判断模块,用于所述特征相似性是否超过预设的特征相似性阈值;判断所述偏好安全性是否超过预设的偏好安全性阈值;当所述特征相似性超过预设的特征相似性阈值且所述偏好安全性超过偏好安全性阈值时,评价所述偏好隐私保护方法能有效确保用户图书行为序列的偏好隐私安全性。

优选地,所述数字图书馆用户图书行为的偏好隐私保护评价系统,其特征在于,所述特征相似性获取模块,包括分布特征相似值计算子模块、连续特征相似值计算子模块、以及关联特征相似值计算子模块;

所述分布特征相似值计算子模块,用于计算第j类用户图书行为子序列和第j类伪图书行为子序列的分布特征相似值

所述连续特征相似值计算子模块,用于计算第j类用户图书行为子序列和第j类伪图书行为子序列的连续特征相似值

所述关联特征相似值计算子模块,用于计算第j类用户图书行为子序列和第j类伪图书行为子序列的关联特征相似值

总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:

本发明提供的数字图书馆用户图书行为偏好隐私保护评价方法及系统,为不改变服务器结构的敏感数据掩盖技术、匿名化技术等伪造图书行为的数字图书馆用户图书行为偏好隐私保护方法的偏好隐私保护效果,提供了统一的评价方法和系统,从特征相似性和隐私暴露程度两个方面对数字图书馆用户图书行为偏好隐私保护方法提供了量化指标,可行性高,标准统一。

附图说明

图1是本发明提供的数字图书馆用户图书行为偏好隐私保护评价方法流程示意图;

图2是本发明提供的数字图书馆用户图书行为偏好隐私保护评价系统的结构示意图;

图3是本发明实施例提供的特征相似性计算结果;

图4是本发明实施例提供的偏好暴露程度计算结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供的数字图书馆用户图书行为的偏好隐私保护评价方法,如图1所示,包括以下步骤:

(1)对于待评价的数字图书馆用户图书行为的偏好隐私保护方法,输入给定由不同行为类别用户图书行为组成的用户图书行为序列,并获取所述偏好隐私保护方法针对所述用户图书行为序列输出的伪图书行为序列集;具体地:

任意给定用户图书行为序列由n个不同行为类别的用户图书行为子序列构成,即

将用户图书行为序列输入待评价的数字图书馆用户图书行为的偏好隐私保护方法,按照所述偏好隐私保护方法针获取针对给定用户图书行为序列的伪图书行为序列集

所述伪图书行为序列集其中,每个伪图书行为序列与相匹配,即它同样由n个不同行为类别的伪图书行为子序列构成。

(2)对于步骤(1)获取的伪图书行为序列集以及用户图书行为序列,计算其与用户图书行为序列特征相似性,所述序列特征相似性即所述为图书行为序列与用于图书行为序列之间分布特点、连续性和/或关联性的相似程度;具体地:

所述伪图书行为序列集与用户图书行为序列相似性特征记作:

其中为伪图书行为序列集中的一个伪图书行为序列,为用户图书行为序列,为所述用户图书行为序列与所述伪图书行为序列特征相似值。

所述用户图书行为序列与所述伪图书行为序列特征相似值按照如下方法计算:

所述用户图书行为序列由n个不同行为类别的图书行为子序列构成,即所述伪图书行为序列也由n个不同行为类别的图书行为子序列构成,即其中对应1≤j≤n;则关于的特征相似值为两者的分布特征相似值、连续特征相似值和关联特征相似值的总和,计算公式如下:

其中,为第j类用户图书行为子序列和第j类伪图书行为子序列的分布特征相似值,为第j类用户图书行为子序列和第j类伪图书行为子序列的连续特征相似值,为第j类用户图书行为子序列和第j类伪图书行为子序列的关联特征相似值;为关联的用户图书行为序列,即中除外的用户图书行为序列,为关联的伪图书行为序列,即中除外的伪图书行为序列。用户图书行为子序列伪图书行为子序列

所述第j类用户图书行为子序列和第j类伪图书行为子序列的分布特征相似值按照如下方式计算:

其中,为伪图书行为的分布特征向量,为用户图书行为的分布特征向量。

对于任意图书行为其分布特征向量为:

其中,为图书行为的第q项可区分特征的特征值,记作表示正实数,表示所有可能行为组成的空间,其仅与图书行为本身相关。

所述第j类用户图书行为子序列和第j类伪图书行为子序列的连续特征相似值为伪图书行为子序列连续特征向量和用户图书行为子序列连续特征向量的余弦值,r为可区分连续特征的项数,即可区分不同图书行为序列的连续特征项数,按照如下方法计算:

其中,为伪图书行为子序列第s项连续特征的值,为用户图书行为子序列第s项连续特征的值,计算方法如下:

其中,为前l个图书行为构成的子序列,为前l个图书行为构成的子序列,为伪图书行为关于图书行为序列连续特征函数值,及连续特征函数的返回值,为用户图书行为关于图书行为序列连续特征函数值,及连续特征函数的返回值。其中,表示正实数,表示所有可能行为组成的空间。

所述关联特征相似值为伪图书行为序列关于用户图书行为序列的关联特征向量之间的余弦相似性,即:

其中为伪图书行为序列的关联伪图书行为序列,为用户图书行为序列的关联用户图书行为序列,为伪图书行为关于行为序列的关联特征,为伪图书行为关于行为序列的关联特征,按照如下方法计算:

任意图书行为和其它行为类别任意行为序列(即与属于不同行为类别,如下载行为和浏览行为,则行为a关于行为序列的关联特征函数可定义为表示正实数。假定行为的可区分关联特征(即可区分不同行为的关联特征)共有t项,它们的函数分别记作:

(3)对于步骤(1)获取的伪图书行为序列集,计算其与用户图书行为序列偏好安全性,所述偏好安全性即针对用于预设的敏感图书偏好集合的用于图书行为暴露程度降低;具体地:

所述伪图书行为序列集与用户图书行为序列暴露程度降低记作:

其中,p*为用户敏感图书偏好类别,为用户敏感图书偏好类别集合,由用户预先设定,且为偏好p*关于用户图书行为序列的暴露程度;为偏好p*关于用户图书行为序列和伪图书行为序列集的并集的暴露程度。

对于任意图书偏好类别和任意图书行为序列p关于的暴露程度按照如下方式计算:

对于任意图书偏好类别和任意图书行为序列集p关于的暴露程度按照如下方式计算:

其中,为图书偏好类别关于任意图书行为序列的出现频度,即图书行为序列中蕴含图书偏好类别p的行为数量,记作:

其中,P(a)为任意图书行为a背后所蕴含的偏好类别集合,由与a相关度超过阈值的所有偏好类别组成,记作:

其中,θ为阈值,用于移除偏好类别空间中与图书行为a相关度较小的偏好,可简单设置为0;Re(a,p)为偏好类别p与图书行为a的相关度,计算方法如下:

其中,表示正实数,表示所有可能行为组成的空间,表示所有可能偏好组成的空间。

(4)判断步骤(2)中获得的特征相似性是否超过预设的特征相似性阈值;判断步骤(3)中获得的偏好安全性是否超过预设的偏好安全性阈值;当所述特征相似性超过预设的特征相似性阈值且所述偏好安全性超过偏好安全性阈值时,评价所述偏好隐私保护方法能有效确保用户图书行为序列的偏好隐私安全性;否则评价所述偏好隐私保护方法不能有效确保用户图书行为序列的偏好隐私安全性。

其中第(2)步与第(3)步可同时进行或调换顺序进行。

本发明提供的数字图书馆用户图书行为的偏好隐私保护评价系统,如图2所示,包括:

数据获取模块:用于将给定的由不同行为类别用户图书行为组成的用户图书行为序列输入到待评价的数字图书馆用户图书行为的偏好隐私保护系统,并获的其输出的伪图书行为序列集;并将用户图书行为序列和为图书行为序列集提交给特征相似性获取模块和偏好安全性获取模块;

所述特征相似性获取模块,用于根据数据获取模块提交的获取的伪图书行为序列集以及用户图书行为序列,计算待评价的数字图书馆用户图书行为的偏好隐私保护系统输出的伪图书行为序列集与用户图书行为序列特征相似性,并提交给判断模块;所述序列特征相似性即所述为图书行为序列与用于图书行为序列之间分布特点、连续性和/或关联性的相似程度,计算公式如下:计算公式如下:

其中,为第j类用户图书行为子序列和第j类伪图书行为子序列的分布特征相似值,为第j类用户图书行为子序列和第j类伪图书行为子序列的连续特征相似值,为第j类用户图书行为子序列和第j类伪图书行为子序列的关联特征相似值;为关联的用户图书行为序列,即中除外的用户图书行为序列,为关联的伪图书行为序列,即中除外的伪图书行为序列。用户图书行为子序列伪图书行为子序列

所述特征相似性获取模块,包括分布特征相似值计算子模块、连续特征相似值计算子模块、以及关联特征相似值计算子模块。

所述分布特征相似值计算子模块,用于计算第j类用户图书行为子序列和第j类伪图书行为子序列的分布特征相似值

所述连续特征相似值计算子模块,用于计算第j类用户图书行为子序列和第j类伪图书行为子序列的连续特征相似值

所述关联特征相似值计算子模块,用于计算第j类用户图书行为子序列和第j类伪图书行为子序列的关联特征相似值

所述偏好安全性获取模块,用于根据数据获取模块提交的获取的伪图书行为序列集以及用户图书行为序列,计算所述伪图书行为序列集的偏好安全性,并提交给判断模块;所述偏好安全性即针对用于预设的敏感图书偏好集合的用于图书行为暴露程度降低;具体地:

所述伪图书行为序列集与用户图书行为序列暴露程度降低记作:

其中,p*为用户敏感图书偏好类别,为用户敏感图书偏好类别集合,由用户预先设定,且为偏好p*关于用户图书行为序列的暴露程度;为偏好p*关于用户图书行为序列和伪图书行为序列集的并集的暴露程度。

所述判断模块,用于所述特征相似性是否超过预设的特征相似性阈值;判断所述偏好安全性是否超过预设的偏好安全性阈值;当所述特征相似性超过预设的特征相似性阈值且所述偏好安全性超过偏好安全性阈值时,评价所述偏好隐私保护方法能有效确保用户图书行为序列的偏好隐私安全性。

以下为实施例:

一种数字图书馆用户图书行为的偏好隐私保护评价方法,包括以下步骤:

(1)对于待评价的数字图书馆用户图书行为的偏好隐私保护方法,输入给定由不同行为类别用户图书行为组成的用户图书行为序列,并获取所述偏好隐私保护方法针对所述用户图书行为序列输出的伪图书行为序列集;具体地:

行为类别包括图书浏览服务、阅读服务、检索服务、推荐服务等,本实施例采用的行为类别包括两类:图书浏览服务和图书阅读服务。

用户图书行为获取:我们收集了温州大学图书馆100名读者近年来的图书浏览和图书阅读记录,从中为每位读者精心挑选了1000条图书浏览记录和1000条图书阅读记录。

伪图书行为序列集:将获取新的隐私行为保护方法(下称“新方法”)、隐私加密方法、掩盖变化方法的伪图书行为序列集;此外,还将本文方法与随机方法进行了比较。在随机方法中,伪图书行为请求从图书库中随机选取,但要求伪图书行为序列长度与用户真实行为序列一致,各个伪图书行为与其相应的真行为类别一致。

在实验中,所有的算法都是用Java语言完成。实验是在配置为Intel Core 2 Duo 3GHz CPU和最大工作内存为2GB的Java虚拟机器(版本1.7.007)上执行。

(2)对于步骤(1)获取的伪图书行为序列集以及用户图书行为序列,计算其与用户图书行为序列特征相似性,所述序列特征相似性即所述为图书行为序列与用于图书行为序列之间分布特点、连续性和/或关联性的相似程度;具体地:

对于用户行为分布特征函数,考虑了图书长度、文体、价格、语言等图书基本信息特征。对于用户行为的连续特征函数考虑了行为频度和偏好频度两个特征。对于用户行为的关联特征函数,主要考虑了行为频度和偏好频度两个特征。表1给出了这些概念的具体实现函数。

表1图书行为函数的具体实现

所述伪图书行为序列集与用户图书行为序列相似性特征记作:

其中为伪图书行为序列集中的一个伪图书行为序列,为用户图书行为序列,为所述用户图书行为序列与所述伪图书行为序列特征相似值。

所述用户图书行为序列与所述伪图书行为序列特征相似值按照如下方法计算:

所述用户图书行为序列由n个不同行为类别的图书行为子序列构成,即所述伪图书行为序列也由n个不同行为类别的图书行为子序列构成,即其中对应1≤j≤n;则关于的特征相似值为两者的分布特征相似值、连续特征相似值和关联特征相似值的和,计算公式如下:

其中,为第j类用户图书行为子序列和第j类伪图书行为子序列的分布特征相似值,为第j类用户图书行为子序列和第j类伪图书行为子序列的连续特征相似值,为第j类用户图书行为子序列和第j类伪图书行为子序列的关联特征相似值;为关联的用户图书行为序列,即中除外的用户图书行为序列,为关联的伪图书行为序列,即中除外的伪图书行为序列。用户图书行为子序列伪图书行为子序列

所述第j类用户图书行为子序列和第j类伪图书行为子序列的分布特征相似值按照如下方式计算:

其中,为伪图书行为的分布特征向量,为用户图书行为的分布特征向量。

对于任意图书行为其分布特征向量为:

其中,为图书行为的第q项可区分特征的特征值,记作表示正实数,表示所有可能行为组成的空间,其仅与图书行为本身相关。

所述第j类用户图书行为子序列和第j类伪图书行为子序列的连续特征相似值为伪图书行为子序列连续特征向量和用户图书行为子序列连续特征向量的余弦值,r为可区分连续特征的项数,即可区分不同图书行为序列的连续特征项数,按照如下方法计算:

其中,为伪图书行为子序列第s项连续特征的值,为用户图书行为子序列第s项连续特征的值,计算方法如下:

其中,为前l个图书行为构成的子序列,为前l个图书行为构成的子序列,为伪图书行为关于图书行为序列连续特征函数值,及连续特征函数的返回值,为用户图书行为关于图书行为序列连续特征函数值,及连续特征函数的返回值。其中,表示正实数,表示所有可能行为组成的空间

所述关联特征相似值为伪图书行为序列关于用户图书行为序列的关联特征向量之间的余弦相似性,即:

其中为伪图书行为序列的关联伪图书行为序列,为用户图书行为序列的关联用户图书行为序列,为伪图书行为关于行为序列的关联特征,为伪图书行为关于行为序列的关联特征,按照如下方法计算:

任意图书行为和其它行为类别任意行为序列(即与属于不同行为类别,如下载行为和浏览行为,则行为a关于行为序列的关联特征函数可定义为表示正实数。假定行为的可区分关联特征(即可区分不同行为的关联特征)共有t项,它们的函数分别记作:

本步骤旨在评估方法产生的伪行为序列与用户行为序列之间的特征相似度。这里使用“行为特征相似值”以度量真行为序列和伪行为序列集之间的特征相似性,即显然,度量值越大越好,因为度量值越大意味着攻击者越难以通过特征分析,从行为序列集中发现用户行为序列。可以看出,该度量主要取决于用户行为序列长度和构造的伪行为序列数量。

在该实验中,用户敏感偏好数量固定为5。实验评估结果如图3所示,其中,子图左下角指示方法为每个用户真实序列所构造的伪行为序列数量(即N=1、N=3和N=5),横轴指示用户行为序列长度(300至2100),纵轴指示特征相似度量值。可以看出,相比于随机方法,新方法构建的伪行为序列表现出更好的整体特征相似性。具体地,新方法构建的伪行为序列与真行为序列之间的特征相似度接近于1.0,即两者具有高度相似特征(分布特征、连续特征和关联特征),并且即使在伪行为序列数量和伪行为序列长度发生改变的情况下,这种高度的特征相似度也几乎毫无改变。对于随机方法,它生成的伪行为序列与真行为序列之间的整体特征相似性值低于0.15,明显低于新方法,并且随着伪行为序列长度的增加,以及伪行为序列数量的增加,特征相似性度量值还会随之进一步降低。

(3)对于步骤(1)获取的伪图书行为序列集,计算其与用户图书行为序列偏好安全性,所述偏好安全性即针对用于预设的敏感图书偏好集合的用于图书行为暴露程度降低;具体地:

用户的一条图书浏览或阅读记录(行为)通常对应一本具体的图书。为此,借助于用户行为背后蕴含的具体图书信息,可构建上述四类概念的相关函数。为了构建行为偏好相关度函数Re(a,p),我们挑选国家图书分类目录(即国家图书分类词表)中处于次顶层的图书目录(如B0哲学理论、B1世界哲学等)组建用户行为偏好空间然后,以图书分类目录为中间媒介构建行为偏好相关度函数。

所述伪图书行为序列集与用户图书行为序列暴露程度降低记作:

其中,p*为用户敏感图书偏好类别,为用户敏感图书偏好类别集合,由用户预先设定,且为偏好p*关于用户图书行为序列的暴露程度;为偏好p*关于用户图书行为序列和伪图书行为序列集的并集的暴露程度。

对于任意图书偏好类别和任意图书行为序列p关于的暴露程度按照如下方式计算:

对于任意图书偏好类别和任意图书行为序列集p关于的暴露程度按照如下方式计算:

其中,为图书偏好类别关于任意图书行为序列的出现频度,即图书行为序列中蕴含图书偏好类别p的行为数量,记作:

其中,P(a)为任意图书行为a背后所蕴含的偏好类别集合,由与a相关度超过阈值的所有偏好类别组成,记作:

其中,θ为阈值,用于移除偏好类别空间中与图书行为a相关度较小的偏好,可简单设置为0;Re(a,p)为偏好类别p与图书行为a的相关度,计算方法如下:

其中,表示正实数,表示所有可能行为组成的空间,表示所有可能偏好组成的空间。

本步骤旨在评估本文方法产生的伪行为对用户敏感偏好的掩盖效果,即伪行为序列能否有效地降低敏感偏好的暴露度。这里使用“偏好暴露程度”,以度量敏感偏好关于行为序列集的暴露度,即显然,度量值越小越好,因为它意味着攻击者越难以从行为序列集中,直接猜测用户敏感图书偏好。可以看出,该度量主要取决于用户敏感偏好数量和构造的伪行为序列数量。

行为序列长度固定为2000。实验评估结果如图4所示,其中,子图左下角指示设定的用户敏感偏好数量(即M=1、M=3和M=5),横轴指示方法生成的伪行为序列数量(1至7),纵轴指示“用户偏好暴露度”度量值。从图2可以看出,新方法构建的伪行为序列能有效地改善用户敏感偏好的暴露程度,并且这种改善效果基本上与伪行为序列数量呈正相关,不会随着用户敏感偏好数量的改变而明显改变。相比于新方法,随机方法构建的伪行为虽然也能在一定程度上降低用户敏感偏好的暴露程度,但稳定性相对较差(即不与伪行为序列数量正相关),并且还会随着用户敏感偏好数量的增加而增加。更重要的是,后续两个实验结果表明,随机方法构建的伪行为序列与用户真实行为序列的特征相似性很差,使得它们容易被攻击者排除,难以有效保护用户敏感偏好。

(4)判断步骤(2)中获得的特征相似性是否超过预设的特征相似性阈值;判断步骤(3)中获得的偏好安全性是否超过预设的偏好安全性阈值;当所述特征相似性超过预设的特征相似性阈值且所述偏好安全性超过偏好安全性阈值时,评价所述偏好隐私保护方法能有效确保用户图书行为序列的偏好隐私安全性。具体结果见表2:

表2方法有效性定性比较

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号