网络搜索日志中的隐私度量方法研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:zyhpeter2011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展及搜索引擎的广泛引用,针对用户搜索日志的分析与研究有了较快速的发展,并被应用于用户个性化剖析、搜索结果排序调整、搜索关键词修正和建议等等,为搜索引擎及用户带来额外价值,成为信息检索领域的一个研究热门。与此同时,由于搜索日志当中包含较深的用户使用痕迹,表面的及潜在的各种用户隐私资料。如果在搜索日志分析研究之余不能处理好隐私保护问题,将造成用户隐私暴露的风险。2006年8月,美国在线的搜索日志隐私泄漏丑闻向世人敲响了警钟。此后,在信息检索社区,有相当一部分学者开始对搜索日志隐私保护问题进行研究。然而,这些研究都以特定的情景或上下文假设作为前提。同时,没有人提出令人信服的统一隐私威胁度量标准去描述搜索日志中的隐私威胁程度。   论文从建立合理的隐私度量出发,结合统计学和语义学对搜索日志建立层次分类模型,对隐私威胁度量进行量化刻画。将此隐私权威胁度量作为搜索日志隐私分析的一个参考标准。   语义模型包括语义层次结构、语义相似度和语义含量三个方面。语义层次结构由开放目录计划的网页目录数据构造而成。而语义相似度则建立在语义本体WordNet之上。语义相似度实现了两种相似度的计算方法,并作出改进。自上而下迭代地求解搜索日志的查询与开放目录语义层次结构中的结点之间的语义相似度,形成对搜索查询的多粒度、多层次分类。把多次分类中有最大相似度的结点作为在开放目录语义层次结构中给予搜索记录的最佳定位位置。根据搜索日志在开放目录语义层次结构中的定位信息,结合其深度、祖先结点和后代结点等信息,给语义含量下定义。统计模型借鉴信息检索和文本挖掘中常用的TF-IDF权重模型来描述隐私攻击者对查询日志的隐私攻击能力。和一般TF-IDF的计算方法有所区别,我们将搜索日志看作文档,并视搜索引擎为语料库,结合TF-IDF对搜索日志进行统计分析。   语义含量结合TF-IDF表构成查询日志的可识别度;将语义含量根据对查询日志的分类标签进行加权,得出查询日志的敏感度。最终以可识别度和敏感度作为查询日志隐私度量。我们透过详尽的建模过程展示其合理性,并以有效的搜索日志算法展现其可用性。   以论文提出的查询日志隐私度量,实现一个对AOL用户搜索日志分析的原型演示平台。  
其他文献
量子线路算法在大整数因子分解、无序搜索、最优化等问题上都比相对应的经典算法时间复杂度低很多,其超强的运算能力引起了人们的极大关注。但是对于某类具体问题来讲,利用量子
交通监控当前已得到广泛应用,为交通监管带来便捷。涉及车辆的刑事案件追查,如对交通肇事车辆、被盗窃车辆的追查等,耗费大量的人力物力。基于监控视频的智能搜索将在这一领
近年来,随着计算机的普及和互连网的发展,越来越多的人通过以计算机互连网为中介进行联系与交流。以此形成了一个新型的社会网络:在线社会网络OSN(Online Social Network)。
生物学家Rosen说过:“从进化的观点来说,生理系统是人类解决复杂问题的最好的百科全书”。而人的眼睛,它叹为观止的完善功能,复杂精细的组织结构,精密协调的控制机制更是“极
随着企业信息化发展,业务系统在企业和机构中的应用越来越广泛。全局流程集成平台(Global Business Process Integration Platform,GBPIP)作为业务系统的开发支撑平台,具有柔性
时态数据信息的处理在现在的应用系统中已经显得日益重要,在现在以面向对象程序设计方式一统天下的大环境下,用面向对象思路处理时态对象能够很好地实现程序设计与数据较好的衔
文本首先采用希尔伯特-黄变换(HHT)对农业物联网系统中基于无线传感器网络(WSN)所采集的样本数据进行了分析。由于无线传感器网络采集的样本均具有非线性、非平稳的特点,而希
本文在总结Vague集现有理论和方法的基础上,运用比较法、经典集合理论和传统的模糊集理论对Vague集进行了较为深入的研究,并对其在模式识别中的应用进行了探讨。主要工作包括:
手写体字符识别是图象处理和模式识别领域中的研究课题之一。字符识别系统一般由图像采集、信号预处理、特征提取、分类识别等几个部分组成。识别系统的识别方式可分为联机手
承诺(commitment)是一个重要的密码原型,它提供隐藏性和绑定性两个基本性质,成为现代密码学许多协议和应用的重要构造元素,如零知识证明、数字签名、身份鉴别、电子投票、电子拍