论文部分内容阅读
随着互联网的发展及搜索引擎的广泛引用,针对用户搜索日志的分析与研究有了较快速的发展,并被应用于用户个性化剖析、搜索结果排序调整、搜索关键词修正和建议等等,为搜索引擎及用户带来额外价值,成为信息检索领域的一个研究热门。与此同时,由于搜索日志当中包含较深的用户使用痕迹,表面的及潜在的各种用户隐私资料。如果在搜索日志分析研究之余不能处理好隐私保护问题,将造成用户隐私暴露的风险。2006年8月,美国在线的搜索日志隐私泄漏丑闻向世人敲响了警钟。此后,在信息检索社区,有相当一部分学者开始对搜索日志隐私保护问题进行研究。然而,这些研究都以特定的情景或上下文假设作为前提。同时,没有人提出令人信服的统一隐私威胁度量标准去描述搜索日志中的隐私威胁程度。
论文从建立合理的隐私度量出发,结合统计学和语义学对搜索日志建立层次分类模型,对隐私威胁度量进行量化刻画。将此隐私权威胁度量作为搜索日志隐私分析的一个参考标准。
语义模型包括语义层次结构、语义相似度和语义含量三个方面。语义层次结构由开放目录计划的网页目录数据构造而成。而语义相似度则建立在语义本体WordNet之上。语义相似度实现了两种相似度的计算方法,并作出改进。自上而下迭代地求解搜索日志的查询与开放目录语义层次结构中的结点之间的语义相似度,形成对搜索查询的多粒度、多层次分类。把多次分类中有最大相似度的结点作为在开放目录语义层次结构中给予搜索记录的最佳定位位置。根据搜索日志在开放目录语义层次结构中的定位信息,结合其深度、祖先结点和后代结点等信息,给语义含量下定义。统计模型借鉴信息检索和文本挖掘中常用的TF-IDF权重模型来描述隐私攻击者对查询日志的隐私攻击能力。和一般TF-IDF的计算方法有所区别,我们将搜索日志看作文档,并视搜索引擎为语料库,结合TF-IDF对搜索日志进行统计分析。
语义含量结合TF-IDF表构成查询日志的可识别度;将语义含量根据对查询日志的分类标签进行加权,得出查询日志的敏感度。最终以可识别度和敏感度作为查询日志隐私度量。我们透过详尽的建模过程展示其合理性,并以有效的搜索日志算法展现其可用性。
以论文提出的查询日志隐私度量,实现一个对AOL用户搜索日志分析的原型演示平台。