基于网络日志挖掘的个性化搜索

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:yzqp178
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通用的搜索引擎接到不同用户输入查询词后,按照统一模式处理,搜索引擎返回一样、成百上千、与用户兴趣不相关、重复甚至是过时的信息。个性化技术针对不同的用户采取不同的服务策略,提供不同的服务内容,提供满足其个性化需求的服务。 由于网络日志记录着用户访问网页的信息,用户的访问日志可以反映用户的浏览模式和浏览兴趣,通过该日志及用户浏览网页的内容,可以发现用户的兴趣,根据用户的兴趣,建立用户兴趣模型,在用户使用网络搜索引擎进行搜索时,参考用户的兴趣,对查询词进行修正和查询扩展,对查询结果重新排序,提高用户查询信息的准确率,节省用户查询信息所需的时间。 本文在对搜索引擎、个性化搜索等相关原理与技术分析的基础上,深入分析了用户网络日志挖掘和基于网络日志挖掘的用户兴趣提取等关键技术,具体研究成果如下: (1)开发一个插件,在客户端收集用户访问网络的日志,清洗用户访问网络的日志,分析用户的网络访问日志,挖掘用户访问网络的习惯。对用户访问的网页内容根据其URL特征对网页进行分类。统计分析用户访问网络日志,挖掘用户的兴趣类。对相同类别的网页内容进行聚类分析,对兴趣分类集进行挖掘提取用户的兴趣特征。 (2)挖掘用户网络访问日志,统计分析用户访问网络日志中URL的有效信息,提取用户的兴趣类并且对用户访问网页的内容进行“专业性”的分类,对相同类别的网页内容进行聚类挖掘分析,根据用户的兴趣类信息挖掘出用户的兴趣特征集。 (3)通过挖掘和识别用户访问网络的最大向前引用路径,结合用户兴趣特征的位置语义信息,挖掘提取用户兴趣特征的固定搭配,提取出用户兴趣特征的最大扩展短语集合,建立用户兴趣的查询扩展集。 (4)根据挖掘网络日志建立的用户兴趣类,用户兴趣特征,用户兴趣特征的查询扩展集等信息,建立树状的用户兴趣模型。 (5)参考用户的兴趣模型,在用户使用搜索引擎进行信息检索的时候,对用户提交的查询词进行扩展和修正,将修正好的查询词提交给搜索引擎接口,反馈给用户个性化的信息。 在进行上述理论分析和研究的基础上,对用户使用搜索引擎的记录进行了跟踪,结果发现,通过挖掘用户访问网络日志及用户访问内容建立的用户兴趣模型,提高了用户查询信息的效率。
其他文献
随着信息时代的迅速发展,大数据应用日益火热。图搜索问题是大数据应用中的经典问题,BFS算法是图搜索中的核心算法也是Graph500测试基准中的核心搜索程序。BFS算法具有访存量
Internet是一个规模巨大的网络世界,人们习惯于利用域名而不是IP地址来访问和使用网络资源。DNS技术解决了网络域名到IP地址的映射问题。随着IPv4逐渐向IPv6过渡,128位的IPv6地
随着网络通信的迅速发展,流媒体技术在网络教学、视频会议、视频监控等领域的应用给人们带来了极大的便利和乐趣。在上述这些应用中,如何将本地计算机的屏幕显示数据实时、清晰
P2P技术的迅速发展,使其成为构建广域网中大型分布式系统的强有力工具。P2P采用完全分布式结构,网络中的节点既充当客户端角色获取其他节点的资源或服务,同时又充当服务器角色向
随着互联网技术与应用的迅速发展,Web服务作为一种新兴的Web应用模式及远程访问标准,很好地解决了异构平台上的数据和应用的整合与共享问题。但是,传统的Web服务缺乏语义信息
随着万维网的不断发展,用户从海量数据中提取有效信息变得越来越困难。聚类分析作为web数据挖掘的重要方法,对降低数据规模,过滤无效信息起着至关重要的重用。本文以基于web日志
随着软件在安全关键领域的广泛应用,可信软件的研究成为可信计算研究中的一个重要内容。由于软件系统本身的复杂特性,如何使软件具有可信性的研究面临着巨大挑战。它要求人们对
本文的研究来源于河南省自然科学基金项目(NO.0611053900)“区间逻辑的柔性化理论研究”和河南省重点科技攻关项目(NO.092102210149)“基于区间结构的柔性化控制模型及其系统
无线传感器网络在军民用领域有着广阔的应用前景,是目前学术界研究的热点之一。它综合了传感器技术、嵌入式计算技术、分布式信息处理技术和无线通信技术,能够协作完成实时监测
近年来,随着传感器技术、无线网络通信技术等日新月异的飞速发展,多功能化的智能设备充斥在人们的社会生活、学习工作中,以智能手机、平板电脑等为首的移动设备充当了移动计