探索式搜索中用户概念发现方法研究

来源 :东北大学 | 被引量 : 3次 | 上传用户:sollovewj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0的快速发展,搜索引擎越来越受到用户的广泛应用和关注。目前的搜索引擎已经可以为目标明确的搜索提供高质量的搜索结果。然而,当用户缺少针对目标领域的知识,或者搜索任务本身就要求很多分析和总结时,目前的搜索系统便无法直接的帮助用户完成搜索过程。在这种情况下,用户通常需要提交一些试探性的搜索请求,分析返回的结果,并决定下一步的搜索方向。这种搜索模式被称为探索式搜索。针对探索式搜索,目前并没有一个公认的解决方案。但其搜索的过程被认为分为:搜索聚合、支持发现、以及内容合成三个阶段。其中,支持发现阶段的主要任务是支持用户发现包含能够帮助其完成探索式搜索过程的资源。在支持发现的过程中,一个典型的方法是帮助用户发现其所未知的概念。利用这些概念,用户将可以进一步的找到和未知概念相关的文档,并完成探索式搜索过程。针对上述问题,本文在研究分面搜索的基础上,提出了探索式搜索的概念发现的具体过程。并深入研究了概念匹配、概念合并的相关方法以及概念选择的算法。针对用户输入的关键词,选取出一组对目标领域描述最全面并且最有代表性的概念帮助用户探索目标领域。具体的,本文根据分面搜索具体过程所述,将探索式搜索概念发现过程总结为:构建知识库、构建关键词相关概念集、概念匹配、概念合并、概念选择等阶段。在构建知识库阶段将大众分类法和维基百科结合起来为概念发现提供知识的支持。在概念匹配阶段根据维基百科中对概念的定义构建关键词维基百科相关概念模型,并提出了基于启发式规则的概念匹配方法,获得概念匹配结果集。在概念合并阶段针对获得概念匹配结果集,提出了基于启发式规则的概念合并方法。在概念选择阶段根据大众分类法中概念的使用情况,构建了<概念,资源>关系的信息网络,并提出了基于Rankclus算法的概念选择方法,将概念节点进行聚类和排序。根据概念的聚类和排序结果选择一组对目标领域描述最全面并且最具代表性的概念作为概念发现结果集提供给用户。针对获得概念发现结果集中的概念,使用找到所需求文档的搜索次数、结果文档相关性两个指标与原始方法以及直接排序不聚类的方法进行对比,以及概念发现提供的概念在用户浏览文档中出现比率的指标与直接排序不聚类的方法进行对比。实验结果表明本文提出的概念发现方法能够高效的帮助用户探索目标领域。
其他文献
Web技术的飞速发展使得全球信息的传递和共享日益增多,而XML技术的出现则正是为了有效应对上述问题。XML已经逐渐成为Internet上数据的表示标准和交换工具,它为数据库的应用开
近年来,通信的主干部分发生了巨大的变化,而在接入部分却变化很少。由于光纤具有传输频带宽、容量大、抗干扰能力强等优点,非常适合作为高速、宽带业务的传输媒体。结合IP传输和
学位
IP 组播是当前支持点-多点或多点-多点应用主要技术手段,但是传统的IP 组播在可靠性、组播成员的安全管理、异构网络的支持上存在许多不足,因此传统的IP 组播性能较差。然而,
灾难备份对于重要系统具有不可替代的重要性。在9?11事件后,世贸大厦中约有40%的公司倒闭,原因就是支撑其赖以生存的重要数据发生了丢失。然而由于国内尚无自己的容灾产品,并
基于Shared-Nothing结构的并行数据库系统具有良好的可扩展性,既能满足海量数据的存储要求,也能提供高效的查询处理性能,因而得到了广泛的应用。在并行数据库的研究中,负载平衡对
Internet网站正在从“以网站为中心”向“以用户为中心”发展,因此Internet网站的发展趋势是个性化智能网站(Personalization Intelligent Web Site)。个性化智能网站应尽可
随着计算机技术的不断发展,特别是流媒体的迅速普及,使得基于流媒体的应用已经广泛深入到包括视频点播、视频会议、远程教育等各行各业中,基于流媒体的技术也随之经历了巨大的发
本文主要研究了基于变分方法的云的判别和云分类的方法。 首先,本文介绍了卫星云图的特征和以往的处理方法,较全面的介绍了几何曲线演化方法、由Osher和Sethian提出的基于水
在过去的十余年中,设计模式在软件工程领域得到广泛的应用和研究,但主要是应用于正向工程和软件生命周期的设计阶段.本文则将把该技术应用于逆向工程和再工程.设计模式是微体