论文部分内容阅读
随着Web2.0的快速发展,搜索引擎越来越受到用户的广泛应用和关注。目前的搜索引擎已经可以为目标明确的搜索提供高质量的搜索结果。然而,当用户缺少针对目标领域的知识,或者搜索任务本身就要求很多分析和总结时,目前的搜索系统便无法直接的帮助用户完成搜索过程。在这种情况下,用户通常需要提交一些试探性的搜索请求,分析返回的结果,并决定下一步的搜索方向。这种搜索模式被称为探索式搜索。针对探索式搜索,目前并没有一个公认的解决方案。但其搜索的过程被认为分为:搜索聚合、支持发现、以及内容合成三个阶段。其中,支持发现阶段的主要任务是支持用户发现包含能够帮助其完成探索式搜索过程的资源。在支持发现的过程中,一个典型的方法是帮助用户发现其所未知的概念。利用这些概念,用户将可以进一步的找到和未知概念相关的文档,并完成探索式搜索过程。针对上述问题,本文在研究分面搜索的基础上,提出了探索式搜索的概念发现的具体过程。并深入研究了概念匹配、概念合并的相关方法以及概念选择的算法。针对用户输入的关键词,选取出一组对目标领域描述最全面并且最有代表性的概念帮助用户探索目标领域。具体的,本文根据分面搜索具体过程所述,将探索式搜索概念发现过程总结为:构建知识库、构建关键词相关概念集、概念匹配、概念合并、概念选择等阶段。在构建知识库阶段将大众分类法和维基百科结合起来为概念发现提供知识的支持。在概念匹配阶段根据维基百科中对概念的定义构建关键词维基百科相关概念模型,并提出了基于启发式规则的概念匹配方法,获得概念匹配结果集。在概念合并阶段针对获得概念匹配结果集,提出了基于启发式规则的概念合并方法。在概念选择阶段根据大众分类法中概念的使用情况,构建了<概念,资源>关系的信息网络,并提出了基于Rankclus算法的概念选择方法,将概念节点进行聚类和排序。根据概念的聚类和排序结果选择一组对目标领域描述最全面并且最具代表性的概念作为概念发现结果集提供给用户。针对获得概念发现结果集中的概念,使用找到所需求文档的搜索次数、结果文档相关性两个指标与原始方法以及直接排序不聚类的方法进行对比,以及概念发现提供的概念在用户浏览文档中出现比率的指标与直接排序不聚类的方法进行对比。实验结果表明本文提出的概念发现方法能够高效的帮助用户探索目标领域。