探索式搜索中用户概念发现方法研究

来源 :东北大学 | 被引量 : 3次 | 上传用户：sollovewj

【摘要】

：

随着Web2.0的快速发展,搜索引擎越来越受到用户的广泛应用和关注。目前的搜索引擎已经可以为目标明确的搜索提供高质量的搜索结果。然而,当用户缺少针对目标领域的知识,或者

【作者】

：

孟凡尧

【机构】

：

东北大学

【出处】

：

东北大学

【发表日期】

：

2013年01期

【关键词】

：

探索式搜索概念发现概念匹配概念合并 Rankclus算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Web2.0的快速发展,搜索引擎越来越受到用户的广泛应用和关注。目前的搜索引擎已经可以为目标明确的搜索提供高质量的搜索结果。然而,当用户缺少针对目标领域的知识,或者搜索任务本身就要求很多分析和总结时,目前的搜索系统便无法直接的帮助用户完成搜索过程。在这种情况下,用户通常需要提交一些试探性的搜索请求,分析返回的结果,并决定下一步的搜索方向。这种搜索模式被称为探索式搜索。针对探索式搜索,目前并没有一个公认的解决方案。但其搜索的过程被认为分为：搜索聚合、支持发现、以及内容合成三个阶段。其中,支持发现阶段的主要任务是支持用户发现包含能够帮助其完成探索式搜索过程的资源。在支持发现的过程中,一个典型的方法是帮助用户发现其所未知的概念。利用这些概念,用户将可以进一步的找到和未知概念相关的文档,并完成探索式搜索过程。针对上述问题,本文在研究分面搜索的基础上,提出了探索式搜索的概念发现的具体过程。并深入研究了概念匹配、概念合并的相关方法以及概念选择的算法。针对用户输入的关键词,选取出一组对目标领域描述最全面并且最有代表性的概念帮助用户探索目标领域。具体的,本文根据分面搜索具体过程所述,将探索式搜索概念发现过程总结为：构建知识库、构建关键词相关概念集、概念匹配、概念合并、概念选择等阶段。在构建知识库阶段将大众分类法和维基百科结合起来为概念发现提供知识的支持。在概念匹配阶段根据维基百科中对概念的定义构建关键词维基百科相关概念模型,并提出了基于启发式规则的概念匹配方法,获得概念匹配结果集。在概念合并阶段针对获得概念匹配结果集,提出了基于启发式规则的概念合并方法。在概念选择阶段根据大众分类法中概念的使用情况,构建了<概念,资源>关系的信息网络,并提出了基于Rankclus算法的概念选择方法,将概念节点进行聚类和排序。根据概念的聚类和排序结果选择一组对目标领域描述最全面并且最具代表性的概念作为概念发现结果集提供给用户。针对获得概念发现结果集中的概念,使用找到所需求文档的搜索次数、结果文档相关性两个指标与原始方法以及直接排序不聚类的方法进行对比,以及概念发现提供的概念在用户浏览文档中出现比率的指标与直接排序不聚类的方法进行对比。实验结果表明本文提出的概念发现方法能够高效的帮助用户探索目标领域。

其他文献

XML数据的查询优化与处理技术的研究

Web技术的飞速发展使得全球信息的传递和共享日益增多，而XML技术的出现则正是为了有效应对上述问题。XML已经逐渐成为Internet上数据的表示标准和交换工具，它为数据库的应用开

学位

XMLXML数据库路径表达式优化查询处理

EPON上行信道带宽动态分配技术研究

近年来，通信的主干部分发生了巨大的变化，而在接入部分却变化很少。由于光纤具有传输频带宽、容量大、抗干扰能力强等优点，非常适合作为高速、宽带业务的传输媒体。结合IP传输和

学位

EPON动态带宽分配服务质量APON

基于大规模多相机阵列的现实虚拟化系统构建关键技术研究

学位

基于多协议标记交换技术的IP组播研究与实现

IP 组播是当前支持点-多点或多点-多点应用主要技术手段,但是传统的IP 组播在可靠性、组播成员的安全管理、异构网络的支持上存在许多不足,因此传统的IP 组播性能较差。然而,

学位

组播MPLS标记分发协议组播树

一种基于Linux的同步网络备份系统的设计与实现

灾难备份对于重要系统具有不可替代的重要性。在9?11事件后,世贸大厦中约有40%的公司倒闭,原因就是支撑其赖以生存的重要数据发生了丢失。然而由于国内尚无自己的容灾产品,并

学位

同步备份Linux内核容灾系统

并行数据库系统负载平衡技术的研究

基于Shared-Nothing结构的并行数据库系统具有良好的可扩展性，既能满足海量数据的存储要求，也能提供高效的查询处理性能，因而得到了广泛的应用。在并行数据库的研究中，负载平衡对

学位

并行数据库数据划分策略数据重组数据迁移动态负载平衡

基于模糊聚类的Web使用模式挖掘研究

Internet网站正在从“以网站为中心”向“以用户为中心”发展,因此Internet网站的发展趋势是个性化智能网站(Personalization Intelligent Web Site)。个性化智能网站应尽可

学位

Web挖掘模糊聚类用户模式个性化智能推荐网站

多媒体通信媒体间同步技术的研究与实现

随着计算机技术的不断发展，特别是流媒体的迅速普及，使得基于流媒体的应用已经广泛深入到包括视频点播、视频会议、远程教育等各行各业中，基于流媒体的技术也随之经历了巨大的发

学位

流媒体ASF多媒体同步多媒体同步模型多媒体同步方法

变分方法在GMS-5气象卫星云图处理中的应用研究

本文主要研究了基于变分方法的云的判别和云分类的方法。首先，本文介绍了卫星云图的特征和以往的处理方法，较全面的介绍了几何曲线演化方法、由Osher和Sethian提出的基于水

学位

卫星云图云型分类云的识别图像分割变分方法几何曲线演化水平集方法Mumford-Shah模型向量图像多通道

基于设计模式的面向对象系统再工程

在过去的十余年中,设计模式在软件工程领域得到广泛的应用和研究,但主要是应用于正向工程和软件生命周期的设计阶段.本文则将把该技术应用于逆向工程和再工程.设计模式是微体

学位

面向对象系统再工程设计模式度量重构

探索式搜索中用户概念发现方法研究

与本文相关的学术论文