信息检索中结构化文档相关度计算方法的研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:windy_yuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会信息化进程的不断发展,人类对信息的需求和依赖程度越来越高,如何从海量信息资源中快速有效的获取有用信息,已经成为人们研究的焦点。早期信息检索的对象多为文本数值信息,现在图形、图像、音频、视频等新型媒体信息急剧增加,并逐渐纳入到信息检索的研究领域。在信息检索中,对文档的自动处理包括对文档的检索、自动分类聚类以及问题-解答系统中的文档检索引擎设计等,其核心问题是文档的相似度计算和相关度计算。由于缺少好的计算模型和算法,大多数情况下,相关度难以量化。再加上相似度高的文档对应的相关度也大,因此,相关度一般被相似度代替,很多文献也没有刻意把二者加以区分。但是,在信息检索和分类聚类中,真正需要的是相关度,单纯利用相似度的效果并不好。所以,本文我们给出一种计算结构化文档相关度的方法。本文主要讨论了如何精确计算结构化文档相关度的理论模型和方法。首先,分析了基于语义内容的文档相关度和基于文档特征的文档相似度之间的区别,提出利用树同构思想测量文档语义相关性。其次,为了更精确地计算文档之间的相关度,在计算过程中还考意了同一棵有序标记树中具有相同标记的结点数多于两个时的“多对一”匹配。第三,基于树编辑距离的基本思想是计算利用编辑操作将一棵树转化为另一棵树所需要的代价。在计算过程中,编辑操作的代价是考虑的中心,树中各结点的权重问题则很少涉及。然而,位于不同层的结点其权重是不同的,所以,本文在计算文档相似度时,加入了结点权重作为一个必不可少的条件,通过为结点赋予不同权重反映匹配结点的位置重要性,对于未匹配结点则首次提出利用影响因子针对不同情况作适当区分。最后,本文给出计算文档相关度的公式,并用实验证明此模型和方法的有效性。
其他文献
管理信息系统已很好地解决了结构化问题。但在实际应用中存在着许多较为复杂的半结构化和非结构化问题需要解决,决策支持系统应运而生。随着数据仓库、联机分析处理和数据挖
随着高速网络技术和多媒体技术的飞速发展,人们越来越多地提出了包括多媒体通信在内的综合服务要求。传统的分组交换网络,如Internet,是面向非实时的数据通信而设计的,只提供“尽
学位
视频交通流参数的检测在智能交通系统(ITS)中起着越来越重要的作用,它能使交通管理者更加全面地了解交通运行状况。常用的交通流参数的检测有多种方式,但其中基于图像处理技
人脸识别技术是计算机模式识别领域非常活跃的研究课题,在法律、商业、安全系统等领域有着广泛的应用。由于人脸图像的特殊性,人脸识别问题也是模式识别领域的一个相当难的问题
管理信息系统(MIS)的开发应用正在我国各个行业兴起。管理信息系统的开发是一项复杂的系统工程。从70年代开始,人们逐渐认识到,为了保证MIS系统开发成功,开发方法一定要科学
伴随着Internet的普及和Web服务的不断发展,传统的、把专家指定的网络应用按照事先制订的方案组合起来,完成一定任务的应用集成模式已经不再适应当前的Web环境:而把现有的、可用
空间查询是空间数据库相关技术研究的重点和难点,反最近邻查询技术已经成为空间查询领域的热点课题。目前反最近邻查询技术的研究还处于起步阶段,各方面的技术还不成熟,存在
随着软件技术的发展和软件项目规模的不断扩大,软件测试的作用越来越重要。在软件测试中,测试数据的选择是进行结构测试的一个难题,测试数据合适与否直接关系到错误能否被预期测
学位