模糊同义词典在VSM文本信息检索方法中的应用

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:b777300
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本作为信息的主要存储形式正在以惊人的速度增长。为了便于查找信息,多种信息检索模型应运而生,并在实际应用过程中得到了完善和提高。当然文本信息检索也存在一些问题函待解决。例如,检索模型经常会检索出大量包含查询条件中的个别词语但是与整个查询条件并不相关的信息垃圾,或是检索结果遗漏与查询条件高度相关但并不包含查询条件中关键词的相关信息。因此,在现有的检索结果较好的文本信息检索方法的基础上进行改进,是有重要意义的工作。 通过对常用的文本信息检索方法的比较和分析,本文选取了VSM(向量空间检索模型)作为原型。改变了向量的提取方式,将中心词及其修饰成分结合起来形成Term(短语)作为向量中的特征被提取出来。通过修饰语对中心词的约束作用,使得系统缩小检索范围,在一个比较准确的相关领域内检索,滤出那些只包含查询语句中的个别词语但与查询并不相关的信息垃圾。建立模糊同义词典扩展查询,对原本查询向量中的词语进行适当的语义扩展,根据同义词间的相似度修改查询向量中维的权重。这样可以使得查询相关信息的覆盖面扩大,检索出不包含查询向量关键词但是与查询语句高度相关的信息。在查询语句与文档进行匹配的过程中,我们提供了一个可选择阈值,它可以根据用户的不同需求调整检索系统的输出结果,为用户提供更加完善的服务。为了检验应用模糊同义词典的VSM方法的效果,我们设计并实现了一个新的文本信息检索系统。选取了通用的语料库与查询语句作为实验数据,实验结果表明:应用模糊同义词典的VSM方法在精确度和召回率等重要的系统性能评价指标上确有改善。
其他文献
传统的视觉跟踪系统是基于“摄像机—图像采集卡—通用PC机”三者为一体的系统,在通用PC机上主要是软件实现图像处理,能够提供中等的图像处理能力,但是要占用CPU几乎全部的处理
当今世界各国无不存在着交通拥挤问题。有限的土地和经济节约使得道路建设不可能达到让人满意的效果,为了提高交通路网的通行能力,就需要综合运用现代信息与通讯技术等手段来提
在当今这个数字化时代,各种基于网络的应用逐渐升温.该文紧跟时代潮流,探索传统机器人感知技术与新兴网络技术的交叉与融合,力求实现具有良好网络功能的感知系统,拓展其功能
近二十年来,随着多尺度技术在信号处理领域的广泛应用,多尺度系统理论日趋成熟。目前,一般将多尺度系统分为两大类:SMS(统计多尺度系统,Statistical Multiscale System)和DMS(动态
准柔性制造系统(P-FMS)是一种适合我国国情的经济型的柔性制造系统,其主要特征是:适当降低自动化程度;放弃无人化要求;允许NC机床、普通机床、人工工位并存于一条加工线之中;充分
作为DVD驱动和管理SOC(System On Chip)芯片中的一部分,DVD伺服控制微处理器被设计用来执行DVD系统的伺服控制程序,如聚焦,旋转,寻道,寻迹等控制任务。 为了获得比较高的性能,设
该文对网络化控制系统的故障诊断和容错控制问题进行了深入的研究,创造性地提出了一些新方法,较好地解决了在各种网络时延条件下的故障检测、故障分离、容错控制,以及干扰解
图像配准是图像融合、图像拼接、目标检测以及三维重建等众多计算机视觉领域中重要的基础步骤。在不同时间、不同视角或者由不同传感器拍摄的同一场景中的图像,往往存在平移
本文所研究的课题是浙江省科技计划项目“便携式数码助理”(重点科研项目,项目编号021105805)。 便携式数码助理为一消费电子产品,它可以在没有电脑的情况下完成转存数码设
随着科学技术和自动化水平的不断提高,现代工业过程的自动化控制朝着大型化、复杂化的方向发展,这类系统和设备一旦发生故障,不仅造成巨大的经济损失,甚至造成人员伤亡和环境