【摘 要】
:
随着网络信息时代的到来,信息日新月异,并呈指数增长趋势,形成“信息爆炸”。在进行信息检索时,与用户需求匹配的信息经常不在检索结果内,而大量用户不需求的信息——“信息垃圾”
论文部分内容阅读
随着网络信息时代的到来,信息日新月异,并呈指数增长趋势,形成“信息爆炸”。在进行信息检索时,与用户需求匹配的信息经常不在检索结果内,而大量用户不需求的信息——“信息垃圾”,却占用检索结果的相当大的一部分。因此,改进文本信息检索系统的检索性能,提高检索质量就成为亟待解决的问题。 该论文的主要研究目的是,针对可能影响检索效力的一个容易被忽略的因素——修饰语,研究其在文本信息检索中的作用。针对这一目的,开发了改进的向量空间模型(Modified Vector Space Model,MVSM),并使用英文文本进行了试验,进而说明修饰语的作用。 本文通过对修饰语作用的研究,主要取得以下成果: (1)传统模型(如布尔检索模型)的查询语句关键词以及文本关键词仅仅为独立的实词(名词、动词、形容词、副词),将传统的向量空间模型(Vector Space Model,VSM)进行改进,设计并实现了能够完成该研究目的的信息检索模型(MVSM)。该模型与传统向量空间模型主要区别以及优点在于:它将传统的检索关键词(本文中主要指名词)与修饰它的修饰语(本文中主要指形容词)作为一个整体关键词来看待,一定程度上确定了歧义词的真正含义;同时,将检索关键词中的修饰语以及它所修饰的中心词根据它们的同义词进行扩展并重组,使得一些由于用词生僻而原本检索不出来的却符合用户需要的文本能够检索出来。 (2)使用标准语料库(TREC),运用设计好的MVSM模型,输入共150个查询语句,进行各种针对修饰语的试验,并将其结果与普通检索试验的结果进行比较,从而说明了考虑了修饰语的模型的意义。 (3)对于信息检索系统主要从精确率、召回率两方面指标进行评价,并使用Excel画出试验结果图进行统计说明,更加形象地看出,MVSM模型的检索精确率、召回率比普通检索有一定程度提高。试验结果表明,修饰语在文本信息检索中的作用的确不可忽略。
其他文献
视频运动目标跟踪技术,作为计算机视觉研究领域的核心课题之一,融合了图像处理、模式识别、人工智能、自动控制以及计算机等若干领域的先进技术,并在军事制导、视频监控、机器人
随着电力系统规模的扩大,电网逐渐实现跨区域互联,其结构和动态行为日益复杂,电网的安全稳定性问题受到了高度关注。传统的SCADA系统侧重于系统稳态运行情况的监测,但是无法对系统的动态行为进行有效的监测,广域测量系统的出现和发展为电力系统运行的监控、稳定分析和控制提供了新契机。广域测量系统是基于同步相量测量和现代通信技术,为电力系统实时控制和运行服务的系统,能够对地域分布广阔的电力系统运行状态进行监测
随着风力发电的迅速发展,电网对风电场有功功率的输出品质提出了更高的要求,“电网友好型”概念应运而生。如何高效利用风能,提高风力发电品质,使风电场拥有传统电场对电网的调度能力成为当前研究热点。针对提高有功功率控制品质的问题,区别于传统的控制方法,许多学者提出了多模型、先进算法等控制策略。为了进一步研究基于电网调度的功率控制方法,除了需要良好的控制方案,也需要精确的风力发电机组模型。本文通过阅读大量相
近年来,先进的城市交通控制系统在世界上得到了迅速的发展和应用.一方面,它可以大大地提高交通运输的效率和安全性;另一方面,它对土地资源和能源的合理利用、对环境的改善,以
随着信息和网络技术的不断进步, CIMS在制造企业的信息化建设中发挥着愈加重要的作用。敏捷制造是CIMS在更大范围和更高程度上的继承和发展。虚拟企业的组织方式和虚拟制造的
将虚拟仪器技术应用于实验教学对于提高教学质量、合并实验室组建实验中心具有重要意义。本文针对高校信息类实验室,提出了一套低成本的适用于实验教学的通用虚拟实验系统方案
实现中药的现代化已经成为国家的重要目标,加强中药品质评价的现代化与标准化是其中的重要内容,建立在色谱分离技术上的中药指纹图谱是完成这一内容过程中的重要关键技术.但
虚拟信息顾问是一种虚拟智能体,它能够根据用户输入的相关提问,在相应的信息资源库中搜索并返回一个经过分析处理的答案。该系统的研制开发,给网上冲浪经常遇到的“信息爆炸
本文研究和分析了Web技术及磁致伸缩器件的发展状况。根据磁致伸缩换能器的等效电路,研究了确定磁致伸缩换能器的谐振频率及电气模拟网络参数的方法。同时,利用JSP技术,构建了基