论文部分内容阅读
文本作为信息的主要存储形式正在以惊人的速度增长。为了便于查找信息,多种信息检索模型应运而生,并在实际应用过程中得到了完善和提高。当然文本信息检索也存在一些问题函待解决。例如,检索模型经常会检索出大量包含查询条件中的个别词语但是与整个查询条件并不相关的信息垃圾,或是检索结果遗漏与查询条件高度相关但并不包含查询条件中关键词的相关信息。因此,在现有的检索结果较好的文本信息检索方法的基础上进行改进,是有重要意义的工作。 通过对常用的文本信息检索方法的比较和分析,本文选取了VSM(向量空间检索模型)作为原型。改变了向量的提取方式,将中心词及其修饰成分结合起来形成Term(短语)作为向量中的特征被提取出来。通过修饰语对中心词的约束作用,使得系统缩小检索范围,在一个比较准确的相关领域内检索,滤出那些只包含查询语句中的个别词语但与查询并不相关的信息垃圾。建立模糊同义词典扩展查询,对原本查询向量中的词语进行适当的语义扩展,根据同义词间的相似度修改查询向量中维的权重。这样可以使得查询相关信息的覆盖面扩大,检索出不包含查询向量关键词但是与查询语句高度相关的信息。在查询语句与文档进行匹配的过程中,我们提供了一个可选择阈值,它可以根据用户的不同需求调整检索系统的输出结果,为用户提供更加完善的服务。为了检验应用模糊同义词典的VSM方法的效果,我们设计并实现了一个新的文本信息检索系统。选取了通用的语料库与查询语句作为实验数据,实验结果表明:应用模糊同义词典的VSM方法在精确度和召回率等重要的系统性能评价指标上确有改善。