论文部分内容阅读
本文研究的主题包含中文信息检索与结构化信息检索两个方面,分别从中 文信息检索系统中文档与查询条件相似性计算、查询扩展、查询条件的翻译及 结构化信息检索等四点进行了研究与探讨。本文的主要贡献如下: (1) 论述了基于中文语词的索引方法是中文信息检索系统中必然采取的索 引方法。系统地阐述了一种新的计算检索词间关联关系的方法-基于PM 的检 索词对权重计算方法,并将其引入到文档与查询条件的相似性计算中。 (2)研究了中文信息检索系统中检索词对的邻近关系值与互信息值对系统 检索性能的影响,实验结果表明当检索词对互信息计算的精度较低时,检索词 对的邻近关系值比互信息值对系统的检索性能的提高更有帮助。 (3)提出了基于局部信息中检索词间关联矩阵的查询扩展方法。在由初始查 询条件得到的前列文档集中,采用基于第二级关联假设自动主题词表的构建思 想计算得到前列检索词及其权重值,并加入到初始查询条件中实现查询扩展。 (4)提出了基于检索词间互信息的查询条件翻译方法,为查询条件中检索词 的译项选择提供了新的方法,并间接地通过检索词的关联序列较好地保存了查 询条件中的短语信息,构造出了检索词带有权重信息的目标语种的查询条件。 (5)分析了利用XML 文档中的结构信息来提高传统信息检索系统检索性能 的方法。通过引入文档结构索引库、元素索引库及属性索引库实现了面向XML 文档的结构化查询,设计出了中文结构化信息检索系统CSIR,并实现了其主要 的一些功能。