论文部分内容阅读
网络的飞速发展使得对高质量的Web文本信息检索的需求变得空前迫切。在大多数信息检索任务中,用户的需求描述模糊而简短,而已知文档信息的描述空间则非常大且内容复杂。因此信息检索中的最大问题就是用户查询空间描述的信息与已知文档空间信息表示的不匹配。这也是本文重点要解决的问题。主要工作包括以下方面:第一,从文档空间的角度入手,研究文档中主要特征的抽取、表示和检索策略。根据Web文档的结构信息,提出主特征空间的概念,在此基础上提出一种不同于传统IDF思想的基于DF因子的主特征词权值计算方法,改进现有相似度计算模型。在大规模测试数据集上的实验结果表明,检索性能得到了大幅度的稳定提高。
第二,从查询空间的角度入手解决信息不匹配问题。通过总结人类信息检索的思维模式,提出一种基于查询扩展的文档重构方法。与传统查询扩展思想相反的,将文档中散布且独立的表示相同信息的词语聚集起来,替换为与查询信息一致的概念。进一步地,给出一种有效的文档重构实时检索策略,从而解决了该方法在实际应用中的可行性问题。比较实验表明文档重构方法能够对系统性能带来10%到24%的提高。
第三,针对用户检索需求的发展趋势,研究相关新信息的抽取问题。不同于传统方法中对称的文档“相似性”衡量,提出了非对称的信息“覆盖度”衡量方法,以及基于词项扩展和覆盖的改进信息匹配计算方法。实验证明,基于扩展和覆盖的新信息抽取能够实现系统的性能改善和提高。
第四,研究如何使用有效的检索策略进行信息匹配性计算。针对传统上依据经验值设定检索模型参数泛化能力弱的问题,提出一种使用遗传算法进行无指导参数学习的方法。在多个大规模测试集上均取得很好的效果,学习到的参数总能得到接近甚至达到检索的最优性能。
第五,对检索结果信息集成问题进行了研究。针对分布数据集的检索结果提出按位加权插入合并算法,改变了以前研究中对数据在不同子集中“平衡分布”的要求,并突破了传统方法中分布数据结果合并后的性能总是差于集中数据集检索性能的局限;针对相同数据集上的不同检索结果集成,分别提出基于排序倒数和基于过滤增强的结果合并方法,经过大规模比较实验验证了两种方法的有效性。
综合运用论文中研究的方法,设计并实现了一个文本信息检索实验系统,并参加了2002年度文本信息检索国际标准评测会议(TREC2002),在Web信息检索和新信息抽取两个项目上均领先于国际上所有其他参加研究机构,取得了两个第一名,从而验证了论文中提出的各种方法的有效性和可行性。