论文部分内容阅读
随着国际互联网的快速普及,通过网络共享的中文信息资源以接近指数级的速度递增。要从这么多的网页中找到我们需要的信息,无疑像大海捞针一样困难,而信息检索技术就是为了帮助人们快速地找到所需的信息。 中文作为一种典型的以表意为基础的象形文字,与西方的拼音文字有很大的不同,适用于西方拼音文字中的检索方法并不能直接应用于中文。本文对中文信息检索中的几个重要问题进行了研究。主要的工作包括以下几个方面: 第一,使用基于查询手工词切分的方法对中文文本的各种特征表示方法进行了比较研究。本文的试验结果为将来中文文本信息检索研究提供一个重要的参考,对于研究者探索新的索引策略是一个很重要的依据,对于为了改进索引策略或检索模型而进行的在同等条件下不同策略的比较研究也具有重要的指导意义。 第二,通过研究考察已有的查询扩展技术在中文信息检索中的有效性,并根据人类进行信息检索的思维模式,提出了一种新的基于相关术语群的查询扩展技术。在NTCIR-4和NTCIR-5中文信息检索测试集上进行的实验表明,相对于传统的查询扩展,利用机器自动构建的相关术语群的查询扩展方法在检索效果上取得了较大的提高。不同于传统的查询扩展方法的是:本文同时利用了检索语料外部和内部的,以及检索文档局部和全局的各种不同的相关性信息,从而克服了使用单一某种相关性信息的缺点,提高了查询扩展的性能。 第三,设计并实现了一种中文信息检索系统。本系统具备良好的可扩展性,可以适应从个人资料库到大型数字图书馆的不同规模的应用。 第四,综合运用本论文中研究方法和检索软件系统,我们参加了2005年度在日本举行的文本信息检索国际标准评测会议(NTCIR-5),在中文单语检索项目中取得了第五名的成绩,从而验证了论文中方法的有效性和可行性。