论文部分内容阅读
本文就中文全文检索的不同算法模型,特别是基于分词和基于单字的不同全文检索算法进行了比较,分析了各自的优缺点和实现的难点,针对实际应用提出了一套不依赖于具体机器和操作系统的基于单字的中文全文检索系统的数据结构和算法模型。
首先,描述了倒排表的工作原理。通过对其检索效率的详细分析找出了影响其检索速度的瓶颈所在,进而针对这些问题提出了后继倒排表的存储结构,从而提高了检索的效率。
其次,用C++描述了如何开发一套完整的中文全文检索系统。为了便于灵活地对比各种索引压缩方案的性能,充分利用面向对象的多态性设计系统结构。用C++类封装各种索引的管理功能,类的内部实现对索引文件逻辑信息的组织和I/O,并向外部提供功能函数。
最后,对针对后继倒排表存储结构的索引特点提出了存储空间和检索的优化方案。设计了一种可以反馈用户对检索结果满意程度的排序算法,从而提高了检索的查准率。