论文部分内容阅读
21世纪是一个高度信息化的社会。随着社会的快速发展,计算机技术的广泛应用,信息在人们生活中的意义越来越重要,并呈现出海量化、多样化的发展趋势。为了合理有效地组织和管理这些信息,特别是信息中文本等非结构化数据,信息检索领域中的全文检索技术得到了人们的普遍关注和研究。
全文检索技术发展至今,经过几十年的积累与沉淀,已经从最初的字符串匹配程序演变成能对超大文本、视频、音频、图像等非结构化数据进行综合管理的一门学科,并成功应用于搜索引擎、数据挖掘和数字化资源管理等技术中。全文检索的性能取决于所采用的全文索引模型,它可以对文本等非结构化数据提供有效的管理和快速的查询。
本文主要介绍了目前流行的几种索引模型,通过对它们的比较、结合未来全文检索技术的发展趋势,选取了一种索引模型--后缀树模型为研究对象进行深入的探索,并提出了当把它应用于全文检索时对其性能进行改进的方法。
针对后缀树全文索引模型在信息检索应用中存在的不足,本文的主要工作包括了以下三个方面:
1.以传统后缀树全文索引模型为基础,通过对其模型结构与查询算法的分析,提出了一种改进的全文索引模型--基于邻接字符对的三元后缀树全文索引模型。新模型降低了原模型索引创建的复杂度,提高了索引的空间效率和查询效率。
2.以国内一种著名的后缀树改进模型--互关联后缀树模型为研究对象,借鉴以存储空间换取查询时间的理论思想,以赋权有向图将文本库进行形式化描述,通过为此赋权有向图创建邻接表存储结构,以减少检索时索引项的比较次数,从而提高模型的查询效率。
3.将后缀树全文检索技术与数据挖掘技术相结合,应用于文本挖掘领域,与经典频繁模式挖掘算法-Apriori算法相比,挖掘效率更加有效。