后缀树全文索引模型的研究与应用

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:shengfusky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪是一个高度信息化的社会。随着社会的快速发展,计算机技术的广泛应用,信息在人们生活中的意义越来越重要,并呈现出海量化、多样化的发展趋势。为了合理有效地组织和管理这些信息,特别是信息中文本等非结构化数据,信息检索领域中的全文检索技术得到了人们的普遍关注和研究。   全文检索技术发展至今,经过几十年的积累与沉淀,已经从最初的字符串匹配程序演变成能对超大文本、视频、音频、图像等非结构化数据进行综合管理的一门学科,并成功应用于搜索引擎、数据挖掘和数字化资源管理等技术中。全文检索的性能取决于所采用的全文索引模型,它可以对文本等非结构化数据提供有效的管理和快速的查询。   本文主要介绍了目前流行的几种索引模型,通过对它们的比较、结合未来全文检索技术的发展趋势,选取了一种索引模型--后缀树模型为研究对象进行深入的探索,并提出了当把它应用于全文检索时对其性能进行改进的方法。   针对后缀树全文索引模型在信息检索应用中存在的不足,本文的主要工作包括了以下三个方面:   1.以传统后缀树全文索引模型为基础,通过对其模型结构与查询算法的分析,提出了一种改进的全文索引模型--基于邻接字符对的三元后缀树全文索引模型。新模型降低了原模型索引创建的复杂度,提高了索引的空间效率和查询效率。   2.以国内一种著名的后缀树改进模型--互关联后缀树模型为研究对象,借鉴以存储空间换取查询时间的理论思想,以赋权有向图将文本库进行形式化描述,通过为此赋权有向图创建邻接表存储结构,以减少检索时索引项的比较次数,从而提高模型的查询效率。   3.将后缀树全文检索技术与数据挖掘技术相结合,应用于文本挖掘领域,与经典频繁模式挖掘算法-Apriori算法相比,挖掘效率更加有效。
其他文献
随着市场竞争的日益激烈,企业之间的联系越来越紧密,企业必须寻找一种方法能够对其业务进行快速重组和快速应变,以提高自身的竞争力和适应性。Web服务组合是获得上述目标的一个
如何生成真实感三维人脸模型是计算机图形学和计算机视觉领域一个重点研究课题,当前三维人脸建模技术应用领域涵盖计算机人脸动画、影视、虚拟现实、人脸识别、游戏等多个方面
在激光通信中,对信标光斑的捕获、瞄准和跟踪,即APT (Acquisition, Pointing and Tracking)技术非常重要,决定着通信链路的建立与维持是否成功。本文将摄像测量系统的摄像机
在现实世界中,大量的复杂系统都可以用抽象的社会网络来表示和分析。继发现社会网络的小世界性、无标度性以后,人们发现了它的另一个统计特征——簇结构特性,它具有相同簇结构内
信息时代的到来导致在机器学习过程中,学习数据趋向于更大规模,更高维度,并且具有复杂噪声,从而给模型的训练与学习提出了挑战。因此,充分地对数据进行分析挖掘,提取出数据中
伴随着信息时代的发展,网络已经成为人们最重要、最便捷的信息传播工具。而在网络带给我们巨大便利的同时,各种不良的信息也随之传播扩散,暴力、色情等不健康信息充斥在网络
手势作为一种新型的数据输入方式,可实现与计算机系统之间更为自然、便捷的交互,在游戏、医疗、教育等领域得到了越来越广泛的应用。而随着应用领域的不断拓展,各种新型的应用,如
零件排样在制造业中具有广泛的应用,计算机排样可以把零件的排样通过计算机解决,不但提高排样的效率,同时可以大大提高材料的利用率。计算机排样具有广泛的应用场景和重要的研究
随着数字图像处理技术和计算机的飞速发展,多媒体应用走进了人们生活、工作的方方面面。大到国家安全、社会稳定,小到普通家庭日常生活,都在被多媒体的发展改变着。正是这些日益
随着VPN产品市场规模的不断扩大,越来越多的网关设备实现了L2TP协议,但是由于各厂商没有统一的测评标准和相应的自动化测试工具,加之IPv6等新一代网络协议标准的提出使协议栈的