数据归档与信息检索系统的研究与实现

来源 :太原理工大学 | 被引量 : 2次 | 上传用户:odu38sbfsw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着企业信息化建设的推广,企业信息化系统产生海量的历史数据。海量数据造成的存储容量不够、信息检索效率低下、潜在价值难以挖掘等问题成为制约企业信息化发展的瓶颈。因此,研发一套数据归档与信息检索系统来存储和管理企业历史数据显得尤为重要。本文在对数据归档与信息检索系统进行需求分析的基础上,提出跨应用程序的归档数据存储与分类检索方案,采用LUCENE全文检索技术解决历史数据的分类检索问题,应用XML技术解决应用程序间的数据交换问题,以J2EE平台的多层架构体系为基础,将系统分为数据归档、系统管理、用户管理、重构管理及信息检索等五个功能模块,完成了数据归档与信息检索系统的总体设计论文在系统研发过程中所应用的技术主要包括信息检索技术与XML技术。信息检索技术主要介绍了索引维护与管理策略、检索查询策略与结果排序策略,详细分析了三种中文分词策略(基于词典、词频统计、言语意义的中文分词策略)和文档倒排机制。XML技术则主要分析比较了两种模型映射策略:边模型映射策略和结构模型映射策略,并总结它们在不同应用场景下的优劣特性。首先本文采用既符合节点模型映射策略,又符合边模型映射策略的XParent模型对结构化数据进行模式转换,提高数据的通信能力。对于非结构化数据则使用文档解析技术先将异构化的pdf、word、html等格式的数据进行解析,解析完成后参照结构化数据进行模式转换。其次针对LUCENE中文分词上的不足,选用中科院的ICTCLAS分词系统代替LUCENE自带的中文分词系统优化索引的生成与维护,最终按照文档倒排机制,结合文档相似度排序策略实现数据的分类检索,达到提高数据的查准率、查全率的目的。系统的运行结果表明,企业信息系统的运维成本有所降低,历史数据的查准率、查全率、通信能力都符合企业指标,因此,论文所提出的方案是可行的,具有良好的应用前景。
其他文献
描述逻辑是语义Web的逻辑基础,它为本体的知识表达、逻辑推理等提供必要的理论依据。随着Web中本体数量与规模的增加,如何对这些本体进行更新和维护成为一个亟待解决的问题。
故障树分析(Fault Tree Analysis, FTA)方法[2]是当今安全系统工程的主要分析方法之一,广泛应用于航天运载、武器装备、工业生产、交通控制、医疗器械等领域。在现有的FTA方
随着计算机技术的大规模应用与互联网技术的高速发展,计算机已将我们带入了信息化时代。人们对信息获取并对信息进行处理的需求正走向多元化、综合化。分布在互联网中的Web网
随着互联网和移动互联网的发展,涉及数据库的应用程序越来越多。无论是Web或Wap开发应用中的动态网页,还是传统的C/S结构的应用程序都需要数据库来存储数据和管理数据。当前
图像配准是图像处理的基本任务之一,其广泛应用于遥感数据分析、计算机视觉、医学图像处理等领域。其目的是找出不同传感器或相同传感器在不同时间或不同角度下获取的图像之间
随着嵌入式计算平台的性能不断提升,超声工作站系统的实现平台也向着嵌入式平台迁移。采用嵌入式计算方案的超声工作站系统具备便携性强、成本低等优势。超声工作站系统是结合
教学质量评价是中小学教育教学管理的重要部分,从一定程度上说,中小学教育教学是我国人才培养的基石,直接关系到未来人才的质量和数量,对贯彻教育部提出教育教学新理念的实现有一
视觉信息(如颜色、深度等)在视觉中枢的处理过程,至今仍然所知甚少。在视皮层中已发现了对某种颜色或某一个深度有特异反应的细胞。但资料仍然是零碎的,为了透彻地认识视觉的
数据预测指的是根据现有数据的基础估计和推算未来数据的过程。随着互联网技术以及数据库技术的迅速发展,人类进入大数据时代。近几年移动互联网和社交网络的蓬勃发展更是推动
随着科技的发展,三维模型开始进入我们的生活,它的出现让人们认识到二维影像已经不能满足他们在视觉上的需求。人们对逼真视觉的渴求使得三维模型在电影,医学,游戏以及工业设