论文部分内容阅读
随着互联网的快速发展,网络数据的使用越来越受到人们的关注,海量文本信息的组织和处理问题,是数据挖掘搜索引擎电信业务网络安全网络监管网络信息收集等领域所必然面临的问题,网络环境下产生的海量文本信息所具有的鲜明特点是需要全文检索,数据产生速度快密度大规模大且不间断如何存储管理这类海量文本信息及完成快速检索已经成为当前的一个重要课题而现在存储管理技术往往适用于日积月累形成的海量信息,如何存储管理持续高速的海量文本信息及快速检索尚缺乏十分有效的技术手段本课题来自于哈尔滨市大源恒晟通信技术有限公司的实际项目本课系统主要被应用于公安网络安全领域同时,该系统也可以应用于帮助用户获取大量的个人感兴趣的文本信息本课题所研究的内容,是在分析该类海量文本信息特点的基础上,运用ORACLE10g并行数据库分区表技术ROWID查询技术ElasticSearch分布式架构技术及多线程调度算法,从海量文本信息快速检索这个特定应用出发,设计和实现一个将涉及海量数据加载入库后,对海量文本信息进行数据存储管理文本索引创建及存储管理和文本信息检索通过使用本课题设计和实现的海量文本信息检索系统,可以满足用户快速检索文本信息的需求在完成本课题的过程中,作者分析了海量文本信息存储和访问所需解决的问题基于本课题海量文本信息检索系统的应用领域,作者进行了业务场景的应用描述,并以此归纳成为系统的原始需求最后,作者依据软件开发生命周期,依次从需求分析系统设计和实现以及系统测试这几个方面,详细介绍了课题系统的设计和实现在此过程中,首先,本文使用用例模型分析和总结了系统的功能性需求然后,以此模型为基础设计了整个系统的功能模块和系统体系结构作为这一部分的核心,针对系统的文本信息存储文本索引创建工作引擎和Http检索服务框架这两个组件的设计和实现,本文借助类图时序图流程图模型对它们进行了重点的介绍