基于分布式架构的海量文本信息检索系统的设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:mint_z
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,网络数据的使用越来越受到人们的关注,海量文本信息的组织和处理问题,是数据挖掘搜索引擎电信业务网络安全网络监管网络信息收集等领域所必然面临的问题,网络环境下产生的海量文本信息所具有的鲜明特点是需要全文检索,数据产生速度快密度大规模大且不间断如何存储管理这类海量文本信息及完成快速检索已经成为当前的一个重要课题而现在存储管理技术往往适用于日积月累形成的海量信息,如何存储管理持续高速的海量文本信息及快速检索尚缺乏十分有效的技术手段本课题来自于哈尔滨市大源恒晟通信技术有限公司的实际项目本课系统主要被应用于公安网络安全领域同时,该系统也可以应用于帮助用户获取大量的个人感兴趣的文本信息本课题所研究的内容,是在分析该类海量文本信息特点的基础上,运用ORACLE10g并行数据库分区表技术ROWID查询技术ElasticSearch分布式架构技术及多线程调度算法,从海量文本信息快速检索这个特定应用出发,设计和实现一个将涉及海量数据加载入库后,对海量文本信息进行数据存储管理文本索引创建及存储管理和文本信息检索通过使用本课题设计和实现的海量文本信息检索系统,可以满足用户快速检索文本信息的需求在完成本课题的过程中,作者分析了海量文本信息存储和访问所需解决的问题基于本课题海量文本信息检索系统的应用领域,作者进行了业务场景的应用描述,并以此归纳成为系统的原始需求最后,作者依据软件开发生命周期,依次从需求分析系统设计和实现以及系统测试这几个方面,详细介绍了课题系统的设计和实现在此过程中,首先,本文使用用例模型分析和总结了系统的功能性需求然后,以此模型为基础设计了整个系统的功能模块和系统体系结构作为这一部分的核心,针对系统的文本信息存储文本索引创建工作引擎和Http检索服务框架这两个组件的设计和实现,本文借助类图时序图流程图模型对它们进行了重点的介绍
其他文献
以某新型后悬架上控制臂橡胶衬套的疲劳耐久试验为研究对象,对室内道路载荷谱试验进行研究,提出一种加速试验方法。针对衬套的受力情况和载荷谱的特点研究加速试验方法,应用损伤
目的探讨可弯曲喉罩应用在小儿腭裂手术中的可行性。方法选取择期行腭裂修复术的患儿60例。随机分为可弯曲喉罩组(观察组)和气管插管组(对照组)两组,每组各30例。对比麻醉诱
通过电磁阀及颤振算法建模,验证颤振算法的电磁阀控制可行性;以Micro Autobox&RapidPro为平台,对不同颤振参数、不同波形及在不同温度下,对电磁阀建压影响情况进行研究。
对汽车零部件售后市场品牌产品价格混乱的成因进行分析。对如何控制价格进行了探索并提出建议。
"一号文件"是党中央、国务院聚焦"三农问题",为实现农村改革和发展而出台的相关政策文件,对我国农村的改革发展产生了深刻的影响。文章运用政策变迁理论的机会模型尝试分析改
目的讨论大剂量重组人生长激素(rh GH)对小于胎龄儿(SGA)矮小症患者胰岛素样生长因子(IGF-1)、胰岛素样生长因子结合蛋白-3(IGFBP-3)、生长速率(HV)的影响,为SGA矮小症状患者
印花技术源远流长,新疆维吾尔族生活中有印花布和印花毡。本文以印花模具中的木戳印花和镂版印花技艺为着眼点研究新疆维吾尔族的印花布和印花毡,对印花布和印花毡的模具进行
本文阐述了矿产资源可持续力评价的指标体系框架,从资源、经济、社会、环境和智力等五个方面设置了评价指标,建立了矿产资源可持续力评价的模糊综合评价模型,并详细论述了评
<正>我国现阶段对加快转变发展方式、优化经济结构、转换增长动力提出紧迫要求,必须按照党的十九大"加快建设现代化经济体系"要求,将有关任务落到实处党的十九大报告明确指出