基于Zookeeper框架的分布式全文检索技术的研究

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户：ericchenfeng

【摘要】

：

信息网络时代中,网络所产生的数据量疯狂增长,非结构化数据越来越多。传统的集中式检索服务在面对海量的数据和大规模的非结构化数据进行检索的速度越来越慢。面对现如今科学

【作者】

：

孔杰

【出处】

：

桂林理工大学

【发表日期】

：

2004年期

【关键词】

：

Zookeeper分布式框架 Lucene搜索库中文分词检索结果排序

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

信息网络时代中,网络所产生的数据量疯狂增长,非结构化数据越来越多。传统的集中式检索服务在面对海量的数据和大规模的非结构化数据进行检索的速度越来越慢。面对现如今科学经济的快速发展,如何在大规模数据中为人们提供快速、准确和高效的检索服务已经成为了目前亟待解决的问题。随着互联网数据的指数级增长,它促进了分布式系统处理技术的发展,为大规模数据的快速处理提供了技术支持,并为快速、准确和高效的分布式框架的全文检索引擎服务的理论依据打下了基础。本文则主要是针对于目前所流行的Hadoop分布式并行处理技术同全文检索库Lucene进行整合所构建的分布式全文检索模型进行了分析和研究。提出将基于Zookeeper框架的分布式服务协调技术与基于Lucene搜索引擎库技术进行整合,来设计一个基于Zookeeper框架的分布式全文检索服务模型。该模型通过利用Zookeeeper协调服务技术所具有的特点,提出一种适合于Zookeeper框架的分布式加权轮询调度算法。还通过使用事务处理的监控机制和分布式锁服务来解决服务器节点之间所存在数据的正确性、一致性和同步性,以及共享资源的并发访问控制等问题。并通过利用HBase的特性与Zookeeper服务协调特性进行结合,提出一种适合于本系统的Zookeeper-HBase分布式计算框架模型。在中文分词方面,本文通过对BI_LSTM_CRF模型和BI_GRU模型进行分析和研究,提出BI_GRU_AT_HW_CRF₆神经网络中文分词模型（基于双GRU门控单元的循环神经网络模型并为其引入注意力机制、Highway network机制与条件随机场模型,并采用6词位标签集）来对Lucene库中的中文分词解析器进行重构。在检索排序方面,针对于BM25F算法对论文的发表时间以及在检索词查询中,根据长短词汇所包含的不同语义来进行重点检索的问题,本文通过对论文发表的时间设置不同的参数权重,以及对查询词中具有不同语义的长短查询词,根据其出现在论文中的不同区域设置不同的权重参数,并设置阀值筛选出检索关联性更强的长词汇或短词汇权重,来对BM25F算法公式进行改进,从而提高系统服务的效率。通过对本系统进行若干次的实验所获取的稳定结果证明,完全可以达到预期所设想的结果。

其他文献

实尺度立管受迫振动流体力的数值模拟分析

国际上基于半经验模型的涡激振动预报软件采用模型尺度受迫振动实验归纳的流体力数据库。鉴于常用尺寸的立管直径远大于模型圆柱,且处于实际海洋洋流条件下,雷诺数将远大于模

学位

实尺度立管流体力受迫振动TVD-FVM方法

栽前灌溉与生物炭配施对植烟土壤特性及烤烟生长的影响

为改善土壤环境,提高烟叶品质,2016年在许昌研究栽前灌溉与生物炭施用对060cm土层植烟土壤含水量、土壤速效养分、土壤微生物及对烤烟生长、烤后烟叶品质的影响,为探索优质烟

学位

烤烟灌溉生物炭发育土壤

炭基肥料氮素有效性及对烤烟生长发育和品质的影响

为了确定炭基肥料氮素有效性,以及田间减氮效果,以响应农业部化肥零增长和国家烟草专卖局化肥施用量减少30%以上的计划,同时实现改良土壤,提高烟叶品质等目标,于2016年在河南

学位

炭基肥碳氮矿化特征烤烟氮肥利用率烤烟品质

福州市发展服务外包产业的问题和对策研究

福州市服务外包产业始于上个世纪八十年代,并在我国服务外包的整体发展的大背景下获得了快速发展的机遇。为了促进福州市服务外包产业的发展,福州市政府出台了一系列扶持政策

学位

福州市服务外包问题对策

BTESE衍生的二氧化硅复合膜的制备及其渗透汽化性能

目前,应用于渗透汽化的分离膜多为分子筛膜,但分子筛膜的不耐酸性限制了渗透汽化的应用范围。二氧化硅具有良好的耐酸碱性及耐热性,是耐酸性膜材料的极佳选择。然而,无定形二

学位

二氧化硅复合膜溶胶凝胶法水热稳定性渗透汽化

淫羊藿多糖的结构特征及其免疫增强活性的研究

淫羊藿为小檗科植物淫羊藿的干燥叶,是我国传统补益中药,具有补肝肾、强筋骨、调节免疫、抗氧化、衰老、肿瘤等作用。淫羊藿多糖为淫羊藿的有效成分,具有调节免疫、抗病毒、

学位

淫羊霍多糖结构特征淋巴细胞增殖细胞因子鸡骨髓源树突状细胞抗体效价

液体中圆形体由变形耦合质心改变产生的运动

流体中变形体的自推进以及多个运动物体之间的水动力相互作用问题一直以来是理论流体力学的重要课题,并且有着重要的工程应用,特别是在水下机器人和海洋运载工具的设计方面具

学位

单个圆形体膨胀/收缩变质心两个圆形体自推进运动

CRISPR/Cas9靶向敲除PTPRQ基因对结肠癌细胞生物学行为的影响

目的:本研究以人结肠癌HCT-116细胞为研究模型,旨在探究PTPRQ对肿瘤细胞生物学行为的影响及其机制。方法:1.构建pCDgRNApuro-PTPRQ和Cas9重组质粒,转染人结肠癌HCT-116细胞,

学位

受体型蛋白酪氨酸磷酸酶Q结肠癌信号通路生物学行为

基于定点激振的沥青路面结构动力响应数值分析

目前我国沥青路面设计仍是基于静力学的基础上,但在轴载大、车速高的行车作用下,路面结构的受力特性与静载作用模式下的受力特性差距越来越大,路面结构的动力学特性也远非静

学位

沥青路面定点激振动力响应数值分析

光诱导可再生型电化学适体传感器和逻辑门的研究

核酸适体是一段寡核苷酸链或多肽分子,它们以高亲和力结合特定的靶分子,被认为是抗体的潜在替代品,在基础研究和实际样品分析中具有广泛的应用前景。电化学检测技术作为一种成本低廉、操作简单、灵敏度高、背景信号低的检测方法,已被广泛应用于生化领域的分析检测。电化学生物传感器与DNA分子逻辑门的结合对于实现DNA分子逻辑的实用化具有重要意义。本文旨在通过利用电化学检测技术构建基于核酸适体的光诱导可再生型生物传

学位

核酸适体光诱导偶氮苯电化学传感器逻辑门

基于Zookeeper框架的分布式全文检索技术的研究

其他学术论文