论文部分内容阅读
信息网络时代中,网络所产生的数据量疯狂增长,非结构化数据越来越多。传统的集中式检索服务在面对海量的数据和大规模的非结构化数据进行检索的速度越来越慢。面对现如今科学经济的快速发展,如何在大规模数据中为人们提供快速、准确和高效的检索服务已经成为了目前亟待解决的问题。随着互联网数据的指数级增长,它促进了分布式系统处理技术的发展,为大规模数据的快速处理提供了技术支持,并为快速、准确和高效的分布式框架的全文检索引擎服务的理论依据打下了基础。本文则主要是针对于目前所流行的Hadoop分布式并行处理技术同全文检索库Lucene进行整合所构建的分布式全文检索模型进行了分析和研究。提出将基于Zookeeper框架的分布式服务协调技术与基于Lucene搜索引擎库技术进行整合,来设计一个基于Zookeeper框架的分布式全文检索服务模型。该模型通过利用Zookeeeper协调服务技术所具有的特点,提出一种适合于Zookeeper框架的分布式加权轮询调度算法。还通过使用事务处理的监控机制和分布式锁服务来解决服务器节点之间所存在数据的正确性、一致性和同步性,以及共享资源的并发访问控制等问题。并通过利用HBase的特性与Zookeeper服务协调特性进行结合,提出一种适合于本系统的Zookeeper-HBase分布式计算框架模型。在中文分词方面,本文通过对BILSTMCRF模型和BIGRU模型进行分析和研究,提出BIGRUATHWCRF6神经网络中文分词模型(基于双GRU门控单元的循环神经网络模型并为其引入注意力机制、Highway network机制与条件随机场模型,并采用6词位标签集)来对Lucene库中的中文分词解析器进行重构。在检索排序方面,针对于BM25F算法对论文的发表时间以及在检索词查询中,根据长短词汇所包含的不同语义来进行重点检索的问题,本文通过对论文发表的时间设置不同的参数权重,以及对查询词中具有不同语义的长短查询词,根据其出现在论文中的不同区域设置不同的权重参数,并设置阀值筛选出检索关联性更强的长词汇或短词汇权重,来对BM25F算法公式进行改进,从而提高系统服务的效率。通过对本系统进行若干次的实验所获取的稳定结果证明,完全可以达到预期所设想的结果。