论文部分内容阅读
毫无疑问,大数据时代已然来临。阿里巴巴集团创始人马云曾说过:“21世纪核心的竞争是数据的竞争。”和农业革命、工业革命一样,数据革命已经正潜移默化地影响着人们生活、学习和工作的传统方式,并成为社会发展的源源不断的动力。毋庸置疑,大数据的热潮已经席卷了各大中小型科技公司并已经落地开花。然而,由于对新技术的不敏感和对核心技术缺乏实践,我国各级政府部门还未完全发掘出大数据对政务工作带来的巨大便利。在技术革新的关键节点,全面、深入地研究大数据的内涵及其核心技术,借着现阶段公安信息化建设的大好势头,建设数据驱动的公共安全型社会,具有很强的现实意义。本文首先深入剖析大数据时代公安业务客观发展需求与存在的问题,并以相关技术为背景,结合系统功能和需求,提出针对性的解决方案与对策。然后对照相应的需求,设计并实现系统具体的功能。本论文研究的内容有以下几个方面:1.全文检索关键算法的研究和改进算法的提出。在分析了常规中文分词器的关键算法之后,提出了本系统中使用基于双数组Trie和Edge Ngram算法的DT分词器的改进方案;在分析了倒排索算法之后,提出了采用倍增算法的改进措施;在分析了相关性算法和评分等算法之后,提出了基于LTR的改进排序算法。2.新型全文检索系统的设计。利用多种分布式技术和本论文提出的改进后的分词算法、倒排索引算法和排序算法,设计一个新型全文检索系统,包括Hadoop和HBase数据存储模块、基于本论文提出的DT分词器、LTR和Elasticsearch结合的数据检索模块和保证数据一致性的数据同步模块。3.针对海量公安业务数据,应用新型全文检索系统。实现了相关高效检索算法应用于实际应用场景,详细阐述了各个模块的具体实现,完成系统的性能测试和结果分析,实验证明该系统能应对大数据环境下海量公安数据的存储和检索,系统具有高可用性,可扩展性,高效的数据读写和查询效率。