论文部分内容阅读
Web2.0的来临引领人们进入大数据时代。据统计,80%以上的数据是非结构化数据,且逐年增长。面对这些海量、异构、非结构化的数据,如何快速有效地从中检索到有用的信息是一个值得研究的问题。本文的主要工作如下:首先,提出了分布式非结构化数据分析系统。为了从海量的非结构化数据中检索到用户所需的信息,首要任务是分析非结构化数据,从中提取特征。然而,一方面,非结构化数据的多样性导致其分析的复杂性;另一方面,非结构化数据需要有一个高效的分析处理系统来处理海量性问题。为此,本文实现了一个高效、高可扩展的非结构化数据分析系统。该系统提供了一个完整的分析继承体系,用户可开发不同的分析插件快速实现对不同的非结构化数据分析功能;同时,分析插件可方便地集成到分析系统中,实现分布式分析功能,从而提高分析效率。其次,提出了通用的分布式非结构化数据分布式索引框架。在非结构化数据分析系统的基础上,针对各类非结构化数据索引的共性问题,实现了一个通用的、可扩展的非结构化数据分布式索引框架,并具有高性能、高可靠、高可用等特性。在该非结构化数据分布式索引框架的基础上,可以方便地实现各类非结构化数据的分布式索引。本文详细的介绍了系统中索引集群,查询集群的设计,消息传递机制,数据管理模式以及系统执行流程。最后,提出了一种以LSH算法作为分布式索引框架的分片策略,并在此基础上提出了将LSH和SH相结合的局部索引策略。将这两种策略应用于通用的非结构化数据分布式索引框架,设计了对应的索引文件,并通过一系列相关实验验证了该算法的可行性,从而在分布式框架上实现了对海量高维数据的检索功能。