一种支持全文检索及统计分析的海量流数据管理系统

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:zfh115101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,文本流数据广泛出现在各类应用中,例如电信网络中的短信数据、社交网络中的舆情数据。这类数据的主要特点是源源不断、产生速度快、时变性强。在很多应用中,人们需要将海量的文本流数据存储下来,进行各类统计分析,以及基于关键字的快速检索。在海量文本流数据集上,同时支持统计分析和快速关键字检索是一个挑战性问题。   目前已应用于国家某关键应用中的DBrokerSE系统采用了搜索引擎和并行数据库相结合的技术,在一定程度上解决了这个问题。然而,随着数据规模的持续增长,DBrokerSE系统在存储和计算资源利用率方面显露出局限性。针对这个问题,本文提出了在统一的索引存储层之上,支持海量文本流数据关键字检索和统计分析查询的若干关键技术,并针对查询特点,分析了不同数据分布对查询效率的影响,研发了一个支持快速全文检索和高效统计分析的流数据管理原型系统Simba。   本文的主要贡献如下:   (1)在存储方面,针对海量文本流的数据特点与访问特点,设计了基于Lucene索引的文本流数据存储系统,提出了基于数据分片和多副本的分布式数据划分方法,同时设计了VGRR数据分布策略,可保证数据在时间和空间两个维度均衡。   (2)在查询处理方面,基于BSP并行计算模型,设计并实现了并行查询处理引擎,可高效处理复杂的统计分析类查询。同时,该查询处理引擎可利用分布式的Lucene索引,实现文本流上的快速关键字检索。   (3)基于本文提出的相关技术,设计并实现了海量文本流数据管理原型系统Simba,该系统提供类SQL的标准访问接口,支持文本流数据的实时加载、海量存储、快速关键字检索及高效的复杂统计分析等功能。  
其他文献
近年来,人们对汽车驾驶的易用性提出了更高的要求,环视技术也慢慢地应用到汽车上。通过汽车环视系统,可以得到汽车上方的鸟瞰图,为泊车和行驶提供了极大的便利。   汽车环
因特网的快速发展,已深入到了全世界的每一个角落,其包含的信息量呈爆炸式增长,比如网页、用户交换文档、RSS新闻等,由于这些数据很难以某种固定的结构化方式表达,所以这些信
近年来,移动互联网的日益繁荣,移动应用软件的数量迅速增多。Android平台成为移动应用最多、用户数量最大的平台之一。同时,面临的安全威胁也日益严重。应用软件容易被破解和
互联网(Internet)在过去10年间快速发展,服务计算、云计算、移动计算等新概念、新技术层出不穷。伴随Internet变革,Internet上最主流的应用形态--Web应用也发生了演化。富互
随着硬件和移动通信网络技术的高速发展,智能手机越来越普及。其中以iPhone和Android为代表的智能手机通过应用仓库为用户提供了数以万计的应用程序。一方面,如何从应用仓库的
随着互联网技术的飞速发展,用户对资源的需求日益增加,但传统的资源配置方式往往会产生资源浪费。近年来兴起的云计算由于其资源共享、弹性供给等优点,受到了广泛的关注和研究。
作为新型、可靠、实用的柔性交流输电系统FACTS(Flexible AC TransmisonSystem)装置,磁阀式可控电抗器(MCR:Magnetic Valve Controllable Reactor)的出现为高压、中高压、超高
Web服务协商是自动协商领域的一个重要研究方向,而云制造服务平台作为一个将制造资源和制造能力虚拟封装成服务进行分享的分布式云平台,其服务交易过程需要构建合理的服务协商
人机交互是人与机器之间进行沟通的桥梁,在普适计算领域占据着非常重要的位置。手势是人们日常生活中比较直接的交流方式之一,实现利用手势与计算机进行交互,可以使人机交互
随着科学研究的不断发展,科学计算越来越依赖于大规模的计算机系统。随着计算机系统规模的不断增大,整个系统的可靠性也随之下降。深入研究高性能计算机系统的容错技术,提高