海量非结构化数据分布式分析与检索

被引量 : 0次 | 上传用户：huachao198977

【摘要】

：

Web2.0的来临引领人们进入大数据时代。据统计,80%以上的数据是非结构化数据,且逐年增长。面对这些海量、异构、非结构化的数据,如何快速有效地从中检索到有用的信息是一个值

【作者】

：

余斌

【发表日期】

：

2012年期

【关键词】

：

海量非结构化分布式高维数据高维索引

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Web2.0的来临引领人们进入大数据时代。据统计,80%以上的数据是非结构化数据,且逐年增长。面对这些海量、异构、非结构化的数据,如何快速有效地从中检索到有用的信息是一个值得研究的问题。本文的主要工作如下：首先,提出了分布式非结构化数据分析系统。为了从海量的非结构化数据中检索到用户所需的信息,首要任务是分析非结构化数据,从中提取特征。然而,一方面,非结构化数据的多样性导致其分析的复杂性；另一方面,非结构化数据需要有一个高效的分析处理系统来处理海量性问题。为此,本文实现了一个高效、高可扩展的非结构化数据分析系统。该系统提供了一个完整的分析继承体系,用户可开发不同的分析插件快速实现对不同的非结构化数据分析功能；同时,分析插件可方便地集成到分析系统中,实现分布式分析功能,从而提高分析效率。其次,提出了通用的分布式非结构化数据分布式索引框架。在非结构化数据分析系统的基础上,针对各类非结构化数据索引的共性问题,实现了一个通用的、可扩展的非结构化数据分布式索引框架,并具有高性能、高可靠、高可用等特性。在该非结构化数据分布式索引框架的基础上,可以方便地实现各类非结构化数据的分布式索引。本文详细的介绍了系统中索引集群,查询集群的设计,消息传递机制,数据管理模式以及系统执行流程。最后,提出了一种以LSH算法作为分布式索引框架的分片策略,并在此基础上提出了将LSH和SH相结合的局部索引策略。将这两种策略应用于通用的非结构化数据分布式索引框架,设计了对应的索引文件,并通过一系列相关实验验证了该算法的可行性,从而在分布式框架上实现了对海量高维数据的检索功能。

其他文献

论社会转型时期的公共行政:参与、整合与后置

本文认为 ,社会转型对我国公共行政的改革与发展提出了新的要求。参与行政、整合行政和后置行政分别作为转型期公共行政改革发展的基本动力、基本手段和基本要求 ,体现了我国

期刊

公共行政参与整合后置

山东省港口经济腹地计算方法的研究

提出了采用O—D物流与图论结合计算沿海港口经济腹地的方法,计算了山东省各港口的经济腹地并对各港口的吞吐量进行了预测,与实际的吞吐量进行了对比。对公路、铁路混合路径最

期刊

港口经济腹地计算

水泥余热发电窑头取热技术研究及工程应用

在干法水泥熟料生产线余热发电中,如何在不影响二次风、三次风以及水泥生产其他用风的情况下,使窑头篦冷机余热得到最大利用,是目前本行业的难点之一。本文针对水泥熟料生产

期刊

余热发电篦冷机数值模拟

中国转型时期高离婚率问题论析

高离婚率问题已经成为当今中国社会关注的热点话题。据统计，近些年来中国多数城市离婚率呈连年递增趋势。离婚作为一种解除夫妻双方婚姻契约的法定手段，能再次带给夫妻双方走向

学位

高离婚率多元价值观伦理婚姻自由德性

10kV配电变压器和箱式变电站升压改造至20kV电压等级的研究

现有10kV电压等级作为中压配电电压,在过去很长一段时间内发挥了重要作用,然而随着社会经济的快速发展,城市区域尤其是城市中心的负荷密度不断增加,在现有10kV中压配电电压等

学位

20kV电压等级配电变压器箱式变电站升压改造经济性分析

加味茵陈蒿汤治疗新生儿母婴血型不合溶血病56例疗效观察

期刊

新生儿母婴血型不合溶血病加味茵陈蒿汤抗体效价

论军事节目的叙事特点——基于《军情观察室》的叙事话语分析

本文对军事节目的文本进行叙事话语分析,从叙事学的视角来考察军事节目,从文本分析角度揭示军事节目的内在叙事策略,探讨节目文本中对战争形象的塑造,认为军事节目善于在内容

期刊

军事节目《军情观察室》叙事文本战争形象

保险合同条款类型化重塑

本选题主要是针对责任免除条款类型化模式进行反思。第一部分，保险合同条款类型化模式的不足。责任免除条款类型化存在诸如责任免除条款与非责任免除条款的范围界定不清，不同程

学位

保险条款类型化责任免除条款

基于SOA的电网安全风险评估系统研究与实现

随着电网向智能化发展,要求电网企业的信息构架更加灵活,能够快速的适应电网企业业务的变化。但是由于目前电网中各个信息系统的实现技术、操作系统平台以及信息模型的不同,

学位

面向服务架构风险评估REST电力系统

内容管理系统的关键技术及其改进

随着信息化社会的深入发展,信息正以惊人的速度急剧膨胀,如何便捷有效的管理这些信息和数据,充分挖掘它们的潜在价值,是一个亟待解决的问题。传统的基于文件系统和数据库管理

学位

内容管理SharePoint多数据源信息整合双角色发布系统

海量非结构化数据分布式分析与检索

与本文相关的学术论文