大数据服务若干关键技术研究

被引量 : 248次 | 上传用户:mxc26
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据是现代信息技术的重要发展方向之一,实现大数据的共享和分析将带来不可估量的经济价值,同时也对社会产生巨大的推动作用。在大数据时代,对大数据进行统一表示,实现大数据处理、查询、分析和可视化是亟需解决的关键问题。大数据服务(Big Data-as-a-Service, BDaaS)是一种新的数据资源使用模式和一种新的服务经济模式,它通过将各类大数据操作进行封装,对服务消费者提供无处不在的、标准化的、随需的检索、分析与可视化服务交付。目前针对大数据服务的研究还处于概念讨论阶段,因此仍然面临四方面挑战:1)缺乏一种能够屏蔽数据资源和操作复杂性,面向用户体验的规范化大数据服务架构;2)缺乏体现用户行为特征的通用非结构化数据模型,使得非结构化大数据服务难以构建;3)已有数据服务模型仅描述服务接口规范,而覆盖大数据特征的大数据服务模型还未出现;4)在大数据检索、分析和可视化服务提供和服务能力优化方面,缺乏相应的解决方案。为了解决以上问题,需要对大数据服务的理论模型、服务模型、实现方法等进行系统地研究。因此,本论文研究大数据服务架构、大数据服务数据模型、大数据服务模型,以及大数据服务应用四方面关键技术。为了能够对大数据服务平台构建提供规范化架构方案,本文首先设计了面向用户体验的大数据服务架构(User Experience-oriented Big Data-as-a-Service Architecture,UE-BDaaSA);其次,在数据模型方面,为实现面向非结构化数据的大数据服务,设计了基于主体行为的非结构化数据模型;在大数据服务模型方面,通过进程代数建立了大数据服务及其组合的代数模型,并设计了基于扩展OWL-S语义本体的大数据服务;在大数据服务应用方面,详细阐述了检索、分析和可视化服务的处理流程,并通过提高检索服务准确度和服务效率两方面措施实现了大数据服务能力优化。本文研究中产生的主要创新点有:(1)针对已有非结构化数据模型难以满足大数据服务构建需求的问题,提出了一种基于主体行为的非结构化数据星系模型(Galaxy Data Model, GDM)。通过监控数据产生者行为和数据产生背景,设计覆盖用户行为、语义背景等全方位数据特征的通用非结构化数据模型,为实现非结构化大数据服务提供了数据模型基础。实例验证结果表明,GDM具有较好的通用性和全面性,还具有轻量级的实现和成熟易用的操作语言。除传统文件系统外,GDM还支持对HDFS中的非结构化数据建模和检索。此外,GDM已经在国家免费孕前优生健康检查管理信息系统中实际应用,验证了其可行性和实用性。(第三章)(2)针对缺乏能够涵盖大数据特征的服务模型的问题,提出了一种基于扩展OWL-S本体的大数据服务模型(Extended OWL-S based Big Data-as-a-Service, EO-BDaaS)。通过在OWL-S中扩展数据源、数据服务类型、数据服务操作等属性,实现检索、分析、可视化等多类型大数据服务的构建和动态组合。实例验证结果表明,与已有数据服务相比,EO-BDaaS在属性和操作描述方面更加完备,且具有较强的语义理解能力和自动服务组合能力,还将数据服务特有的组合运算无缝地融入大数据服务的实现中。(第四章)(3)针对大数据检索服务准确度较低的问题,提出了热度敏感的非结构化数据检索排名优化算法HotRank。通过非结构化数据属性和服务消费者任务属性的匹配度来计算检索结果的热度分值,并基于热度分值对检索结果进行排序,从而实现了检索结果优化,使检索结果更加符合用户偏好。仿真实验表明,HotRank的正确率-召回率优于Windows Search排名算法,因此HotRank能够很好的提高大数据服务检索结果的准确度,实现了通过提高用户体验来提高大数据服务能力。(第五章)(4)针对大数据服务中对服务快速响应的要求,本文提出了一种基于数据热度识别的混合预取算法(Hybrid Prefetch Algorithm, HPA)。通过分析用户数据操作记录建立数据热度判定规则,根据动态和静态预取规则获得预取候选数据,最后将预取数据置入缓存。仿真实验结果显示,HPA的预取平均命中率为55%,平均准确率为43%,这表明该算法具有很好的用户操作数据预测和优化能力,同时也从服务效率方面优化了大数据服务能力。同时,基于HPA的分布式持久化缓存存储架构已在国家免费孕前优生健康检查管理信息系统中进行了应用,验证了其有效性。(第五章)本论文的研究内容作为“十一五”国家科技支撑计划项目“安全可信的电信级生殖健康服务运营支撑体系关键技术研究”(编号:2008BAH24B04)和教育部-中国移动科研基金项目“面向互联网的业务支撑系统关键技术及方案研究”(编号:MCM20123031)的部分成果,己在实际运营的“国家孕前免费健康检查管理信息系统”中应用,帮助其实现了从人口计生领域数据采集到跨域人口计生大数据的共享和可视分析服务化的演进,为电子政务云计算国家工程实验室“电子政务云计算数据服务平台”建设提供了有效的解决方案和工程实践指导。
其他文献
文字是具有丰富内涵和形体的视觉形象,并且作为一种传播媒介,是书籍设计的主要元素。在现代的书籍装帧设计中,文字不再仅仅作为单纯的叙述书籍内容,逐渐的也作为书籍设计中具
当今社会,由于互联网覆盖面不断拓展,电脑以及智能手机等客户终端使用人群不断扩大,各种人性化应用软件层出不穷,网络服务商费用逐步走低等因素的影响,以博客、微博等为代表
人类行为,由于其自身复杂性,使得探索人类的行为规律变得十分重要和有趣。也正是因为人类行为的高度复杂性,如何发现、揭示其客观规律,一直以来都吸引着来自社会学、心理学、
如何运用现代手法去诠释中式的传统文化,在经过了沉淀、摸索和研究后,我们领会到,只有把中式文化的“神”和中式风格的“意”相结合,才能给人一种全新的中式理念,因此,我们对
移动互联网的兴起,对依托于电子商务的兴起从互联网起步的第三方支付公司既是机遇又是挑战。2012年中国移动互联网市场规模为549.7亿元,增长率为96.4%1。虽仅占社会消费品零
独塔斜拉桥凭借其优越的跨越能力,良好的受力体系以及创新的结构形式,已经成为现代小跨径桥梁工程中发展最快,最有竞争力的桥型之一。独塔斜拉索索力对梁体的内力影响非常明
随着近年来国内轨道交通建设热潮愈演愈烈,相关部门对把握轨道交通运营管理阶段客流发展规律的需求愈加迫切。在此背景下对轨道交通车站客流在降雨这种常见的不利天气下发生
采购一直以来是影响工商企业成功和盈利能力的关键因素,采购成本降低对工商企业的盈利产生重大影响,因此,如何加强采购成本管理对工商企业来说至关重要。文中分析采购存在问
随着电力企业不断发展,我国的电力体制也在不断的改革。为了更好的适应电力体制改革,必须要完善电力企业的绩效考核系统,对企业职工的绩效进行全面、客观、公平地考评。并且
1949年9月至11月,国民党反动派在溃逃台湾前夕,对关押在军统重庆集中营白公馆、渣滓洞、松林坡的革命志士实施大屠杀,致使300多人遇难。殉难者中,有血脉相连的母子,有亲密无间的恋