云环境下大数据服务及其关键技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:zhuifeng188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,大数据以其蕴含的丰富价值,得到了学术界和企业界的广泛关注。对大数据进行管理利用并构建大数据服务,是挖掘大数据价值的关键途径。云计算作为一种弹性高效的计算模式,则为构建大数据服务提供了强大的技术支撑。一方面,云计算的资源按需获取、按使用量计费及广域网互联的优势,节约了大数据处理所需的昂贵基础设施投入和维护成本;另一方面,基于云计算的大数据存储、管理与分析等技术,为快速构建大数据服务提供了技术支撑。尽管云计算技术在大数据服务领域取得了丰富的研究成果,但云环境下数据资源的分散性、动态网络中云服务QOS属性的不确定性和应用需求多元化等因素,为高效实现可靠的大数据服务带来了新的挑战:如1)目前的研究中,缺乏一个云环境下的大数据服务应用模式,为高效构建大数据服务提供技术参考;2)当构建大数据服务所依赖的数据资源分布在云环境中大规模分布式的节点中时,为可扩展的数据资源节点管理方法和数据资源查找方法带来了挑战;3)当大数据服务部署在多个互相协同的云服务之上时,因满足大数据服务功能性需求的云服务数目众多,需要选择QoS最优的云服务组合方案。传统的组合评估方法通常是使用云服务提供商发布的QoS值对组合方案进行评估,动态网络环境或服务提供商可能的商业炒作使得组合方案的可信度受到很大的影响。针对目前云环境下大数据服务在应用模式、数据资源查找、可信组合评估等方面面临的挑战,本文对云环境下的大数据服务及其关键技术开展了相关的研究工作;具体而言,本文的工作主要包括以下几项:1)为高效构建云环境下的大数据服务,提出了一个云环境下通用的大数据服务应用模式。该应用模式分为五个层次,自下而上分别为数据资源层、数据资源搜集层、任务规划层、可信组合评估层及大数据分析算法实现层。具体而言,数据资源层是以分布在云环境中的数据资源为基础,用服务对数据资源进行封装,供使用者通过匹配服务描述进行调用;数据资源搜集层则是根据大数据服务对数据资源的需求,实现可扩展的数据资源搜集:进而,任务规划层是指针对大数据的处理需求,将复杂的计算任务划分至多个功能独立的子任务;根据各个子任务对存储资源或计算资源的需求,可信组合评估层的功能便是为大数据处理任务选择QoS最优的云服务组合方案,从而为各个子任务提供存储资源或计算资源;最后,根据可信组合评估层的选择结果,设计并实现大数据分析算法,完成大数据服务的实现与部署;2)为满足云环境下可扩展的数据资源节点管理和数据资源查找需求,针对性地研究了P2P技术在大数据服务中的拓展应用。具体而言,采用非结构化P2P网络作为云环境下数据资源节点的拓扑组织结构,并以服务封装数据资源,使用者通过查找匹配服务描述信息以获得构建大数据服务所需的数据资源;进一步地,提出基于邻居节点间的数据资源信息主动复制协议,通过提高网络中数据资源的覆盖率以提高查找成功率。最后,基于邻居间主动复制的资源信息,提出了基于概率随机游走的数据资源查找方法,实现云环境下可扩展的数据资源查找;3) 为提高支撑大数据服务的云服务组合方案的可信度,结合云服务的QoS历史记录大数据,提出了基于QoS历史记录的可信组合评估方法。为提高组合评估的计算效率,提出了HireSome-Ⅰ方法,HireSome-Ⅰ方法通过使用部分基于QoS历史记录的组合方案,对云服务组合方案进行评估,缩小了组合评估的计算规模,从而降低了组合评估执行的时间消耗。作为HireSome-Ⅰ方法的补充完善,简要介绍了Dou等人提出的HireSome-Ⅱ方法,即基于代表性QoS历史记录的可信组合评估方法。HireSome-Ⅱ方法通过使用代表性QoS历史记录执行可信组合评估,降低了可信组合评估的计算复杂度,进一步提高了可信组合评估的计算效率;4)为验证上述研究内容的可行性,从构建医疗大数据服务(疾病自诊断服务)的角度,讨论云环境下大数据服务及其关键技术在医疗领域的应用。首先,结合本文提出的大数据服务应用模式,分析并获得疾病自诊断服务的应用需求;针对该应用需求,使用可信组合评估方法,选择QoS最优的云服务组合方案,以响应疾病自诊断服务对计算资源和存储资源的需求;然后,结合电子病历大数据的处理分析需求,设计了一个疾病自诊断服务框架,以响应用户在线自诊断的请求;进一步地,提出了一个基于概念格的电子病历大数据分析方法,对电子病历大数据执行分析计算,获得疾病自诊断模型,来帮助用户进行疾病自诊断与分析。
其他文献
物联网被认为是继计算机、互联网和移动通信后的又一次信息产业革命,其中制造业物联网是以德国为首提出的第四次工业革命的重要技术基础。制造业物联网能突破现有制造系统在
介绍了高中物理教材中常见的物理图象,分析了常见图象的物理意义,阐述了在探究性实验教学中应用物理图象和巧用物理图象解题,提出了在高中物理教学中应用图象使学生顺利完成从初
项目管理方法通常用于PC系统的大型软件开发中。本文以项目时间管理为例,把软件项目管理方法引入嵌入式系统的开发之中。以嵌入式USB主机为例,建立工作分解结构,利用网络图技术
【正】人体的疾病80%与水有关,喝优质饮用水有益健康长寿。由于水资源污染,饮用不洁净水已经成为人类健康的第一大隐形杀手。迄今为止已查出水中的污染物超过2100种;由饮水而
明代文言小说穿插诗词的现象较为普遍,其中,传奇小说中词的叙事作用尤其值得注意。明代传奇小说中词的叙事功能主要有三种:词为小说叙事增添了真实性;词在才子佳人小说中扮演媒介
随着工业化与信息化进程的不断交叉融合,越来越多的信息技术应用到了工业领域,工业控制网络开始由封闭转向开放,随之也带来了很多安全问题。现有的工业控制系统安全保障方案的研
为缩小由不理想噪声带来的电路公共相位误差,设计一种新型的单端转差分电路相位噪声消除系统。在单端转差分相位板中,连接DSP电路与旁系相位噪声滤波器,完成新型噪声消除系统
一、开启金融之门(一)什么是金融金融是指有关货币、信用的所有经济关系和交易行为的总和。在现代市场经济中,每一个家庭或个人、各类经济单位几乎每天都要接触货币,都要同金融打
为了辅助医生仅能依赖肉眼观察CT图像从而判断CT影像好坏,同时改善在医学图像的分割算法上的性能,提高分割的效率,本文提出了一种使用遗传算法和KSW熵法相结合的CT图像肺部分
在超级电容和蓄电池的混合储能系统,如果功率分配不当,会造成储能系统充电电流振荡或过大。为此,提出一种以储能元件荷电状态为判断依据的功率分配方法,根据荷电状态确定分解