论文部分内容阅读
近年来,大数据以其蕴含的丰富价值,得到了学术界和企业界的广泛关注。对大数据进行管理利用并构建大数据服务,是挖掘大数据价值的关键途径。云计算作为一种弹性高效的计算模式,则为构建大数据服务提供了强大的技术支撑。一方面,云计算的资源按需获取、按使用量计费及广域网互联的优势,节约了大数据处理所需的昂贵基础设施投入和维护成本;另一方面,基于云计算的大数据存储、管理与分析等技术,为快速构建大数据服务提供了技术支撑。尽管云计算技术在大数据服务领域取得了丰富的研究成果,但云环境下数据资源的分散性、动态网络中云服务QOS属性的不确定性和应用需求多元化等因素,为高效实现可靠的大数据服务带来了新的挑战:如1)目前的研究中,缺乏一个云环境下的大数据服务应用模式,为高效构建大数据服务提供技术参考;2)当构建大数据服务所依赖的数据资源分布在云环境中大规模分布式的节点中时,为可扩展的数据资源节点管理方法和数据资源查找方法带来了挑战;3)当大数据服务部署在多个互相协同的云服务之上时,因满足大数据服务功能性需求的云服务数目众多,需要选择QoS最优的云服务组合方案。传统的组合评估方法通常是使用云服务提供商发布的QoS值对组合方案进行评估,动态网络环境或服务提供商可能的商业炒作使得组合方案的可信度受到很大的影响。针对目前云环境下大数据服务在应用模式、数据资源查找、可信组合评估等方面面临的挑战,本文对云环境下的大数据服务及其关键技术开展了相关的研究工作;具体而言,本文的工作主要包括以下几项:1)为高效构建云环境下的大数据服务,提出了一个云环境下通用的大数据服务应用模式。该应用模式分为五个层次,自下而上分别为数据资源层、数据资源搜集层、任务规划层、可信组合评估层及大数据分析算法实现层。具体而言,数据资源层是以分布在云环境中的数据资源为基础,用服务对数据资源进行封装,供使用者通过匹配服务描述进行调用;数据资源搜集层则是根据大数据服务对数据资源的需求,实现可扩展的数据资源搜集:进而,任务规划层是指针对大数据的处理需求,将复杂的计算任务划分至多个功能独立的子任务;根据各个子任务对存储资源或计算资源的需求,可信组合评估层的功能便是为大数据处理任务选择QoS最优的云服务组合方案,从而为各个子任务提供存储资源或计算资源;最后,根据可信组合评估层的选择结果,设计并实现大数据分析算法,完成大数据服务的实现与部署;2)为满足云环境下可扩展的数据资源节点管理和数据资源查找需求,针对性地研究了P2P技术在大数据服务中的拓展应用。具体而言,采用非结构化P2P网络作为云环境下数据资源节点的拓扑组织结构,并以服务封装数据资源,使用者通过查找匹配服务描述信息以获得构建大数据服务所需的数据资源;进一步地,提出基于邻居节点间的数据资源信息主动复制协议,通过提高网络中数据资源的覆盖率以提高查找成功率。最后,基于邻居间主动复制的资源信息,提出了基于概率随机游走的数据资源查找方法,实现云环境下可扩展的数据资源查找;3) 为提高支撑大数据服务的云服务组合方案的可信度,结合云服务的QoS历史记录大数据,提出了基于QoS历史记录的可信组合评估方法。为提高组合评估的计算效率,提出了HireSome-Ⅰ方法,HireSome-Ⅰ方法通过使用部分基于QoS历史记录的组合方案,对云服务组合方案进行评估,缩小了组合评估的计算规模,从而降低了组合评估执行的时间消耗。作为HireSome-Ⅰ方法的补充完善,简要介绍了Dou等人提出的HireSome-Ⅱ方法,即基于代表性QoS历史记录的可信组合评估方法。HireSome-Ⅱ方法通过使用代表性QoS历史记录执行可信组合评估,降低了可信组合评估的计算复杂度,进一步提高了可信组合评估的计算效率;4)为验证上述研究内容的可行性,从构建医疗大数据服务(疾病自诊断服务)的角度,讨论云环境下大数据服务及其关键技术在医疗领域的应用。首先,结合本文提出的大数据服务应用模式,分析并获得疾病自诊断服务的应用需求;针对该应用需求,使用可信组合评估方法,选择QoS最优的云服务组合方案,以响应疾病自诊断服务对计算资源和存储资源的需求;然后,结合电子病历大数据的处理分析需求,设计了一个疾病自诊断服务框架,以响应用户在线自诊断的请求;进一步地,提出了一个基于概念格的电子病历大数据分析方法,对电子病历大数据执行分析计算,获得疾病自诊断模型,来帮助用户进行疾病自诊断与分析。