论文部分内容阅读
随着信息技术带来的数据量的急剧增加,需要对海量数据进行分析处理的数据密集型服务得到相应的快速发展。数据密集型服务现已广泛应用于现实生活中的各个方面,无论是在科学研究还是工业生产领域,数据密集型服务都引起了研究学者的广泛关注。数据密集型服务在执行过程中需要不断获取、更新、存储大规模数据,其具有三方面的特点,分别是(1)数据量大;(2)数据和服务都呈现出分布式的特点;(3)数据之间存在一定的关联关系。基于上述特点,关于数据密集型服务的研究工作应将服务和数据进行综合考虑,并结合数据密集型服务的特点展开。本文以数据为切入点,从全新角度对数据密集型服务建模和管理方法进行了深入研究。本文的具体研究内容和创新点如下:1、传统的服务表征方法专注于对服务功能的描述,不仅缺乏对服务数据的建模,而且将服务和地理位置相绑定,无法支持数据密集型服务的语义描述和服务的可移动性。为了解决上述问题,本文提出了一种基于本体的数据密集型服务建模和表征方法。该方法包括了服务标识和服务行为描述两个部分。前者通过混合式命名规范对数据密集型服务进行全局唯一命名,后者对数据密集型服务进行多维度、细粒度的语义化描述。随后,本文通过对多媒体会议系统的研究分析,验证了该服务建模和表征方法的有效性。该数据密集型服务建模和表征方法不仅能对服务进行唯一命名,而且从静态和动态两方面对服务进行语义表征,为数据密集型服务发现和服务的可移动性提供了支持。2、传统的以过程为中心的业务流程建模方法缺乏对流程中数据语义和数据依赖性的描述,这不仅无法对数据密集型组合服务进行精确的完整描述,而且会影响流程设计和部署的灵活性。而以Artifact为中心的方法不利于开发人员理解内在逻辑。为了解决上述问题,本文提出了一种数据感知的业务流程建模方法,该方法通过对流程中数据及其相关操作的建模,描述了流程中的显式控制流和隐式数据流。为了减轻程序员负担,本文在流程建模阶段采用线性时态逻辑(Linear-time Temproal Logic,LTL)对流程中的数据依赖性进行建模和分析,相应的LTL可满足性通过一种基于自动机的模型检测算法进行验证,以保证流程模型的正确性。最后,本文基于jBPM开发出了相应的工作流原型系统,并将其应用于北京金房供暖管理系统的开发,然后对金房供暖系统的功能和性能进行了测试,结果表明该流程建模方法不仅能够提高流程的灵活性,而且在大规模系统管理和开发过程中能够有效地提高系统开发效率。3、为了高效利用资源,许多机构将工作流系统部署于云环境中。为了对云工作流大规模数据进行高效管理,需要从大量的数据中发现相关联的数据,区分出数据间的频繁程度和重要程度,但大多数云工作流数据管理方法缺乏此方面的考虑。为此,本文提出了一种基于频繁模式的云工作流关联数据发现和管理方法。该方法首先通过分析工作流日志,采用一种自动化的方法设定了最小支持度阈值,随后,建立了 FP树和FP矩阵,FP树的建立可以减少算法对FP树的遍历。紧接着,算法利用兴趣度度量方法直接挖掘出具有区分力的频繁二项集。为了应对大规模数据所带来的效率问题,本文利用MapReduce框架将挖掘算法进行并行化处理,并采用大规模真实数据集验证了算法的有效性和执行效率。结果表明,该算法能够挖掘出工作流中的频繁二项集,揭示出数据实体间的潜在关系,区分出数据间的重要程度。从而为云工作流的数据放置和备份提供理论基础支持。4、随着服务数量的不断增加,需要对大量的数据密集型服务的服务质量(Quality of Service,QoS)进行高效管理。在同一客户端对所有数据密集型服务进行管理和评价将会消耗大量的时间和资源。为了解决该问题,本文提出了一种时间感知的QoS排序预测方法。该方法通过成对比较模型描述了服务之间的关系,其中QoS局部排序通过时间序列分析的方法获得。随后,本文建立了离散时间马尔可夫链将所有局部排序聚合在一起,并通过对稳态概率的求解和排序获得了最终的全局排序。最后,本文利用大规模开源数据集对该方法的有效性和准确性进行了验证,实验结果表明,该方法能够获得较高准确度的QoS排序结果,有助于用户对大规模数据密集型服务的服务质量进行高效管理,为构建高质量的数据密集型系统提供了基础支持。