论文部分内容阅读
如今的大多数企业或组织均建立了不同的信息系统,以支持他们的业务流程执行,例如ERP、CRM或工作流管理系统。这些信息系统有效地支持了企业内部业务流程的执行及其事件日志的记录。流程挖掘的目的是从系统客观运行所产生的事件日志中还原出流程模型,挖掘出的模型体现了实际流程与日志数据、流程模型之间的连接,从而发现、监控和改进已有的业务流程。流程挖掘的研究主要分为流程发现、一致性检验和模型改进三个方面。根据事件日志包含的内容,流程挖掘的视角包含控制流、案例数据和组织结构等方面。本文关注控制流视角的流程发现,针对现有流程挖掘算法在挖掘的质量以及对复杂流程结构的处理等方面的不足,论文的主要研究内容及创新点如下:1.基于完备和不完备的事件日志,分别提出了基于Markov的流程挖掘相关算法。首先,针对不完备日志,论文提出基于期望最大化的方法对一阶Markov转移矩阵进行估计,并基于该矩阵对日志中缺失的流程实例信息进行计算,在此基础上,提出了基于转移矩阵的不完备日志标记算法;其次,基于完备日志,构建了基于日志的一阶Markov转移矩阵,通过对构建流程的元流程模式进行分析,给出了结构关系的识别规则,并基于这些规则提出了相应的流程挖掘改进算法。2.针对a算法对典型的复杂结构挖掘方面存在的不足,提出了a算法的改进算法。根据同步管理工作流网的形式化描述方法,重点分析定义了不可见任务、短循环任务和重复任务三类复杂结构,并分别给出了结构的判定定理。在此基础上,提出了改进的α算法并给出了算法的正确性证明。3.针对遗传流程挖掘算法在挖掘质量和效率方面的不足,提出了两个遗传挖掘改进算法:首先,综合考虑完整度、简洁度、精确度和泛化度四个互相竞争的质量指标,重新定义了遗传算法的适应度函数,改进了交叉算子和变异算子,提出了质量改进遗传算法;其次,基于遗传挖掘算法求解组合优化问题的独特性,提出了基于无性繁殖的伪并行遗传算法,避免了交叉算子对良好基因的破坏,并通过伪并行算法,采用孤岛模型将基因重组操作分到三个目标子群体分别进行。本文算法均给出了实验验证。实验所用日志数据采用荷兰W.M.P. van der Aalst教授及其流程挖掘团队建立的公开数据集。其中,算法改进实验采用开源流程挖掘工具ProM,改进的算法通过算法插件实现,基于Markov过程转移矩阵的挖掘算法基于独立开源平台开发完成,验证了算法的基本思想和算法可行性。