论文部分内容阅读
工作流成批处理,是指将同一类型活动的多个工作流活动实例进行整合处理,使得原本多个工作流活动实例的分别执行变成组合执行,从而降低活动执行成本和提高活动执行效率。然而,由于企业业务过程及应用的复杂性与动态变化性,因此全面地把握与理解工作流成批处理的方式与定义工作流过程捕获一样存在困难。工作流挖掘是工作流技术在引进数据挖掘技术后形成的一个新的研究分支,旨在从描述了工作流实际执行情况的工作流日志中自动发现关于工作流过程的客观知识。而工作流成批处理方面的挖掘与工作流挖掘一样具有重要理论意义与实际应用价值。因此,本文对工作流成批处理方面的增量挖掘算法展开了研究,主要的研究工作如下:1)针对现有工作流成批处理方面挖掘研究未考虑工作流日志中的“脏数据”会影响挖掘结果的准确性问题,本文利用条件函数依赖来对增量工作流日志数据进行清洗,在条件函数依赖发现算法CFINDER的基础上,借鉴增量思想,提出了增量挖掘条件函数依赖算法CFUP。该算法的主要思想是利用上一次挖掘结果,减少对原始数据集的扫描,从而减少运行时间,提高算法效率。理论分析和实验结果验证了CFUP算法的可行性和有效性,表明CFUP算法的执行效率优于CFINDER算法。2)针对现有成批处理依赖挖掘算法未考虑工作流日志数据的增量更新问题,本文在成批处理依赖挖掘算法Mine_BD的基础上,借鉴增量思想,提出了增量挖掘成批处理依赖算法Inc_Mine_BD。Inc_Mine_BD算法在增量更新的工作流日志数据上,能有效检测出原有的成批处理依赖是否失效以及是否出现新的成批处理依赖。理论分析和实验结果验证了Inc_Mine_BD算法的可行性和有效性。3)为有效评价数据清洗对工作流成批处理方面挖掘的影响,本文将CFUP算法与Mine_BD算法相结合,首先利用CFUP算法获得的条件函数依赖对待挖掘的工作流日志数据进行清洗,然后应用Mine_BD算法分别对清洗前和清洗后的工作流日志数据进行挖掘,最后通过比对两者的挖掘结果验证CFUP算法对提高工作流成批处理方面挖掘质量的有效性。