支持业务流程建模的块结构流程挖掘技术的研究

被引量 : 0次 | 上传用户:oyxz1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着市场经济的发展,企业、机构需要顺应市场需求的变化,随时快速调整业务,提高应对市场变化的快速反应能力。因此企业的信息系统中支持业务运行的业务流程部分需要再造或优化,而流程的再造或优化首先需要理解当前业务流程运行的模式。目前,业务流程运行模式的提炼主要依赖技术人员与业务人员的沟通,其所得结果有很强的主观性,缺乏整体、完善性,且时间成本高、效率低。目前,大多数企业的信息系统管理应用软件,无论提供或不提供显式的流程,这些软件都提供企业实际业务执行的记录,即流程日志。如何分析这些日志数据,从中找出业务流程运行的模式,用于快速的流程再造和柔性管理是迫切需要解决的问题,而流程日志中抽取的业务流程模型,可以真实反映企业业务流程的执行,支持业务流程再造或优化的快速建模。本文研究的基础——简单格式的流程日志并不是仅仅局限于工作流管理系统所提供,目前公司、机构的信息系统,它们的事务系统,如ERP、CRM、B2B、SCM等都提供本文研究所需的简单格式的日志信息。也就是说,只需要收集记录了业务流程中各个任务活动发生的顺序序列,即流程日志。流程日志记录了业务流程执行的真实情况,从中挖掘出业务流程模式更加可信易读。因为流程模型的结构往往比较复杂,存在循环、并行、选择、非自由选择等难以表述清楚的块结构,现有文献的挖掘方法对这些结果的处理不理想,如循环结构、非自由选择结构等,目前没有普适的处理方法解决这些问题。此外,利用流程日志中的时间信息可以挖掘到更精确的活动逻辑关系并计算流程工作的性能,但是大多数的流程挖掘方法并没有充分利用日志中的时间信息。本文主要是深入研究并提炼给出了流程挖掘概念、流程日志的数学表示、流程模型的Petri网表示及结构化工作流网概念,并给出相关的数学描述以及定义。在此基础上的研究工作主要有以下三个方面的贡献:第一,目前,企业应用系统软件没有统一的流程日志规范标准,日志格式分为两类:无时间标志型日志和有时间标志型日志且一般原始日志带有噪音。针对无时间标志型日志,采用多步抽取模型方法,提出了一种基于简单流程日志格式的块结构挖掘方法BRC (Block_Structure Replace Compression:BRC),挖掘任务之间的逻辑关系,用于构建日志所反映的业务流程模型。基本块结构对应于四种结构即顺序、并行、选择和循环结构。方法首先定义了能够被挖掘的流程的基本要求,即结构化流程模型。方法的基本思想是在对四种基本结构进行分析的基础上,从日志中找出具有这些结构的模块,并用结点来替换每个模块。通过循环使用四种模块挖掘算法从日志中挖掘和替换,使得日志不断收缩。如果最后得到的日志是一个点,则只需进行一次逆变换,即将前面得到的模块按照相反的顺序依次代入到流程模型中,这样得到一个容易理解的基于工作流网的WF网模型。同时,证明用该种方法得到的工作流网是合理的,安全的。在对顺序任务和选择任务进行挖掘的过程中,考虑到来自其他并行任务的干扰,BRC提出并采用了并行任务等价类概念,即首先从日志中划分出并行任务等价类,再依次搜索各等价类,挖掘出其中的顺序和选择任务,从而很好地解决了并行任务对结构化挖掘的干扰问题。通过生成和运行一定数量的实验数据,对BRC方法的挖掘质量进行了检验分析,证明该方法在复杂流程的挖掘方面具有明显优势。讨论了带噪音的因果关系挖掘、带噪音的并行关系挖掘、带噪音的选择结构的挖掘,并给出了带噪音处理的改进型结构化挖掘算法。第二,无时间标志型日志中并行关系的挖掘是相对困难且计算量较大,针对有时间标志型日志,提出了一种基于时间间隔的简单流程日志格式的挖掘方法,用于构建日志所反映的业务流程模型。方法的基本思想不同于事件模型类思想,在事件挖掘类中,把一个任务的执行看作是不可分割的,是一个原子性事件。而从基于时间间隔日志的流程挖掘方法解决方案看,每一个任务的执行都具有一个时间间隔,即任务的开始事件和任务的结束事件。可以再拓展这个模型成为捕获更精确的模型视图,在其中,执行活动是一个沿着时间轴的时间间隔,并且两个间隔可以互相交叉。间隔方法分为两大步骤:(1):产生流程执行图。针对每一执行产生一个DAG图。在单个执行中的间隔交叉使得此DAG图易于对并行关系的挖掘,对具有同样活动集合的执行图进行合并产生单个DAG图;(2)合并流程执行图。对于流程图的一个子图,各个运行于其上的执行覆盖相同的活动集合,也就是业务流程中使用不同的参数来选择合作伙伴的有向边是一样的。因此合并结果所产生的DAG图就是流程的控制流图。方法通过合并各个依赖于日志的DAG图,产生现实意义上的流程模型图。验证对比了两类算法:间隔算法和非间隔算法。得出了有意义的一些结论,如丢失边或多余边与流程日志规模之间的关系等。第三,针对一般情况下,流程日志带有噪音且是不完备的,探讨分析了噪音情况,给出了日志中任务逻辑关系挖掘方法。方法中定义了一个概念:顺序关系。该关系是基于START和COMPLETE这两种事件类型和它们的时间戳的。随后给出顺序关系的度量方法。提出了一个挖掘流程模型图的方法,源流程模型可以包括所有的基本块结构和非自由选择结构。提出的方法使用具有时间戳的任务状态流程日志,利用时间信息,比如活动的平均等待时间、平均执行时间去挖掘流程模型。在挖掘流程模型时,首先通过扫描一次日志,为每一个任务构建平均值表;然后在平均值表的基础上分两步执行:第一步是挖掘基本的结构,比如顺序路由、并行路由、选择和循环路由;第二步是分析流程模型的高级结构,如或连接结构。通过以上两步,能挖掘出预期的流程模型。另外使用算法进行挖掘的时候,去除噪音问题通过观测起始值来决定。最后对提出的挖掘算法和文献中已经提到的算法做了比较,得出的结论是:TWM能挖掘α算法所挖掘的所有流程,然而,α算法不能挖掘TWM能挖掘的所有的流程,TWM和α算法在时间复杂度方面是等同的。另外,提出的算法对解决隐藏任务挖掘提供了有用的信息。此外,研究工作中,实现了一个支持流程挖掘算法的原型系统。设计此系统的目的主要是:(1)验证α算法的有效性;(2)以此和我们所提方法算法进行有意义的比较,获得有效的可信度;(3)验证针对复杂变异结构流程,α算法的局限性;(4)为流程挖掘技术的商业化应用积累相应的经验。本文研究目的是针对支持业务流程建模的流程挖掘技术进行探索性的研究,希望为该领域的问题解决提供一种有效的思路和方法。
其他文献
【正】 中国无产阶级军事家左权,是抗日战争时期为国捐躯的八路军最高将领。他在军事理论、战略战术、军事建设、参谋后勤等方面,都有极其丰富与辉煌的建树。一如何认识与评
文章就一种三维多自由度旋转LED点阵显示器机电系统进行了分析和研究;对显示器的关键技术包括数据处理方式,扫描方法的选择,机械传动结构的设计,以及"分屏","组屏"技术等进行
教师通过教学中的问题设置,增强学生的问题意识,用问题引导学生发现知识、探索知识,在发现问题、解决问题的思维活动中,学会思考、学会学习。本文以《铁的冶炼》为例,探讨初
本文采用无线传感网络对大跨度刚构桥梁结构的模态参数进行了研究,找到一种适当的试验方法,使无线测试技术能够用于实际工程;并基于无线测试技术进行模态测试,研究模态信号处
随着我国入世后国际私人间民商事交往的不断深入,我国现有的以《著作权法》为主体的境外电影作品版权保护制度的弊端日渐显露,其已经不能担当有效保护境外电影作品版权的功能
随着九年制义务教育的普及,我国少数民族地区适龄儿童的入学率越来越高;但与此同时,民族地区基础教育存在的各种问题也日趋显现出来。本文通过研究黔东南州占里村侗族村寨小学
近期经常有媒体报道曾经取得世界冠军、全国冠军的运动员退役后生活窘困的事件,引起了社会各界对于退役运动员就业安置工作的重视。作者通过收集资料发现这一问题已经成为影
本文对斜拉桥施工控制主要理论做了简单的总结。以郁江特大桥为例,介绍了自适应施工控制法在钢桁梁斜拉桥钢桁梁拼装阶段的施工控制中的应用。论文借助MIDAS软件,采用正装计算
针对现代军用飞行器任务规划系统航路规划的特点,分析了飞行器航路规划的基本要求,阐述了目前国内外应用和研究的几种航路规划算法:A*搜索算法、遗传算法、粒子群算法、数学规
目的通过对比分析新辅助化疗TC与TE方案治疗三阴性乳腺癌(TNBC)的疗效和安全性。方法 78例三阴性乳腺癌患者均经病理学确诊,分为TC组(39例)和TE组(39例)。TC组:多西他赛75mg/m~2或紫