论文部分内容阅读
用户规模万级以上的网络信息系统数量呈指数级增长态势,是当前互联网发展的一个基本事实。用户使用系统的行为往往受到网络中其他个体以及群体使用方式的影响。因此,如何在网络应用环境下,探索人们交互行为的特点和规律,变得尤为重要。理解这些特点和规律是改进人们工作方式、提高执行效率、缓解瓶颈问题的一个重要的途径。
本文提出一种称为行为模式挖掘的自动化分析方法,该方法从事件日志数据源中寻找用户行为规律,并使用控制流形式的流程模型来完成行为模式的表示。行为模式挖掘为互联网上人们行为的定量研究提供了一种基本工具。
行为模式挖掘技术可以被看作流程挖掘中的控制流视图挖掘在没有工作流引擎支持下记录到的通用事件日志上的扩展,因而也是传统流程挖掘技术的一个子领域。与流程挖掘使用的事件日志格式相比,行为模式挖掘的输入数据具有“连续行为事件流”和“流程间事件混淆”两个独有特点。这两个特点使得传统流程挖掘领域中的手段和方法无法直接应用于行为模式的发现过程中。针对这种情况,本文将行为模式挖掘的研究内容划分为事件记录、数据预处理、挖掘实施和结果验证四个主要步骤,通过为各个步骤建立基本理论和解决方案,以步骤间协同配合的方式来应对行为模式挖掘的独有特点。
在数据预处理步骤的讨论中,本文以形式化的方法提出了数据视图的概念。使用数据视图方法不但能够实现对输入事件日志的划分、变形,而且能够兼顾预期挖掘结果的物理含义,确保行为模式挖掘结果的有效性,从而帮助传统流程挖掘领域中的处理方法能够不修改或者少修改即能重新适应行为模式挖掘环境中的应用需要。
面向挖掘实施步骤的算法设计需求,本文对传统流程挖掘领域中典型算法的移植过程进行了分析,并完成对α算法的移植改造,使之能够在连续行为事件流上发现主要的行为模式特征。这一算法移植实例,对流程挖掘中其他算法向行为模式挖掘领域的移植改造提供了先导性的方法参考。
对于结果验证步骤,我们分析了主要的流程模型挖掘实验验证方法,依据现阶段研究主要集中在对流程结构的发现能力加强上,而提出基于标准参考模型生成模拟事件日志,从结构上比较挖掘结果模型与参考模型来验证挖掘算法性能的方法,并给出了实验操作步骤的完整描述。
重复任务问题也会严重影响到行为模式挖掘的准确性。利用基于事件上下文差异的距离度量算子,本文提出了一种基于自动聚类方法的重复任务重命名处理机制,可同时应用于行为模式挖掘和流程挖掘领域,使原有算法不需要进行修改即可获得对重复任务结构的支持能力,具有良好的兼容性。
通过典型流程模型作为参考完成的模拟实验,我们发现即使在不区分流程案例的通用事件日志上,仍然可以使用自动化的处理方法重现用户行为间的主要结构依赖关系。本文的研究工作为行为模式挖掘的主要工作步骤建立了最基本的解决方案,从而为将行为模式挖掘技术应用于实际场景、准确发现现实生活中的用户行为模式、分析并改善人们的工作效率做好了工具与技术准备。