论文部分内容阅读
数据挖掘是从数据库或其它信息库的大量数据中挖掘出有效知识的过程,是当前涉及人工智能和数据库等学科的一门相当活跃的研究领域,序列模式的发现是其中的一个重要研究课题。序列模式挖掘就是在时序数据库中挖掘相对时间或其他模式出现频率高的模式。序列模式发现是最重要的数据挖掘任务之一,并有着广阔的应用前景,比如交易数据库中的客户行为分析、Web访问日志分析、科学实验过程的分析、文本分析、DNA分析和自然灾害预测等等。多维序列模式挖掘是在序列模式挖掘基础上考虑了其它一些维信息,像在顾客购买行为分析中考虑到顾客的年龄、性别等信息,这样的模式融合了更多的信息,应用价值更高。本文在分析序列模式挖掘算法的基础上,对多维序列模式挖掘算法以及在应用领域的具体实施方面做了较深入的探讨,主要贡献如下:(1)提出高效的基于连接的多维序列模式挖掘算法Seq-mdp(Sequence-Multi-DimensionalPattern)。在挖掘多维模式时,扫描一次投影库,记录下得到的频繁项的所属属性以及元组信息,用于后续的连接,不需要再扫描投影库,仅通过连接就可以获得所有的多维模式。实验表明该算法有较好的时间性能。(2)将多维序列模式挖掘算法应用于异常检测。针对入侵检测的特点将数据挖掘技术应用于用户异常行为检测中,首先将用户行为数据库转化为多维序列数据库,然后对其进行多维序列模式挖掘以提炼出用户高频行为模式,将当前模式库与历史模式库做比较判断是否存在异常,实验说明了方法的可行性。(3)设计并实现了序列模式挖掘工具。此工具包含了几个有效的序列模式挖掘算法,一方面用户可以根据自己的需求选择合适的算法,另一方面也是一个序列模式挖掘算法的比较平台。与已有工具相比,此工具融合了几种效率比较高的专门针对序列模式挖掘的算法,为用户提供了多种选择方法。