论文部分内容阅读
作为一种高效、深层次的数据分析处理技术,数据挖掘目的是从大型数据库或数据仓库中提取隐含的、未知的、非平凡的以及有潜在应用价值的信息或模式,这些信息将为人们进行各种决策分析提供有力依据。序列模式挖掘是数据挖掘技术的一个重要的研究方向,其作用是挖掘相对时间或其他模式出现频率高的模式。分类分析是数据挖掘技术研究的又一个重要方向,常用的分类模型有决策树,神经网络,遗传算法,粗糙集模型,统计模型等。当前数据挖掘已用于电信、金融、商业、气象预报、DNA序列分析、股票发展趋势分析、入侵检测等许多领域,而且正在探索更多行业中的应用。 本课题主要研究了数据挖掘中的数据预处理、序列模式挖掘和决策树分类分析,详细介绍如下: 第一,指出了课题的研究背景及其重要的研究意义;从数据挖掘的理论研究和应用研究方面,对当前数据挖掘的国内与国外的研究动态进行分析,并就当前数据挖掘研究重点问题作了详细介绍。 第二,深入研究了数据挖掘中序列模式分析技术。回顾了序列模式分析的研究动态,详细介绍了当前序列模式分析的主要算法,分析比较了算法的优缺点,给出了算法中存在的问题。 第三,详细深入的介绍了分类分析的基本概念和处理过程,给出了模型评价标准,并详细分析了基于决策树的分类模型的研究动态,介绍了决策树分类分析的原理及步骤,并对ID3算法进行了深入的研究分析。 第四,针对ID3算法中存在的问题,对其进行了改进,提出了ID3_new算法,有效地缩减了ID3算法处理过程中的数据量,使生成的决策树更加简洁、有效,并且通过在产生决策树的节点时,同时记录下满足从该节点到根节点的路径的条件的记录数,从而提高决策树的决策能力。并通过实际应用证明了算法的有效性。 第五,构建了旅游消费者数据分析系统。首先说明了研究旅游消费者数据的重要意义;介绍了系统的主要功能:数据预处理、旅游消费者出行路线分析以及消费者消费能力分析;详细分析了数据预处理模块所采用的预处理手段和方法,对旅游消费者出行路线分析以及消费者消费能力分析中采用的算法进行了详细的描述,并利用该系统对山东省旅游消费者数据进行分析,并对结果进行了评价。 最后,对研究工作出现的问题进行了讨论并对三年的研究工作进行了总结,指明了今后进一步研究的课题。