论文部分内容阅读
数据挖掘(Data Mining)是从大量数据中发现潜在规律、提取有用知识的方法和技术。近年来,数据挖掘受到了普遍关注,已经成为信息系统和计算机科学领域研究中最活跃的部分。数据挖掘技术从一开始就是面向应用的。目前,在很多领域,数据挖掘都是一个很时髦的词,尤其是在如银行、电信、保险、交通、零售等领域。但数据挖掘技术应用于轨检车检测数据分析领域,目前研究较少。铁路线路检测产生了大量的轨检车检测数据,期待对其进行挖掘,找出其中潜在的规律,以对未来的数据进行分析与预测。因此,本文以真实的轨检车检测数据为例,阐述轨检车检测数据分析的意义、现状及存在的不合理点,具体提出利用数据挖掘分类算法对庞大的轨检车检测数据进行分析与预测的改进设想。分类算法最知名的是决策树方法(Decision Tree),决策树是用于分类的一种树结构。其中的每个内部节点(internal node)代表对某个属性的一次测试,一条边代表一个测试结果,叶子(leaf)代表某个类(class)或者类的分布(class distribution),最上面的节点是根节点。决策树分类法由于其分类效率高、速度快、可理解性强、简洁性好等优点,在海量数据环境中应用最为广泛。本文全面介绍了决策树分类算法的研究现状和研究热点,重点分析了ID3算法和C4.5算法。在此基础上提出了一种改进算法QC4.5,该算法在分析C4.5法实现的时间复杂度与空间复杂度的基础上,针对其对连续型属性的处理提出了两种改进方案,在决策树递归生成过程中,根据属性值的特点选择最优的方案来计算属性的信息增益。通过实验数据表明,QC4.5的执行效率优于C4.5,证明了算法的可行性。另外,本文在深入研究决策树分类算法的基础上,并结合轨检车检测数据分类的需要,开发了一个轨检车检测数据分类系统,可以作为一个通用的数据挖掘平台应用于各个领域。