基于轨检车检数据的决策树分类算法的研究与应用

被引量 : 0次 | 上传用户:tjn000800
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘(Data Mining)是从大量数据中发现潜在规律、提取有用知识的方法和技术。近年来,数据挖掘受到了普遍关注,已经成为信息系统和计算机科学领域研究中最活跃的部分。数据挖掘技术从一开始就是面向应用的。目前,在很多领域,数据挖掘都是一个很时髦的词,尤其是在如银行、电信、保险、交通、零售等领域。但数据挖掘技术应用于轨检车检测数据分析领域,目前研究较少。铁路线路检测产生了大量的轨检车检测数据,期待对其进行挖掘,找出其中潜在的规律,以对未来的数据进行分析与预测。因此,本文以真实的轨检车检测数据为例,阐述轨检车检测数据分析的意义、现状及存在的不合理点,具体提出利用数据挖掘分类算法对庞大的轨检车检测数据进行分析与预测的改进设想。分类算法最知名的是决策树方法(Decision Tree),决策树是用于分类的一种树结构。其中的每个内部节点(internal node)代表对某个属性的一次测试,一条边代表一个测试结果,叶子(leaf)代表某个类(class)或者类的分布(class distribution),最上面的节点是根节点。决策树分类法由于其分类效率高、速度快、可理解性强、简洁性好等优点,在海量数据环境中应用最为广泛。本文全面介绍了决策树分类算法的研究现状和研究热点,重点分析了ID3算法和C4.5算法。在此基础上提出了一种改进算法QC4.5,该算法在分析C4.5法实现的时间复杂度与空间复杂度的基础上,针对其对连续型属性的处理提出了两种改进方案,在决策树递归生成过程中,根据属性值的特点选择最优的方案来计算属性的信息增益。通过实验数据表明,QC4.5的执行效率优于C4.5,证明了算法的可行性。另外,本文在深入研究决策树分类算法的基础上,并结合轨检车检测数据分类的需要,开发了一个轨检车检测数据分类系统,可以作为一个通用的数据挖掘平台应用于各个领域。
其他文献
测量不确定度是一种对测量结果可信程度的表示方式,依据《测量不确定度评定与表示指南》,在水中总磷测量时,找出影响测量的各个因素(分量),建立满足测量不确定度所需的数学模
按照国家标准GB/T 7730 .3- 1997中的方法I进行锰铁中磷含量的测定 ,对涉及的玻璃器皿和仪器设备进行不确定度来源分析和评定。不确定度主要来自于重复性测定、天平、2 5 0mL
<正> 心脏疾病仍是危害人类安全的最大威胁之一.仅在美国,据估计每年就有将近一百万人死于心脏病.虽然目前心脏移植已经取得了很大进展,1年和5年存活率分别达到63%和39%,但是
影响汽车油耗的因素很多,文中从汽车的结构因素及使用因素着手,探讨了汽车节油的方法与措施,如采用节油装置和混合动力系统及合理的驾驶技术等,以期从开发到利用的全过程获得
灌溉工程自动化是节水灌溉的重要技术手段,将优化调度和自动控制技术相结合可以最大限度提高水的利用效率,介绍了渠系自动化的主要原理,控制方法,指出了应用和研究中存在的问
<正>申请公布号:CN104133029A申请公布日:2014.11.05申请人:北京万全德众医药生物技术有限公司摘要:一种测定琥珀酸索非那新中间体光学纯度的方法。本发明属分析化学领域,本
随着气象现代化的快速发展,气象业务信息的不断增加,气象基本观测资料以现有的专线SDH方式进行传输,而VPN以其高效低价、安全可靠,集灵活性、安全性、经济性以及可扩展性等优
现今违法用地遥感监查系统尽管已取得诸多成绩,但存在的最大问题在于遥感与治理的分离,二者的分离意味着监测和查处无法形成合力,导致系统工作效率降低,具体表现为监查瓶颈的
在隧道施工中,如受到地形的影响,施工人员通常会采取爆破处理,以三臂凿岩台车为例,可采用楔形和直眼掏槽两种方式。为筛选出最佳方法,文章对两者进行了多方面的对比,具体体现