基于Ⅳ属性选择的随机森林模型研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:ruhua529
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅速发展,众多应用领域如银行金融业、电子商务、生物信息、网络安全等产生了爆炸式的信息。不仅在数据规模上具有高维、海量的特征,在信息内容上还具有冗余多、噪音多的特点。这样的数据给挖掘技术带来了巨大的挑战,尤其是处理数据流等问题时,模型的实时性无法保障,使得更注重训练数据质量的分类模型训练周期变长,精度下降。因此,如何有效的减小数据规模,提高数据质量对提高分类模型的性能有着重要意义。   本文针对属性选择及分类问题开展了以下工作的研究:   (1)针对数据挖掘所面临的挑战,分析了有效缩减数据规模是重要的可行方法,并在此基础上概述了各类经典属性选择方法,探讨了它们的特点与不足。   (2)针对已有属性选择方法在处理高维、海量数据时,时空性能与效果上的不足,分析了将WoE与IV指标引入属性选择的可行性及存在的问题,在解决这些问题的基础上提出了基于IV指标的属性选择方法FS-IV,实验表明该算法是有效的,与经典属性选择方法相比时空性能有明显优势,并具有一定的抗噪性。   (3)针对属性选择后数据集出现的数据量大幅减少、优势属性集中可能会导致的过拟合等问题,分析了解决手段,将FS-IV方法与随机森林模型结合,提出了基于IV指标的随机森林模型,实验表明该模型与C4.5,朴素贝叶斯及经过FS-IV约简的C4.5与朴素贝叶斯模型相比,在不损失精度的情况下,时间性能大幅提升。   (4)根据高维、海量、流数据等实际问题,对FS-IV及IV-RF模型做了适应性改进,实验表明它们对高维、海量数据有着很好的处理效果。
其他文献
随着信息时代的到来,不管采用何种方式获取信息,都面临数据的高维、非线性等难题。如何从这些数据中找到蕴藏的规律是目前迫切需要解决的问题。虽然一些传统的线性维数约简方
随着信息时代的到来,特别是Internet的普及,使得世界范围内的数字化产品的发布和传输变得越来越便捷和频繁,信息的安全保护问题也因此日益突出。数字产品很容易被非法编辑、
聚类是数据挖掘领域中的一个重要研究课题,目前己存在很多经典的聚类算法,但没有任何一种聚类技术(聚类算法)可以普遍适用于揭示各种多维数据集所呈现出来的多种多样的结构。
基于构件的开发过程规范是目前在中小型软件企业普及构件化软件开发技术的关键,目前还没有适合于中小型软件企业发展的软件开发规范,加之当前没有一种统一的基于构件的开发过
随着我国城镇化发展水平的不断提升,车辆越来越多地服务于我们的日常生活。车辆在方便我们生活的同时也带来了一些问题,例如人工管理的效率低下、如何快速准确处理交通违章等
随着半导体技术以及集成电路技术的飞速发展,单个芯片中IP(Intellectual Property)核数量越来越多。当单个芯片上集成的IP核数日达到成百上千的时候,基于片上总线的SoC(SystemO
颜色是人类最敏感的视觉刺激,影响人们的情感,引起人们心理和生理反应,影响人们生活中的各个方面。因此系统地颜色-情感研究具有重要的理论和现实意义。本文通过设计颜色-情感的
空间聚类是空间数据挖掘的一项重要研究课题,空间聚类就是根据相似性对空间对象进行分组,使得每一个簇中的对象有非常高的相似度,而不同簇中的对象尽可能不同。空间聚类在地
Ad Hoc网络作为一种新型的无线网络,在日常生活中有着重要的应用,同时有着重要的科学研究价值。随着对Ad Hoc网络研究的不断深入,安全问题日益成为威胁其发展的重要瓶颈。在A
万维网知识表示相关研究的进展,特别是链接数据项目及相关数据集的发布,使得人类知识库达到了前所未有的规模。从网页中提取结构化知识的研究更促进了人类知识库向“万维网规模
学位