论文部分内容阅读
随着计算机技术、传感器技术和Internet的快速发展,产生了很多有效的工具用于生成、传播、存储和检索数据。因此,随着我们获取数据的速度和规模的不断增长,各种形式的数据流被记录在各种类型的存储介质中。数据在实例数量、属性数量和分类数量等方面都出现激增,高维大数据集随之出现。大数据集的出现给包括决策树分类挖掘算法在内的许多机器学习算法在健壮性和可伸缩性等方面带来了巨大的挑战。本文首先阐述了课题的研究背景和意义,然后综述了决策树分类和粗糙集的相关原理和理论。本文在训练集准备与决策树分类模型构造两个阶段引入粗糙集理论,从缩减大数据集规模和改良决策树节点属性选择测度入手,围绕粗糙集理论与大数据集规模的缩减和决策树分类模型构造优化的交叉融合进行了深入研究和积极创新,主要内容和创新包括:1.针对已有数据集规模压缩算法的计算复杂和对实例规模删减的关注不足等缺点,给出一种大数据集空间分割算法,主要考虑从空间上对数据集进行分割,所以引入聚类思想将信息熵的大小作为属性纯度的度量标准来分割数据集,优先选择具有最小熵值的属性,熵值越小,分割后的子集越纯净,即子集划分内的相似性(同质性)越大。2.一般来说,分割后一部分信息会丢失,因此如何使重要的信息保留下来就成为需要主要考虑的问题之一。给出一种大数据集约简算法,利用欧式距离度量找出每个子集划分的中心实例,它是对挖掘任务来说最重要的信息,然后利用K-近邻算法查找中心实例的k个最近邻实例并且与中心实例共同组成代表性实例,进而形成优化的训练集约简集。另外,给出算法的复杂度分析和信息论基础分析,证明算法计算时间复杂度远远小于经典粗糙集约简算法,可以在短时间内找到原始大数据集的一个近似最优约简集。3.给出一种基于粗糙集理论的节点属性选择新测度——属性分类价值量,并结合已取得的大数据集约简算法的研究成果给出新的决策树模型构造算法ACVS。该算法将分类相同但条件属性值不同的情况作为补偿因子可分辨矩阵,并提出属性分类价值量度量函数,它更能全面表征属性对分类的价值,并用于节点属性的选择。同时,将RLDS作为训练集优化的核心算法。4.实现ACVS决策树分类算法,设计一个分类模型。在来自于UCI的数据集上进行对比试验评估算法性能,总结实验,分析存在的问题,提出下一步的研究目标和方向。