基于粗糙集的大数据集挖掘算法研究与实现

被引量 : 7次 | 上传用户:yobisisi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术、传感器技术和Internet的快速发展,产生了很多有效的工具用于生成、传播、存储和检索数据。因此,随着我们获取数据的速度和规模的不断增长,各种形式的数据流被记录在各种类型的存储介质中。数据在实例数量、属性数量和分类数量等方面都出现激增,高维大数据集随之出现。大数据集的出现给包括决策树分类挖掘算法在内的许多机器学习算法在健壮性和可伸缩性等方面带来了巨大的挑战。本文首先阐述了课题的研究背景和意义,然后综述了决策树分类和粗糙集的相关原理和理论。本文在训练集准备与决策树分类模型构造两个阶段引入粗糙集理论,从缩减大数据集规模和改良决策树节点属性选择测度入手,围绕粗糙集理论与大数据集规模的缩减和决策树分类模型构造优化的交叉融合进行了深入研究和积极创新,主要内容和创新包括:1.针对已有数据集规模压缩算法的计算复杂和对实例规模删减的关注不足等缺点,给出一种大数据集空间分割算法,主要考虑从空间上对数据集进行分割,所以引入聚类思想将信息熵的大小作为属性纯度的度量标准来分割数据集,优先选择具有最小熵值的属性,熵值越小,分割后的子集越纯净,即子集划分内的相似性(同质性)越大。2.一般来说,分割后一部分信息会丢失,因此如何使重要的信息保留下来就成为需要主要考虑的问题之一。给出一种大数据集约简算法,利用欧式距离度量找出每个子集划分的中心实例,它是对挖掘任务来说最重要的信息,然后利用K-近邻算法查找中心实例的k个最近邻实例并且与中心实例共同组成代表性实例,进而形成优化的训练集约简集。另外,给出算法的复杂度分析和信息论基础分析,证明算法计算时间复杂度远远小于经典粗糙集约简算法,可以在短时间内找到原始大数据集的一个近似最优约简集。3.给出一种基于粗糙集理论的节点属性选择新测度——属性分类价值量,并结合已取得的大数据集约简算法的研究成果给出新的决策树模型构造算法ACVS。该算法将分类相同但条件属性值不同的情况作为补偿因子可分辨矩阵,并提出属性分类价值量度量函数,它更能全面表征属性对分类的价值,并用于节点属性的选择。同时,将RLDS作为训练集优化的核心算法。4.实现ACVS决策树分类算法,设计一个分类模型。在来自于UCI的数据集上进行对比试验评估算法性能,总结实验,分析存在的问题,提出下一步的研究目标和方向。
其他文献
文学类畅销书是图书的重要组成部分,作为精神食粮生产的重要领域,往往反映出一个时代的社会心态,综合体现着某一时期政治、经济、文化等方面的变化,是社会文化问题的风向标。
近年来,我国高等教育市场化程度不断加深,使得一些高校逐渐意识到了生存的压力以及危机感,如何认清自身在教育市场中所处的位置,发扬优势、改进劣势以便提高市场竞争力已经成
本文对石方爆破施工安全管理实践进行了分析总结,结合目前爆破施工技术的发展,探讨了在石方爆破施工前、施工中及爆破后的安全管理中应注意做好的重点工作,通过这些管理措施,
一、企业的录用方针发生了变化大部分的学校和学生都认为“从学校毕业后,只要想就业,肯定会有企业录用”。最近几年由于就业发生困难,即使不再那么认为,也会有人觉得“企业应
高师院校是培养教师的摇篮,高等师范院校体育教育专业学生不仅应该具有较强的体育技术,更要有传授体育技术的教学方法和技能。本文从教学整体设计、教学文件的撰写,教学组织,语言
目的观察上颌埋伏阻生前牙应用固定正畸方法进行矫治的临床疗效,探讨埋伏阻生前牙有效的治疗方法。方法对20例23颗上颌前牙埋伏阻生病例,应用固定正畸进行矫治,结合牙槽外科
目的对康复护理干预对腰椎间盘突出症患者疗效的影响进行分析探究。方法选取在我院接受治疗的84例腰椎间盘突出症患者,将其平均分为实验组和对照组,对照组患者采用常规护理措
<正> 一、采收 (1)杜仲树叶的采收。采叶一般栽后4~5a的幼树都可根据生长势逐年采摘。时间要在10~11月间进行。采摘过早,有碍树体生长,以落叶前为宜,供药用树叶应去叶柄,剔除枯
隋艳在《中国俄语教学》2017年第1期撰文指出,中俄两国关系处于历史发展最好时期,随着莫言获得诺贝尔文学奖,中国现当代文学重新获得了俄罗斯读者的关注,在中国文化“走出去
数字时代,数字技术深刻地影响了儿童绘本的创作和出版,改变了传统儿童绘本的阅读样式,重塑儿童绘本创作和出版业态。文章回溯儿童绘本早期创作和出版的特点,从比较的视野分析