结合K-means的C4.5算法优化研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:xxxxssss11112222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,各个领域都会产生海量的数据。对这些海量数据进行初步处理,再利用数据挖掘技术进行特定方向的分析,往往就能得到一些针对特定领域的有用特征和规律,进而指导行业生产,获得巨大收益。C4.5决策树算法是数据挖掘算法的重要分支之一,研究改进C4.5算法具有现实的意义。针对C4.5算法在计算连续属性信息增益率时时间开销过大的问题,提出应用K-means算法首先计算C4.5算法的连续属性取值的聚类中心,再根据得到的聚类中心计算该属性的信息增益率。针对K-means算法随机选取点作为初始聚类中心导致最终得到的聚类中心不稳定以及计算次数过多的问题,提出了两种改进算法。一是Average-K-means算法,先将连续属性的所有值进行排序并得到序列,再K等分该序列的值域,把K等分点作为初始聚类中心。二是Density-Kmeans算法,将连续属性的所有值进行排序并得到序列,再从序列中找到取值密度较大的区域,把这些区域取值的平均值作为初始聚类中心。将上述两种改进算法与C4.5算法相结合,进一步提出了改进的C4.5算法——Density-Average-K-means-C4.5算法。该算法在计算连续属性信息增益率时,在当前样本容量较大的情况下使用Density-K-means算法计算该连续属性值的聚类中心,反之使用Average-K-means算法。计算得到的聚类中心代替该属性的所有取值来计算该属性的信息增益率。基于UCI的两个数据集进行的实验结果表明,该算法与原始和现有改进的C4.5算法相比,建立决策树所需的时间大大减少,准确率相差无几。
其他文献
世界羽毛球男子双打水平快速提高,不同国家选手各有不同特点。以中国、日本、印尼、韩国、丹麦为代表的优秀男双选手的发接发打法特征迥异,但都极具竞争力。为了研究世界上的优秀羽毛球男双运动员接发球特点,本文采用文献资料法、录像分析法、专家访谈法和数理统计法等研究方法,从目前世界羽毛球男双水平最高的五个国家中分别抽选一对运动员:李俊慧/刘雨辰;嘉村健士/园田启悟;苏卡穆约/费尔纳迪;李龙大/柳延星;阿斯特鲁
学位
纤维增强水泥基复合材料叠合板是一种新型的叠合结构,底板采用混掺聚丙烯-钢纤维HPCC(High Performance Cement-based Composites,简称HPCC)预制,上层板采用普通混凝土浇筑。这种叠合结构具有减轻结构自重、提高结构抵抗使用荷载的有效性;增大楼板结构的跨越能力,扩大房屋建筑的使用空间;由于HPCC断裂韧性大,抗渗性能好,提高叠合板的耐久性能和抗冲击能力,而且楼板
王学仲(1925—2013年)是一位跨越了两个时代的艺术家,他经历了近现代以来中国历史格局的剧烈动荡和中西文明交流新局面。他的艺术生涯反映了此一时期中国美术史的复杂情境。在时代剧变中,王学仲深刻地认识到文人画是中国传统艺术的核心部分,在传统文化面临怀疑和背弃的时候,他选择坚定地维护它,提出了现代文人画理念。关于他现代文人画的讨论多是从其艺术价值入手,对艺术发生的原因和背景则未形成系统的研究,笔者希
Pickering乳液因其稳定时间长、无表面活性剂、灵活选用各种固体粒子等特性,受到越来越多研究者的青睐。Pickering乳液的应用范围很广,在生物制剂、食品储存、催化领域、环境治理等领域发挥越来越重要的作用。目前生物医药载体制备方面已有大量的关于水包油乳液制备载体材料用于疏水性药物控释的报道,但制备一种安全的、生物相容性好及高性能的水溶性药物控释载体仍然是一个挑战。我们以碳点稳定的油包水Pic
中国期权市场的发展为期权策略的开展提供了条件。本文的主旨是对中国期权市场的动态Delta对冲策略进行研究,同时给出了策略构建的实际例子。在分析衍生品对冲策略思路的基础
中国银行间债券市场是我国最大、相对最成熟的场外交易市场,是我国债券市场的主体市场,是第一个正式引入做市商制度的金融市场。参与银行间债券市场的主体正在不断扩大,其交
分数阶微分方程模型在很多学科领域都有广泛的应用,例如信号控制和处理、高分子材料解链、自动控制系统理论、生物医学等都可以应用微分方程模型来描述。因此,在分数阶微分方程研究领域,解的存在性是一个非常重要的研究课题。本文对两类分数阶微分方程边值问题进行研究,得到其Lyapunov不等式。第一类研究的是含Riemann-Liouville导数的边值问题:(?)其中n∈N,n≥3,α∈(n-1,n],β∈[
伴随着计算机断层扫描技术(CT)、磁共振技术(MRI)等多种先进成像技术的发展,医学影像技术已在临床诊断、手术治疗、康复检测及远程医疗等方面得到了广泛应用。而CT影像因其高分辨、价位低等因素在介入治疗或是微创手术中备受青睐。在CT引导的介入手术中,“线状物”器械的迅速准确定位对手术的顺利进行起到关键作用,尤其对于手术导航系统的设计,如活检、介入式手术等。本文主要研究CT图像中“线状物”器械的检测方
水污染是一个颇受关注的全球性问题,而重金属离子/染料废水污染首当其冲。常用的处理重金属/染料废水的方法有,化学沉淀法、离子交换法、膜分离法、生物法和吸附法等。吸附法因其方便简单、成本低、适应能力强,而得到广泛的使用。本论文基于典型MOFs(ZIF-8)材料,以简便的合成方法制备了Fe_3O_4@ZIF-8磁性核壳材料和多孔中空碳球(PHCS)@ZIF-8纳米核壳材料,并对其物理化学结构进行了表征测
耦合非线性薛定谔方程是众多非线性物理模型中最重要的一种模型,它可以描述很多物理现象,例如,水槽中水波的传播,多个组分玻色-爱因斯坦凝聚体动力学,多个自由度的光脉冲在光