Spark MLlib中决策树算法不同特征选择标准比较

来源 :太原师范学院学报:自然科学版 | 被引量 : 0次 | 上传用户:ziguangguo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Spark-MLlib中决策树算法根据其目标特征值是否连续分为分类树和回归树.其中分类决策树算法又根据其特征选择标准不同,分为ID3算法和CART算法.实验时分别使用信息熵和基尼系数作为分裂准则来划分训练数据集,并比较了两者在不同规模数据集上的性能表现.实验结果表明,在保持训练效率的情况下,随着数据集规模增大,使用信息熵训练的树模型其分类精度高于使用基尼系数训练的模型精度.
其他文献
由于加工过程无需掩模、加工精度高和加工方法灵活等优点,电子束曝光成为了力、热、声、光、电等学科在纳米尺度开展研究的关键技术。随着纳米尺度下科学研究的推进,微纳结构所需集成的功能不断增加、几何形状复杂程度持续攀升,这对依赖于AutoCAD或者L-edit等软件进行的电子束曝光版图设计方法提出了挑战。因此,如何有效地设计和优化电子束曝光版图成为了微纳加工领域内一个重要的研究课题。基于上述电子束微纳加工
【正】 在深化企业改革的过程中,承包制的优越性正日益为大家所认识,一个推广承包制的热潮正在全国各地区、各部门普遍兴起。但在这个过程中,还有一些亟待解决的问题。其中主
连任三届福州市人大代表的郑书鸿对自己的履职有着明确的目标:“我要求自己履职不能走过场,脚踏实地,切切实实地为群众办些实事。”郑书鸿曾是一家企业的负责人,2007年当选福
目的 :探讨用完整结肠系膜切除术治疗结肠癌的临床效果。方法 :对近年来我院收治的28例结肠癌患者的临床资料进行回顾性研究。我院随机将这些患者分为甲组和乙组,每组各有14例
【正】 乐至县是典型的农业县,县域经济呈典型的二元结构。我们在经济工作指导上,牢牢把握经济建设这个中心,确立了"强农重工,大兴流通,贸、工、农一体化"的经济发展思路。围
【正】 当今,在中国共产党领导全国各族人民,从十一届三中全会拨乱反正,到团结一致建设有中国特色的社会主义的奋斗进程中,社会上却出现了一股资产阶级自由化思潮,妄图违背人
【正】 工商企业推行承包、租赁经营责任制,是在利改税基础上进一步强化国家与企业各自的责任、以所有权与经营权相分离为特点的新的企业经营形式。“包死基数、逐年递增”这
【正】中国共产党倡导的抗日民族统一战线,从酝酿到建立经历了“抗日反蒋”、“逼蒋抗日”、“联蒋抗日”三个阶段.其中“逼蒋抗日”是关键,因为党适时地放弃了“反蒋”立场
随着我国计划经济向市场经济的转变,社区制逐步代替单位制,社区成为社会治理的基础,肩负起稳定和谐、实现有效治理的重担。同时多元化主体合作的治理模式也代替了一体化的管理模式。如何在党和政府构建的社区治理架构中,发挥驻区单位、社会组织和民众的作用,优化社区公共服务供给中的政社合作机制,成为一个重要的理论课题和实践课题。本文对城市社区、公共服务、政社合作等概念进行界定。并详细梳理合作治理理论的内容,阐释其
电视字幕的创新应用得益于电视真人秀节目的兴起与发展,真人秀节目本身丰富的节目内容与相对轻松的节目氛围,为电视字幕的创新应用提供了发展空间,真人秀节目讲究以“真”为