面向多类标分类的随机森林算法研究

被引量 : 0次 | 上传用户:wys8800
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网技术的不断发展及在各行业中的广泛应用,人们积累的数据也呈爆炸式增长,这带领人们进入大数据时代。而随着大量文本数据与医学数据的出现,人们也开始注意到了多类标数据的产生。针对高维数据,随机森林算法有着良好的分类效果,但是目前随机森林算法仅仅用于单类标分类问题,还没有推广到多类标分类问题领域。如何将随机森林算法推广到多类标分类领域进而得到高精度预测是本课题的主要研究内容。本文的具体工作如下:(1)从多类标分类和随机森林算法两方面对国内外文献进行了调研。全面总结了多类标研究领域内的分类算法及其验证准则,介绍了随机森林的发展;(2)提出了类标子集划分的方法。本文采用卡方检验作为两个类标间相依性的衡量标准,随机产生大量的类标划分,每个划分集合中包含若干类标子集。通过计算每一个类标划分集合的权重,层层筛选,最终保留高权重且高互异性的类标划分集合;(3)提出了一种新的样本抽样方法。本文结合懒惰学习思想,在抽样过程中加入测试样本在训练集中的若干邻居作为构建决策树的影响因素,和传统随机抽样一起组成最终样本空间;(4)基于以上工作提出了多类标随机森林分类算法。根据多类标数据集类标之间存在相关性的特点,将多类标分类问题划分为若干相对独立的子问题,综合运用多类标问题转化算法和传统随机森林算法,分步解决子问题后再集成进而得到最优解。最后通过在多领域数据上的对比实验证明了该算法的优越性。
其他文献
目的探讨电击伤致脑损害的临床特点及高压氧治疗的作用。方法回顾性分析5例电击伤致脑损害患者的临床资料。结果 5例患者均为交流电击伤,合并高处坠落颅脑外伤1例,合并心跳呼
非正规金融目前在发达国家也存在,而不仅仅在发展中国家和地区普遍存在。农村的主要产业结构在20世纪80年代以来有了重大调整,比如说个体和私营企业规模逐渐壮大;第二、第三
发展是人类永恒的追求,人类社会从低级到高级的演变都是历经一步步发展而来的,在这过程中,遵循何种发展理念,选择怎么的发展道路是人类所一直探索的问题。进入工业文明以来,
在全国上下贯彻落实十八届三中全会精神的形势下,在国内经济调结构、稳增长的市场竞争日益激烈的背景下,中国航天科工集团公司第二研究院(以下简称“航天二院”)为积极贯彻落
目的探讨进展性缺血性脑卒中的危险因素。方法前瞻性登记急性缺血性脑卒中患者并收集其临床资料。依据欧洲进展性卒中诊断标准将患者分组,对可能影响卒中进展的因素进行比较
目的观察硬脂酸纳米吗啡(SLN-M)单次注入大鼠硬膜外腔后的镇痛效应。方法选择硬膜外置管后无神经损伤症状的SD雄性大鼠50只,随机均分为五组。A组(假给药组):经硬膜外腔给予硬
县级中医院是我国医疗服务机构的重要组成部分,在“十二五”规划和“医改”的大形势下,政府对县级中医院的建设和发展有哪些相关政策?县级中医院的建设标准有哪些,执行情况如
随着冶炼强度的不断加大,高炉炉衬的保护技术变得越来越重要,目前通用的解决方法是在砌砖之间埋设具有高热导率的纯铜水套,实行强制冷却,延长高炉使用寿命。然而纯铜水套存在
近年来,随着云计算领域的研究和发展,Hadoop分布式平台也一直备受关注。Hadoop是一个开源的分布式基础架构平台,主要包括分布式存储系统HDFS和分布式计算框架Map Reduce。随
没有好的身体,就无法享受丰富多彩的城市现代生活。在社会经济机制与媒介机制的促动下,健全而美丽的身体呈现出了复杂和生动的城市现代景观。健全或美化不仅涉及个人身体,而