随机森林特征选择

被引量 : 0次 | 上传用户:laoxuslx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今,数据规模快速增长,使得如何从繁杂无序的数据中提取有用信息,成为摆在大家面前的一个课题。数据挖掘技术应运而生,凭借其优越性能已经被广泛的应用于复杂数据的分析。同时,机器学习技术日趋成熟和完善,越来越多的机器学习方法被应用到数据挖掘问题中。利用机器学习中的虑噪、特征选择等技术,可以有效的从大量繁杂数据中获取有价值的信息,这可以为后续分析研究打下坚实的基础。随机森林是一种优秀的机器学习方法,已经被成功的应用于许多领域。随机森林不仅可以解决分类问题和回归问题,在特征选择领域已经引起越来越多的关注。本文基于随机森林模型,针对其在代谢组学数据分析中的应用,进行了大量的研究。为了克服噪音数据对随机森林分类正确率的干扰,通过借助人工对照变量虑噪的方法,可以提高分类正确率。随机森林是通过对特征进行重要性度量的方式实现特征选择的,然而,简单的一次评分是不够的,因为有很大的随机成分,结合处理对象所属领域自身的特点,本文给出了一种有限制的迭代评价的随机森林特征选择方法。另外,特征选择结果的优劣,在很大程度上依赖于处理策略的设计,这不仅包含了处理流程策略的设计,还包括了模型构建策略的设计。最后,为了充分利用多种机器学习方法各自的优点,尽可能全面的理解处理对象,本文还提出了一种新的集成数据处理策略,把随机森林、支持向量机和遗传算法集成到一起。本文以随机森林为研究焦点,把其应用于代谢组学数据处理。代谢组学是生物信息学四大组学之一,代谢组学技术可以肯定身体已经发生的变化,这对疾病的诊断以及治疗有极其重要的意义。用人工对照变量辅助删除噪音时,构建的随机森林分类模型正确率由90.7%提高到94.4%;用迭代的随机森林特征度量方式特征选择时,五组正确率均很高,提取出18个可定性的重要特征;用多种方法集成处理数据时,模型的分类正确率均为100%,同时提取出31个重要特征。
其他文献
随着经济全球化和贸易自由化进程的加快,传统的关税和非关税壁垒逐步削弱,而绿色壁垒作为一种全新的非关税壁垒,因其隐蔽性强、透明度低以及名义上的合理性等特点,因而受到很
如今互联网早已不再是传统意义上的Internet了,随着信息技术的高速发展已经演变为"The Internet of Things",译作物联网,顾名思义就是“物物相连的互联网”。学校的各个管理
近年来,随着知识经济的到来,企业面临国际、国内的竞争越来越激烈,技术创新是企业核心竞争力培养的关键,技术创新能力的高低决定着企业长期持续的发展。技术创新是一个有机的
有关信贷供给与经济增长的关系,目前文献主要是从全国的视角展开,对此话题进行理论和实证的分析,不仅国内的论文研究如此,国外的论文研究也是基于这一特征,但对区域金融机构
中国改革开放经过了30多年的历程,中国证券市场也经历了20年的发展,通过对中国证券市场发展情况的了解,解读未来中国证券市场的规范、创新、发展的方向以及与国民经济和全球
蜂窝夹芯结构具有轻质高强和可设计性强等优点,是航空航天、船舶、汽车、建筑等领域不可缺少的材料之一。在实际工程应用中,经常面临循环载荷作用,并且蜂窝夹芯结构力学性能
内部控制作为企业各项管理工作的基础,它既是衡量现代企业管理水平的重要标志,也是企业持续健康发展的可靠保证。近年来国内外层出不穷的会计丑闻和频频发生的企业高管人员舞
推动双创型人才培养模式不但能促使社会生产与创新,同时还能改变原来固有的高等职业院校的人才培养模式,这种模式对比传统的培养模式有很大区别,其中十分明确地提出了全新的
文学和图像的关系问题是当下学术研究的热点之一。而中国连环画艺术,正是这一关系的具体体现。本研究选择叙事学的角度,对美术史上的连环画艺术进行阐发;运用美术史学、文化
<正> GJ2A3-270剖层机是1971年轻工业部下达天津皮革机械厂的新产品试制任务。该厂与河南皮革研究所协作并在其它兄弟单位的协作支持下,经过两年多的努力,终于完成了设计试制