基于子类问题特征曲线的特征选择算法的研究

来源 :天津师范大学 | 被引量 : 1次 | 上传用户:jojo0911216779
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择是数据预处理的关键一步,是一种有效的降维方法。目前特征选择已经应用于许多方面,如文本挖掘、图像处理、入侵检测、基因组分析等等。特征选择方法可以根据一定的准则对不相关和冗余的特征进行区分和剔除,最终找到特征的子集,减少数据的维数,从而使学习算法更高效,结果更准确。常见的特征的选择方法分为三种,分别为Filter、Wrapper、Embedded。Filter方法利用某种类别的可分性度量从一个特征集当中挑出最有利于分类的特征,通常Filter方法的效率较高,但是精度一般。而Wrapper方法是特征选择结合在学习算法过程中,特征子集的评价标准和学习算法的性能相关,Wrapper方法往往精度较高而效率低下。Embedded方法使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。类似于Filter方法,但是是通过训练来确定特征的优劣。一般来说,Filter方法只用一个分数来评判特征对所有类别的综合分类能力,分值越高分类能力越强,然而很多文献已表明只选择分数高的特征往往不能取得很好的效果。针对这一问题,本文引入了子类问题特征曲线的新方法(Feature curve feature selection,简称为FCFS),通过用不同的Filter方法中的可分性度量信息增益(information gain)、卡方检验(chi-square test)找到传统的高分特征,并用特征曲线的方法找到对于某个类别识别度高但是分数不高的特征。为了验证FCFS方法的有效性,与5种已有的排序特征选择方法CIFE,MRMR,Relieff,JMI,DISR以及2种子集的特征选择算法FCBF和CFS在UCI数据集SRBCT,Arrhythmia,Urban,Dermatology,SCADI,Libras,Forest 和 Student 上使用相同的分类器以及评价指标进行比较测试,测试结果表明提出方法FCFS是有效的。
其他文献
将染色质免疫共沉淀技术(ChIP)与下一代高通量测序技术相结合的染色质免疫共沉淀测序(ChIP-seq),已成为功能基因组学、特别是基因表达调控领域研究的关键技术。ChIP-seq实验带来
当下,药品包装上需要印刷越来越多的可变信息,这种需求迫使包装企业开始考虑热转移印刷。现在,热转印正在以迅猛的攻势逐渐占据柔性版印刷的市场。由于越来越多的企业希望成
强大的计算能力和海量的训练数据推动了基于机器学习的图像分类、语音识别、无人驾驶等高新技术的迅猛发展。随着机器学习模型的不断增大,日益复杂的计算任务对存储和计算能力的需求需要通过分布式机器学习系统来解决。大规模分布式机器学习普遍采用的数据并行的分布式策略会产生典型的多对一流量模式,快速增长的参数同步数据量规模和频率对网络提出了更高的带宽需求。网络通信成为了分布式系统机器学习应用完成速度的重要瓶颈。传
期刊
电力系统中电子器件的应用,特别是高压直流输电技术在电力系统中的应用,使得对其谐波的分析理论和方法变得非常重要。在比较相关方法的基础上,重点对调制理论的原理和此原理
对高职护理专业学生进行的素质教育改革与实践总结认为:素质教育要从强化思想道德素质教育、专业素质教育、人文素质教育和身心素质教育入手,以提高护理人才的综合素质;建立学生
总结《内科护理学》的学习策略与方法——明确学习目标、调整学习策略。学会预习、听课和复习,调控自我学习过程。旨在帮助学生学会学习,提升课程学习质量。
工作记忆是进行复杂认知活动时对信息进行短暂存储和加工的,容量有限的记忆系统。工作记忆与智力、推理、学习、创造力、言语、学习、问题解决和决策等高级认知活动都存在一定程度的相关,是人类高级认知活动的核心。工作记忆由语音环路、视觉空间模板、情境缓冲器和中央执行系统四个子成分组成。与工作记忆子成分对应的工作记忆分别为言语工作记忆和空间工作记忆。负性情绪对工作记忆存在影响。但是这种影响究竟是同时作用于言语和
目的 观察盐酸甲哌卡因注射液在拔牙和牙髓治疗中的麻醉效果。方法选择门诊常规拔牙及牙髓治疗患者160例,随机分为试验N80例,用盐酸甲哌卡因注射液口腔麻醉;对照组80例,用2%利多卡
为增进全国遗传与发育生物学研究领域研究生之间的学术交流,充分展示研究生的科研潜力,激励更多的优秀学子坚定信念、执着前行。由中国科学院遗传与发育生物学研究所和中国科