【摘 要】
:
维度降低是处理大型高维度数据必须面临的一个重要问题。特征选择就是在大型数据集上选择原始特征的一个子集,预处理数据以获得一组较小的有代表性的特征集合。从有无类标签参与特征选择的角度,将特征选择方法分为监督型特征选择、无监督特征选择和半监督特征选择。由于无监督特征选择方法只考虑了特征之间的相关性,而忽略了特征与类别之间的相关性,导致了无监督特征选择获得的特征子集的分类能力较弱,比如基于谱图理论的谱特征
论文部分内容阅读
维度降低是处理大型高维度数据必须面临的一个重要问题。特征选择就是在大型数据集上选择原始特征的一个子集,预处理数据以获得一组较小的有代表性的特征集合。从有无类标签参与特征选择的角度,将特征选择方法分为监督型特征选择、无监督特征选择和半监督特征选择。由于无监督特征选择方法只考虑了特征之间的相关性,而忽略了特征与类别之间的相关性,导致了无监督特征选择获得的特征子集的分类能力较弱,比如基于谱图理论的谱特征选择。而一些监督特征选择方法只考虑了特征与分类类别之间的相关性,不能很好的考虑到特征之间的冗余,造成了特征子集中有很多特征是相互关联的,影响了特征的独立性以及分类的准确性。因此本文提出了一种基于谱特征分析和卡方检验的特征选择方法。使用谱分析评价特征之间的相关性,使用卡方检验评价特征与类别标签之间的相关性。监督学习部分的卡方检验通过观察值和理论值之间的偏差来判断理论值的正确率,特征选择时应该更优先选择卡方值更高的特征。无监督学习部分的谱聚类方法首先需要计算给定的样本数据集中每对样本点之间的相似性,来得到一个相似性矩阵,进而构建出一个邻接图,最后通过图的归一化切分(Normalized Cut)得到特征的评价准则,通过这一评价指标来进行特征选择。基于谱特征分析和卡方检验的特征选择方法(SpeChi)结合监督学习和无监督学习的特点,计算过程中卡方检验使用已标记数据,谱特征分析使用未标记数据进行特征选择,通过特征评分进行特征选择,弥补了谱特征分析没有考虑类别相关性的不足。最终选择出特征之间低冗余且特征与类别之间高相关性的特征子集。验证实验使用了4种不同分类器,和8个公开数据集,在与其他4种特征选择方法进行对比后表明:该算法提高了特征集合的分类准确率,并且能提前获得较好的分类效果。最后这里还研究SpeChi方法中不同参数设置对特征选择结果的影响,实验表明,设置参数为0.4、0.5、0.6的分类准确率要优于参数为0或者1。设置不同的参数值时,由于特征选择所考虑到两种相关性所占的权重不同,因此实验结果略有不同。
其他文献
本报讯 记者孟进 通讯员何君报道:借上海世博会的东风,上海浦东国际机场桥载设备推进工作再上新台阶。今年前9个月,浦东机场桥载设备累计使用率达到75.7%。$$ 据悉,截至
目的:分析和评价人工流产术后输卵管堵塞继发不孕的检查治疗方法和效果。方法:选择本院于2013年12月至2016年5月间收治的60例人工流产术后输卵管堵塞继发不孕患者为研究主体。
目的分析福建省≥60岁老年人死因、地区分布及医疗机构报告情况。方法利用福建省医疗卫生机构死因登记信息网络报告的数据进行统计分析。结果 2011—2013年≥60岁老年人医疗
目的:探析健康教育结合护理管理在整形护理中的应用效果。方法:医院整形美容科于2018年4月起在常规护理基础上实施健康教育,2017年11月~2018年3月为实施前,2018年5~10月为实施
晋虞1号桃,又称红不软,是山西省平陆县一农户发现的一株实生桃。我们于2002年春从该地引入郑州,经过6年栽培观察,该品种在郑州地区表现早果、丰产、个大、色艳、离核、酸甜可口、
2014年3月,上海市科委项目“古琴减字谱富媒体数字化应用平台”由上海音乐出版社立项,委托上海印刷技术研究所设计创写古琴减字谱楷体字体。作为研究所首席字体设计师,笔者承担4
随着国家经济的飞速发展,城市化的不断推进,越来越多的高速公路和城市高架修建并投入使用当中。作为道路实现上下互通的基本单元,匝道桥是必不可少的。匝道桥多数都为曲线桥
美国白蛾Hyphantrieacuna是一种重要的入侵害虫,寄主范围非常广泛,对我国农林生产造成重大损失。为了探索美国白蛾消化酶系统及肠道微生物在适应不同寄主植物中所起的作用,本
肝内胆管癌(Intrahepatic cholangiocarcinoma,ICC )的临床表现不同于肝外胆管癌,是一种难以早期发现,而且预后差的肿瘤。越来越多的研究表明恶性肿瘤的无限制侵袭性生长依赖于
随着经济的快速发展和人们日益提高的经济水平,市场竞争愈发激烈,汽车制造产业正在面临一场严峻的、战略性的改革,许多汽车制造行业在资源分配、市场管理、生产制造模式和销