基于MIC改进的PCA和CFS特征降维算法研究

来源 :湖北工业大学 | 被引量 : 0次 | 上传用户:aaaaaaaazzzz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代的到来和信息技术的发展产生了大量数据,机器学习以及近年来的深度学习等技术是探索数据的重要手段和有力武器,其关键点在于特征的处理和提取上。特征工程是机器学习重要预备阶段,数据特征对模型学习的效果至关重要。数据中往往存在着对数据分析无关或者多余的特征,存在着冗余信息,这些冗余信息和噪声,不仅会影响分析数据的结果精度,还会增加较多的计算量。特征降维可精简数据结构,增加模型的可解释性,减少模型计算量,并提升模型学习效果。特征降维可分为两个大的方面:特征抽取和特征选择。本文旨在对特征降维算法进行改进优化和推广,提高特征降维的有效性,使其适用性更强。本文对特征降维中的特征抽取算法主成分分析(Principal component analysis,PCA)和特征选择算法中基于关联性的特征选择算法(Correlation-based Feature Selection algorithm,CFS),利用最大信息系数(Maximum information coefficient,MIC)的优势分别对这两者进行改进分析研究。本文主要研究工作如下:第一,针对主成分分析中协方差矩阵只能衡量变量之间线性关系的局限和要求数据服从高斯分布的特点,提出基于Yeo-Johnson变换和MIC的PCA特征抽取算法(YJ-MICPCA)。首先经过转化数据满足PCA中高斯分布的假设,并将PCA中数据之间存在的线性关系假设推广到非线性;然后通过模拟数据和实验在UCI机器学习仓库中公开数据集从多方面验证了算法YJ-MICPCA的有效性,结果表明YJ-MICPCA较传统PCA有更好的效果;最后将YJ-MICPCA和其他常用非线性特征抽取算法比较,结果表明YJ-MICPCA也具有一定优势。第二,针对CFS在回归任务中线性相关系数只能度量变量间线性相关性的局限;以及分类任务中对称不确定性度量(SU)的分母过大,分子中互信息对于连续变量不容易计算且结果受离散化方式的影响的不足,提出一种基于MIC的CFS特征选择算法(MICCFS)。首先统一回归和分类中的变量间相关性的度量方式,运用MIC度量,再依据评价函数进行特征子集搜索;然后分别就回归任务和分类任务在UCI机器学习仓库中公开数据集上从多方面验证对比MICCFS和CFS的有效性,结果表明MICCFS较优;最后分类中将MICCFS与其他常用特征选择算法比较,结果表明总体上MICCFS也有一定优势。
其他文献
在新课程理念下,小学科学教学不只是局限于现有的教室和实验室,它应该是辽阔的、没有边际的。只有这样,学生的视野才能开阔,所以说大自然才是一个没有围墙的教室,而农村中的
GE智能平台发布了最新的基于双核Intel CoreTM处理器的单板计算机。
如果一个企业家被认为是伟大的,那么他一定是改善了很多人的生活,创造了很多他人的幸福。
在充分研究航天测控系统软件研发维护特点的基础上,通过引入相异性软件故障模型,结合软件故障检测和故障定位等分析方法,构建了一种基于功能组件的航天测控系统软件相异性故
企业特色浙江鸿翔物业管理服务有限公司成立于1999年1月,是国家一级资质物业服务企业。鸿翔物业遵循“诚信、敬业、开拓、奉献”的企业精神,秉承温州人敢为人先之奋斗精神,始终
本文首先说明了虚拟图书馆建设的一般过程和方法,简单介绍了WINISIS的基本特点,然后通过'图书情报学虚拟图书馆'的建设阐述了WINISIS在建设虚拟图书馆中的具体应用,
在探讨地质数据湖定义的基础上,通过分析云计算厂商关于数据湖构建的主要技术路线方法,结合地质行业多源异构海量数据的特点,提出了按照数据摸底、技术选型、数据接入、应用
近年来,化肥农药减施技术新美洲星研究和应用取得了明显的进步。本试验通过在湖北省咸宁市咸安区开展油菜化肥农药减施技术新美洲星田间试验,以期探明本地区新美洲星在油菜"
古语有云:"知之者不如好之者,好之者不如乐之者",这也体现了我国现代教育寓教于乐的原则.兴趣可以激发青少年学生的求知欲望,从而获得有关方面的知识、技能,并使某种素质和技