一种数据挖掘中的特征子集选取模型研究和应用

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:braden212
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征提取是模式识别中的一个重要过程,如今,也在数据挖掘领域也有着广泛的应用。对于高维数据的数据挖掘,特征提取可以有效地对数据进行降维处理,从而降低算法的运算规模。相对于主成分分析,粗糙集等数据降维方法,特征提取更加系统化,也更加依赖与问题的具体应用领域,提出针对性的特征提取模型,得到的结果也更加具有参考价值。将支持向量机应用于特征提取中,可以结合两者的长处,优化特征提取的过程,是对特征提取方法的一种探索。本文针对最优特征子集选取的问题,进行了相关的探索研究。借鉴经典统计理论中的分位数的概念,将其引入特征选取模型,建立了分位数特征选取模型。另外,参考信息学中关于信息相对熵的概念和定义,建立了相对熵特征选取模型。在对特征候选集进行最优特征子集选取的过程中,本文依照分位数特征选取模型和相对熵特征选取模型分别建立了样本属性的可分性判别函数,并运用浮动序列前进算法找出不同属性个数下的最佳特征候选子集。最后,本文又借助于支持向量机的方法,将包含不同属性个数的特征候选子集对应的数据放入支持向量机,学习后进行判断,根据最后识别的错误率来判断该特征候选子集的优劣程度,从而得到最优特征子集。另外,通过在结肠癌患病和正常样本基因表达水平数据集上进行实验,来对上述特征提取模型进行了验证。本文将特征提取应用于数据挖掘领域中,所建立的特征提取模型依据样本的统计学特性以及信息学特性,这些模型的建立脱离了系统的具体应用领域,使其更具有普遍意义。
其他文献
近来,由于记者们采访蒋筑英同志的先进事迹,使我有机会和几位记者会面。首先,我要向他们致敬。他们不辞辛苦,为了真实地报道蒋筑英同志的事迹,南北跋涉,行程数千里,了解核实
从观看的角度说,《紫蝴蝶》是有些令人迷惑:它让观众看后可以引申出彼此抵触的故事理解。为了下面的分析方便,我不得不把我“看到”的故事简述一遍,这也许与别人看到的不一样
在目前服务业信息化、现代化和全球化发展的浪潮中,我国既面临重要的战略机遇,也面对着前所未有的挑战。顺应社会发展趋势,加快服务业创新是新时期我国现代化建设重要战略选
目前,在高职院校中,数字电子技术项目式教学改革正在大力推广,适合项目式教学的应用项目也正在不断开发中,而每个院校的实际情况又千差万别,通用的数字电子技术项目式教学项目较少
为针对机场道面使用的新型融冰雪措施进行研究,本文首先介绍机场道面融冰雪技术重要性,并针对路面融雪方式进行分类,叙述传统机场道面融雪方式问题,对各类融冰雪技术进行汇总,主要
目前,我国的桥梁建设项目正在不断发展。在施工过程中,其技术也得到了极大的提高和推广。此外,出现了许多新方法。在这种情况下,预应力混凝土连续箱梁桥的施工技术也得到了广泛的
沸石是一族含水的碱金属和碱土金属的架状硅铝酸盐.它具有独特的内部结构和结晶化学性质,富有大小不同的、连通各种形态的孔腔,在一定的物理化学条件下,具有精确而固定的直
在现代施工中,水泥搅拌桩是桩基施工中常用的施工工艺。特别是在一些软土地基的加固处理中,水泥搅拌桩具有无振动、无噪音、施工简单、施工时间短、施工成本低等优点,地基加固处
一、 声音的基调影片伊始,是黑底无声的字幕,随即镜头跳切,蒸汽机喷出滚滚蒸汽……喷汽、鸣笛、男主人公伊丹的脚步、厂房内杂乱的环境、下班人流的喧嚣、铁道口的警示铃、火
分析了远程教育教员的角色定位和能力素质,提出了分类培养、分层培养、校本培训、合作培训的培养策略。