模式分类中特征选择算法研究

被引量 : 0次 | 上传用户:nolva
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新技术的蓬勃发展使我们每天都接触到海量的信息,如何从这些海量数据中获取对自己有用的信息,关键的环节就是模式识别技术。在模式识别系统中,由于获取的数据规模越来越大并且具有样本少、维数高等特点,如何从高维度原始数据中选择合适特征子集,避免“维数灾难”,同时不影响分类性能,使得特征选择算法面临更大的挑战。特征选择是模式识别系统中非常重要的一部分,也是设计一个性能优良分类器的前提和必要条件。本文通过研究国内外各种特征选择算法,在对有监督的特征选择算法中的评价测度、搜索方向和搜索策略等深入研究的基础上,提出了改进的特征选择算法。基于主成分分析(Principle Component Analysis, PCA)的多层Filter式特征选择算法,它将PCA特征提取运用于特征选择之前,能有效去除特征间冗余,克服了特征选择被用于依赖性较高的数据集时为了有效检测到冗余的高计算量问题。之后引入信息熵的理论,研究特征的最大相关最小冗余的非线性相关性。针对Filter特征选择效率高但是不能保证获得规模最小的特征子集的不足,本文提出分层Filter式特征选择,减少每层计算量,逐层降低特征维数,得到维数最低冗余度小的特征子集。基于信息相关性的嵌入式动态特征选择算法是在这样的基础上:信息相关的度量方法是建立在概率论的基础上的,预先要知道数据集上的概率分布情况;随着特征选择的不断进行,待选特征子集不断缩小,已选特征子集不断壮大,数据类别的不确定性越来越小,而信息熵计算不变,显然信息熵中包含部分“假信息”。通过改进特征选择中单个特征的评价函数,同时在特征选择算法中嵌入k近邻分类器,根据已选特征子集来得到可识别样本,将其从原样本中去除,重新计算信息熵来实现动态特征选择。
其他文献
数字电视广播的数字卫星新闻采集标准(DVB—DSNG)采用RS码和P-TCM编码分别作为可选的外码和内码,QPSK以及高阶调制(8PSK,16QAM)作为调制方式,在保持信息传输速率且不增加带宽的情况
目的 应用生物力学方法和三维有限元模型 ,模拟不同腰部推拿手法 ,比较其腰椎内部结构的变化。方法 标本固定于生物力学材料实验机 (MTS)应用计算机定量控制 ,同时使用ABAQ
延展性许可费条款是存在于研究工具专利许可协议中的一种许可费计费模式。延展性许可费条款被合理适用时能够对市场竞争产生一定的积极效应,若延展性许可费条款被滥用并对市
本文提出一种基于SVM与图匹配相结合的车载激光点云道路标线识别方法。该方法基于标线点云分割对象,利用Hu不变矩、实心形状上下文(SSC)、最小外包矩形(MBR)面积和延展度构建形状
制备了99mTc标记的漂浮型脉冲释放胶囊和非漂浮型胶囊,并采用γ-闪烁扫描法监测标记试剂在健康志愿者体内的转运过程。结果表明,在体内漂浮型胶囊较非漂浮型胶囊具有更长的胃
糖尿病的诊断标准及分型潘孝仁一、1980年及1985年WHO关于糖尿病的诊断标准及分型1.诊断标准:1980年世界卫生组织糖尿病专家委员会提出糖尿病诊断标准为:(1)如有糖尿病症状,随时查血糖<7.8mmol/L(<140mg/dl),而空腹血糖<5...
目的 探讨TSH受体基因单核苷酸多态性 (SNP)与甲状腺疾病〔包括Graves病 (GD) ,结节性甲状腺肿 ,桥本甲状腺炎 (HT)〕有无相关性。方法 以 60例有甲状腺疾病家族史患者 (其
建立在吸纳女权主义和世界主义公民权理论合理成分基础上的环境公民权或生态公民权概念,是对公民权基本内涵与性质理解的全面拓展。它旨在为发挥公众在创建生态可持续社会过
<正>维格列汀(vildagliptin)是瑞士诺华公司开发的一种新型二肽基酶-Ⅳ(DPP-Ⅳ)抑制剂,2008年在欧盟批准上市,2011年以商品名"佳维乐"进入中国,临床用于治疗2型糖尿病[1]。(S