【摘 要】
:
特征选择是指从初始特征全集中,依据既定规则筛选出特征子集的过程。通过剔除冗余特征,以达到降低算法复杂度和提高算法性能的目的。特征选择是解决维数灾难问题的有效手段,
论文部分内容阅读
特征选择是指从初始特征全集中,依据既定规则筛选出特征子集的过程。通过剔除冗余特征,以达到降低算法复杂度和提高算法性能的目的。特征选择是解决维数灾难问题的有效手段,在机器学习中扮演着重要角色。研究特征选择具有重要的理论及应用价值,特别是对于大数据时代的机器学习。本文在离散值特征选择问题上,提出了两种不同的基于进化算法的特征选择方法。第一种方法用相对分类信息熵作为适应度函数,度量特征子集的重要性,理论证明了这种度量的可行性,用进化算法(遗传算法、粒子群算法)寻找最优特征子集。第二种方法和第一种方法类似,不同的是用不一致率作为适应度函数,度量特征子集的重要性。本文通过比较研究这两种方法,得到了如下结论:(a)当采用相同的适应度函数时,用粒子群搜索最优特征子集与用遗传算法搜索最优特征子集相比,前者在测试精度和收敛速度两方面均优于后者。(b)当采用不同的适应度函数时,选择相对分类信息熵作为适应度函数的进化特征选择方法要优于选择不一致率作为适应度函数的进化特征选择方法。另外,论文还研究了本文提出的算法在连续值情况下的推广。本文提出的算法具有三个特点:(1)简单且易于实现;(2)特征子集表示能力较强;(3)具有好的语义可解释性。
其他文献
U2TP是基于UML2.0的测试建模语言,对系统相关特征和测试模型特征分别进行建模和描述。在系统建模阶段使用U2TP将测试信息集成,不仅可以在系统建模初期就获得对测试的整体观念,还
随着web技术和信息技术的快速发展,如何从结构来源复杂的数据海洋中进行信息抽取和信息检索一个困难而又有重要实际用途的研究课题。文本分类能够有效处理和组织文本数据,方
人脸作为人体与生俱来的最自然最普通的生理结构之一,是生物特征识别研究的重要对象。经过近40年的研究和发展,人脸识别技术取得了长足的进步,许多优秀的人脸识别算法在理想情况
无线传感器网络目前面临着巨大的挑战,由于通常需要把无线传感器网络部署在环境恶劣,甚至人类无法进入的环境,因此网络无法得到有效的维护和更新,最糟糕的状况就是无线传感网络完
多元时间序列广泛存在于现实世界中,如航天、金融、医疗、气象等领域。由于用多个变量描述事物的状态,多元时间序列更贴近现实而非理想状态,因而对于多元时间序列数进行据挖
随着互联网的发展,以电子商务为代表的新型的商业模式正在以凶猛的势头和难以置信的速度,加快传统商业模式的升级与改变。人们足不出户就可以进行商务活动和网上购物等,电子商务
数据挖掘是当今人工智能和数据库研究方面最富活力的领域。数据挖掘可以从海量的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识,能为管理者的决策提
随着网络中文档数量的与日俱增,人们的检索需求也在不断增加,数学表达式是大量网络文档的重要组成部分,人们经常会希望通过数学表达式在搜索引擎中检索所需的相关文档,但目前
目前随着互联网的蓬勃发展,尤其是电子商务的发展为越来越多的用户提供了Web服务。网民的选择增多,对网络服务的需求趋于理性和多样化,这为Web挖掘的发展提供了现实基础。对
战术Ad Hoc网络是Ad Hoc网络在战场指挥通信领域的一个典型应用,它具有节点分布区域广、作战需求强等特点,其移动模型技术是决定作战能力的关键技术之一。战术Ad Hoc网络中节点