基于长度自适应遗传算法的高维数据特征选择研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:wtt014789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近数十年,信息技术尤其是互联网领域相关技术的高速发展,催生出的数据在样本数量与维度上日益庞大。在高维数据中,样本数通常难以均匀覆盖高维空间,这将导致维度灾难,严重损害机器学习算法的性能。特征选择通过从原始特征中挑选部分特征,精简使用特征的数目,避免了样本数与维度严重不相称的情况,已成为数据挖掘领域中常用的预处理技术。近年来,基于进化计算技术的特征选择算法备受关注,这得益于它们优秀的全局搜索能力。然而此类算法大多数使用定长表示方法编码个体,且个体在进化过程中长度保持不变,导致搜索空间多样性丢失,因此这种编码方式不利于高维数据特征选择。对此,本文进行了基于长度自适应遗传算法的高维数据特征选择研究,具体研究工作如下:(1)针对高维数据单目标特征选择,提出了一种长度自适应的遗传算法(LAGAM)。该算法基于特征相关性对个体进行变长编码,各个体拥有不同大小的搜索空间,丰富了种群搜索能力;同时,为避免随着进化,种群个体长度变得过分相似,引入了一种自适应的长度改变算子;另一方面,设计了一种基于马尔科夫毯的局部搜索算法用以进一步提高个体的质量。基于12个高维基因数据集的实验结果表明,LAGAM在使用特征数目、准确率、运行时间等方面都明显优于现有的同类算法。(2)针对高维数据多目标特征选择,将用于单目标特征选择的LAGAM进行扩展,提出了一种多目标长度自适应的遗传算法(MO-LAGAM)。该算法在延续使用了LAGAM中的变长编码的同时,引入了一种基于相关性-冗余性的初始化方法用以启发式而非随机式地初始化个体,同时提出一种基于支配关系的长度改变算子来丰富解集的多样性,并引入一种基于支配关系的局部搜索方法来进一步提高所求得帕累托前沿的收敛性与多样性。基于12个高维基因数据集的实验结果表明,由MO-LAGAM求得的非支配解集优于当前同类算法产生的非支配解集。
其他文献
电子鼻系统模拟了生物的嗅觉系统。它通过传感器技术和人工智能技术实现了对气体的快速检测和分析。然而在实际应用中,电子鼻系统会出现传感器时间漂移和多系统板间差异问题。这些问题会导致电子鼻系统前后采集的数据分布发生变化,使得训练好的模型无法有效地对后续数据进行分析,从而限制了电子鼻的应用。近年来,基于子空间投影的漂移抑制方法发展迅速,但性能需要进一步提高。本论文的研究目的便是提出高性能的基于子空间投影的
学位
膜进化算法(Membrane Evolutionary Algorithm,MEA)是受到生物细胞结构和行为启发而提出的一种进化算法,被广泛应用于各类NP难问题的求解上。最长圈问题(Longest Cycle Problem,LCP)是图论中经典的NP难问题之一,不仅在图论研究中有重要的意义,也和现实世界的复杂网络应用密切相关。过往的LCP研究大多通过特殊图的理论性质来寻找最长圈,难以直接运用到现
学位
红外摄像头主要应用于低光照或夜间条件下的监控系统,是城市视频监控系统重要的组成部分,在可见光图像与红外光图像之间检索行人对于城市安防以及刑侦工作的高效开展起着重要作用。因此跨模态行人重识别的研究十分重要。跨模态行人重识别指在可见光图像与红外光图像之间检索行人。现有基于深度学习的跨模态行人重识别模型识别精度普遍较低,原因是两种图像成像方式不同,风格上存在较大差异,提取出的图像特征缺乏另一模态信息,而
学位
作为人工智能的重要应用领域,智慧医疗具有将生理数据与医学知识联系起来的关键能力,在提高医疗服务质量的同时降低医疗成本方面显示出巨大的潜力。同时,基于机器学习模型的智慧医疗服务也能借助云计算等新兴技术,在提升数据服务质量的同时降低行业从业门槛,促进以人为中心的智能解决方案。基于数据和机器学习模型的智慧医疗系统需要采集用户的生理数据来提供高质量的数据服务。然而,医疗数据的敏感性在用户隐私方面极为关键,
学位
随着大数据时代的到来,无论是获取数据的渠道和方式,还是数据本身的大小、类型和结构都越来越多样化,这使得数据挖掘的发展越来越具有挑战性。近年来离群检测逐渐成为数据挖掘领域中的热门研究方向,它被广泛地应用于包括社交网络、移动支付和购物系统等在内的众多领域,因为除了常规数据外,少数离群点往往也能带来有价值的信息,并且随着业务的升级,对离群检测算法能够更有效地处理各种复杂的数据的要求也越来越高。本文针对现
学位
土地利用/覆盖变化(LUCC)的研究可以帮助人们更好地对土地资源进行合理的配置,使得社会能够可持续发展。冯·诺伊曼提出的元胞自动机能够有效模拟从大量基本单元的相互作用中涌现出的包括自组织结构在内的复杂现象,因此被广泛应用于土地利用变化的模拟。目前针对基于元胞自动机的土地演变模型的改进大都集中在前期的适应性概率的计算方式上,比如使用神经网络、逻辑回归、支持向量机等机器学习方法,而对元胞自动机模型自身
学位
<正>一、问题的提出目前,社会对高质量学前教育资源的需求日益迫切,幼儿师资的培养要求随之发生显著变化,直接影响着高等院校学前教育专业人才培养的走向。2018年《教育部关于实施卓越教师培养计划2.0的意见》提出贯通职前职后,创新机制模式,深化协同育人的指导方针,要求支持建设一批省级政府统筹,高等学校与中小学(幼儿园)“协同开展培养培训、
期刊
互联网用户数的急剧膨胀导致相关数据量激增,由此产生的信息过载问题持续影响着人们的生活。推荐算法可以帮助人们快速从海量信息中获取真正需要的内容,摆脱信息过载并节省信息筛选的成本。在为人们带来便利的同时,推荐算法自身也暴露出了诸多问题。目前推荐算法的改进工作大多以各类型上下文信息构建用户和项目之间的联系,再融入如矩阵分解、深度学习等多种技术,提升算法的预测精准度。针对目前推荐算法中存在的冷启动问题和预
学位
近年来随着人们的生活水平不断提高,人们承受的压力也逐渐增加甚至部分人由此导致了如睡眠质量变差等各种问题。有研究表明合适的音乐可以改善人的睡眠质量,但由于音乐种类众多使得寻找适合自己的音乐也成为一个难题,本文的目标是通过深度学习技术来实现睡眠音乐的自动生成,从而缓解这个难题。本文实现睡眠音乐生成的方法主要包括主旋律提取以及音乐生成两个方面的内容。其中存在许多难点:1)音乐数据不同于普通的序列数据,可
学位
最大团问题(Maximum Clique Problem,简称MCP)是一类NP难问题,有效求解它的精确算法大多数是基于分支定界(Branch-and-Bound,简称B&B)框架的,其中的上界策略对缩小解空间、提高算法效率起着重要作用。目前应用最广泛的是基于图着色的上界,但该上界与最优解之间常常存在一定的差距而导致解空间过大。此外它的时间复杂度总是大于O(n2),当图规模较大时它可能对算法效率产
学位