【摘 要】
:
随着现实世界中的数据量不断增长与数据挖掘技术的发展,特征选择技术一直被应用在各个研究领域,作为消除高维数据所带来的维数灾难的有力工具。数据维度过高,往往使得机器学习模型缺乏可理解性,或者出现过拟合现象。而通过特征选择技术,可以提高特征集合代表能力,进而提升后续学习模型的泛化能力。针对高维无标签数据,本文基于遗传算法,在加速特征子集搜索速度同时使得算法能够得到全局最优解,并且在缺少先验知识的情况下,
论文部分内容阅读
随着现实世界中的数据量不断增长与数据挖掘技术的发展,特征选择技术一直被应用在各个研究领域,作为消除高维数据所带来的维数灾难的有力工具。数据维度过高,往往使得机器学习模型缺乏可理解性,或者出现过拟合现象。而通过特征选择技术,可以提高特征集合代表能力,进而提升后续学习模型的泛化能力。针对高维无标签数据,本文基于遗传算法,在加速特征子集搜索速度同时使得算法能够得到全局最优解,并且在缺少先验知识的情况下,能够自适应确定最优特征子集大小,本文通过结合遗传算法和K-Means聚类,提出了一种无监督特征选择算法(GACFS)。并且通过与传统特征选择算法(PCAScore)相比较,论证GACFS的有效性。最后将GACFS算法应用于乳腺肿瘤数据中,实现在无标签信息的情况下,对特征子集进行自适应特征选择与分析。实验信息表明,GACFS算法能过够在缺少标签信息的情况下给出自适应数目的最优特征子集,并且在后续学习的过程中获得更优的模型性能,进一步提升了无监督机器学习性能,在后续乳腺癌数据聚类分析应用中,通过应用GACFS算法进行特征选择和聚类分析,得出最优各个肿瘤指标特征,为后续分析过程提供可靠保证。本算法亦存在不足之处,处理超高维数据时,由于Wrapper模型对于时间复杂度要求更高,获取全局最优特征子集所需要的时间随特征数量增加,呈现指数增长趋势,有待进一步研究。
其他文献
金属有机框架(MOFs)是有机配体与金属离子或金属簇通过自组装形成的周期性的无限网络骨架。MOFs具有比表面大、孔隙率高、孔道可调节、框架可修饰等特点,在荧光传感、催化、气体吸附分离等方面均表现出优异的性能。本论文利用三个结构相似的羧酸配体(H4BPTC、H3DCPN、H3BPT)构筑了一系列二维(2D)、三维(3D)MOFs材料,并研究了羧基位置对MOFs结构与功能的影响,研究了材料的荧光、催化
超短强激光脉冲的出现促进了阿秒科学及其相关学科领域的发展。超短强激光脉冲与原子分子作用时可以产生许多高度非线性效应,如高阶阈上电离、隧穿电离、高次谐波产生、光电子全息等。近几年中,以光电子再散射过程为基础形成的光电子全息引起了人们的广泛关注。光电子全息可以用来探测母核和光电子在阿秒时间尺度上的超快动力学信息,因此光电子全息自被实验观测到以来就一直是强场物理的前沿研究热点。以往人们对于光电子全息的研
随着互联网信息技术的飞速发展,众筹作为一种新颖的融资模式,凭借其开放、利民的特点,引起了国内外众多投资者的关注和研究。然而,传统的众筹系统采用中心化的管理模式,会导致隐私数据泄露、平台项目虚假、提成收取过高以及资金发放迟缓等问题。此外,传统的众筹系统存在数据不公开、不可溯源等问题,会导致系统的安全性、可用性较差。区块链作为一种去中心化、数据公开且可溯源的技术,可以有效地解决传统众筹系统面临的中心化
在当前新型城镇化的背景下,随着生态文明理念的提出以及乡村旅游建设的兴起,传统乡村的各个方面正呈现出复杂的动态特征。苏南地区水网乡村在取得快速发展的同时村落生态环境、地域特征、文化特色由于缺乏保护与传承,乡村景观规划建设在一定程度上陷入未来维持可持续发展的困境,呈现出与乡村发展的不同步性。因此,当前苏南水网乡村亟需以科学的规划理念指导乡村景观建设,在利用自身资源禀赋的基础上,借助乡村经济产业发展的契
为了研究白酒、黄酒微生物对应酒风味物质的影响,从宏观角度进一步探索风味物质与酿酒微生物的关系,为酒类发酵工艺提供理论支持。本文通过Meta分析,对关于浓香型白酒窖泥微生物、风味物质相关文献进行筛选;对黄酒不同酒曲微生物、风味物质相关文献进行筛选,利用Papers和Endnote导入相关文献进行详细阅读挑选符合标准文章共11篇,与浓香型白酒相关6篇文献、黄酒相关5篇文献。利用Excel对浓香型白酒和
随着机器人的应用越来越广泛,机械手作为机器人的重要组成部分,面临的操作任务也越来越复杂。无论是在工业方面,还是在日常生活中,传统的机械手大多是对静态的目标进行操作,对于一些移动的目标,机械手的执行能力还相对较弱。研究机械手目标跟踪运动规划方法不仅可以提高机械手对移动目标的作业能力,而且可以拓展机械手的应用环境、使机械手更加智能。因此研究机械手目标跟踪运动规划方法具有重要研究意义以及实际价值,也逐渐
商业化石墨负极的实际比容量已经逐渐接近理论比容量(372 m Ah g-1),不能满足人们对高能量密度电池日益增长的需求。氧化亚硅负极具有比容量高(2600 m Ah g-1)、资源丰富、对环境友好和成本低等优势,是最具应用前景的负极材料之一。但是氧化亚硅在脱嵌锂过程中会发生显著的体积膨胀(~200%),还会与电解液反应生成不可逆的氟化物进而消耗电解液,从而导致氧化亚硅电极失效,降低电池的容量。目
随着互联网技术的发展与革新,web应用软件的发展规模与速度不断增大,软件的迭代研发周期也随之越来越短来适应新的需求,随之而来的测试压力也越来越大,而广告模板是属于互联网产业的一个商业化分支,紧紧关联着互联网产业的变现需求,其自动化测试一直是开发测试团队所期待已久的。本论文首先介绍了课题研究背景,课题来源于国内某知名搜索公司广告部门模板开发与测试的实际需求,需要广告模板自动化测试系统来降低广告模板测
白酒发酵过程微生物菌群结构多样性一直是人们研究的热点,对认识传统酿造白酒发酵微生物群落结构及其功能的研究奠定了坚实的基础。但绝大多数研究在实验设计的时候大多没有交代样品采集的季节,忽略了不同酿造季节发酵微生物可能存在差异。清酱香型白酒的酿造还处于发展起步阶段,关于其酿酒微生物多样性的研究目前相对较少,尤其是不同季节清酱香型白酒发酵微生物菌群结构多样性特征尚不清晰,在一定程度上制约着清酱香型白酒酒质
背景:肺动脉平滑肌细胞(pulmonary artery smooth muscle cell,PASMC)过度增殖在肺动脉高压(pulmonary artery hypertension,PAH)肺血管重构病理过程中起重要作用。PAH时PASMC的代谢发生了与肿瘤相似的代谢变化,即由氧化磷酸化转换为有氧糖酵解,为细胞的过度增殖提供能量。对这一表型认识的最新进展为肺动脉高压的治疗提供了新的策略。然