高维数据无监督特征选择算法研究

来源 :天津大学 | 被引量 : 5次 | 上传用户:meimei5211314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的发展,机器学习在社会生活中得到了广泛的应用。在机器学习领域中,存在大量针对高维数据进行的识别和分析问题,如生物信息数据识别、人脸识别和电子商务数据分析等。高维数据的出现给机器学习提出了新的挑战,一方面,其不仅难以被人们直观理解,而且还带来了新的“维数灾难”问题;另一方面,相对于标注数据,现实中的无标注数据实际上更加丰富,由于缺少标注数据的指导,无监督条件下的高维数据分析更具挑战性。因此,如何从高维数据中选择有效的特征已成为当前的研究热点和难点。本文针对无监督特征选择方法进行了研究,主要工作如下:1)多样性引导的无监督特征选择针对当前无监督特征选择方法,在选取数据特征时忽略了特征之间的多样性,使得所选特征存在较大冗余的问题,提出了多样性引导的无监督特征选择方法。该方法同时融合了特征的代表性和多样性。具体地讲,基于特征固有的自表达特性,代表性特征将被选取;同时,采用特征相似度调整所选特征权重的多样性算子也将引导选取多样性的特征。这样不仅可以选取最相关的数据特征,同时也使得选择的特征尽可能地包含更多的信息,从而去除了特征冗余。最后,利用增广迭代方向最小化策略的方法对所提算法模型进行了有效的优化,并且利用聚类和分类实验证明了所提方法的有效性。2)保留局部结构的无监督特征选择针对自表达的无监督特征选择过程中特征局部结构被忽略的问题,提出了结构化自表达的无监督特征选择方法。该方法结合了特征的自表达特性以及特征之间的局部结构信息,使得可以更加准确地选取代表性特征。在模型中,使用2,1范数正则化技术保证了选取少量代表性的特征,采用图正则化约束保留了特征的局部结构信息。由于目标函数为凸问题,可以通过迭代变量优化算法进行有效求解。最后,通过模拟数据和真实数据集验证了该方法的优越性。3)先验结构约束的无监督特征选择针对无监督特征选择过程中存在的先验结构信息,提出了基于理想局部结构约束的无监督特征选择方法。由于真实数据中往往含有大量的冗余特征和噪声,所以由原始特征构建的相似度矩阵往往是不准确、不可靠的。基于聚类结果的相似度矩阵往往具有明确的块对角线结构,提出了采用理想的块对角线结构约束原始数据以获取更加合理的相似度矩阵,通过谱分析技术得到更加准确的簇标签以引导特征选择过程。因此,选取的特征更加具有判别性,同时可以进一步提高聚类的精度。最后,通过多个真实数据集的聚类性能证明了所提算法的有效性。本文提出了三种有效的无监督特征选择算法,挖掘了数据特征之间的多样性、特征之间的局部结构信息以及先验的结构信息,是对无监督特征选择相关问题的有效探索,丰富了该领域的研究内容。
其他文献
作为品牌的重要视觉表现形式,企业视觉形象设计在新的时代背景下,必然会呈现新的设计趋势.随着消费者物质生活水平的提高,对于品牌的认识也逐渐加深,企业传播品牌的渠道也在
<正>近年来,"有点(儿)+小+形容词/动词"、"有点(儿)+小+不+形容词/动词"(简称为"有点小(不)A/V")的表达形式逐渐流行开来。利用互联网搜索引擎进行抽样性检索可以得到大量的
自由曲面测量路径的规划直接关系到曲面测量效率,现有的行测法测量区域设定和路径规划方法往往会产生一定的空行程而导致测量效率低下。采用简单多边形精确描述不规则测量区
中国是文化资源大国,发展文化产业具有得天独厚的资源优势。要充分发挥文化资源在国家文化经济中所起的基础性作用,使我国丰富多样的文化资源充分发挥功能效用,促进文化资源
核桃是世界四大干果之一,是重要的经济树种。一般采用嫁接繁殖核桃良种,因此优良砧木是核桃产量和品质的基础。该文综述了国内外常用核桃砧木的类型及其特点、砧木品种选育现
凝血因子参与机体凝血过程的内、外源性途径,与机体抗凝系统相互协调,两者的动态平衡维持着体内血液正常的生理状态。该文从分子结构、理化特性、生理功能等方面对参与创伤止
海内外学术界历来把北宋神宗熙宁、元丰年间的改革统称为王安石变法.但熙宁九年王安石第二次罢相后即闲居江宁,元丰新政完全是在神宗主持下推行的,理应视为神宗变法.事实上熙
学界普遍认为"(太)+形容词+生"组合中"生"为后缀,来源于中古词缀"馨",然而文献中"形容词+生"出现位置的局限性及句法功能等表明,"形容词+生"并未成词,"生"自然不是词缀。鉴于
海域作为重要的自然资源,是海洋经济发展的重要基础和载体。特别是在当今世界经济、科技高速发展,陆地资源减少、人口增多、环境恶化的情况下,世界各国对海洋的关注达到了前所未
目的探讨认知行为疗法在脑外伤后综合征精神症状治疗中的作用。方法将102例脑外伤综合征分为干预组50例,对照组52例,治疗前后以症状评定量表(SCL-90)自评心理状态,并进行比较