高维数据下的特征选择与聚类方法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:heyifeizhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息技术日新月异的今天,数据量呈几何式增长,数据的维数越来越高,使得信息更为充分的同时,也给数据挖掘算法带来了诸多挑战,尤其是对分类和聚类问题的影响较为突出。数据的高维性不仅增加了算法的时间复杂度和空间复杂度,还降低了算法的求解精度,给最终的分析决策带来负面影响。维度约简作为数据挖掘领域的一个研究热点,能有效解决这一问题。维度约简的主要目的是使算法在构造模型的过程中,只关注那些任务目标相关的属性特征,不考虑那些冗余或不相关的特征,从而降低算法的时间和空间复杂度,提高算法运行效率。维度约简技术针对数据的不同分布情况,采用不同的方法。当高维数据分布于同一个低维空间时,通常采用特征选择方法;当高维数据分布于几个不同低维空间时,通常选择子空间聚类方法。现有的特征选择和子空间聚类方法都存在各自的不足:特征选择方法选择的特征子集对分类识别精度不够高,子空间聚类方法的聚类精度不够高。本文围绕特征选择方法和子空间聚类方法主要做了如下两方面的工作:1.当高维数据分布于同一个低维空间时,现有的基于信息论的特征选择方法是通过已选特征而不是通过所有特征来评估候选特征,并没有充分考虑特征的全局冗余性,导致选择的特征子集对分类识别精度不够高。对此,提出一种基于PageRank和遗传算法的特征选择方法,将每个特征视为网络节点,利用互信息为节点创建边,通过改进的PageRank对网络节点的全局冗余性进行评估,依据本文评估准则对节点排序,并用遗传算法选择最优特征子集。在UCI基准数据库中10个数据集上进行测试,证明提出的基于PageRank和遗传算法的特征选择方法能选择出更优的特征子集。2.当高维数据分布于几个不同低维空间时,目前性能最优的算法是LS3C/NLS3C算法。然而,LS3C/NLS3C算法在稀疏编码阶段所获得的系数矩阵中,有一些属于不同子空间的数据对象之间线性表示的系数不为0(糟糕系数),导致由系数矩阵得到的关联矩阵中存在部分属于不同子空间的数据对象之间的相似度不为0(糟糕相似度),降低了LS3C/NLS3C算法的聚类精度。对此,提出一种剔核潜空间稀疏子空间聚类(DLS3C/DNLS3C)方法。在求解关联矩阵阶段,对优化函数中的系数矩阵添加一个Frobenius范数约束项,避免了在同一个线性表示中所有系数的绝对值同时趋于0,在仿射条件下,这种约束能迫使相似度大的数据对象的系数绝对值较大,而相似度小的数据对象的系数绝对值较小,再通过小系数剔除算法获得一个更优的系数矩阵,从而达到在谱聚类阶段提高聚类精度的目的。在子空间聚类领域的基准数据集Hopkins155进行测试,证明剔核潜空间稀疏子空间聚类方法能够有效剔除的糟糕系数,从而提高最终的聚类精度。
其他文献
本文针对机器人路径规划与避障技术中的几个关键问题,如双目视觉测距、物件识别、路径规划以及避障策略等,进行了深入的研究和讨论。本文的主要工作集中在: (1)提出路径规划
目前,计算机系统变得越来越复杂,如何有效地管理这些系统是当前的一个热点问题。一般来说,为了有效地管理复杂的系统,特别是分布式系统,有两个问题需要解决:1)系统行为的自治
在纺织品生产中,织物疵点检测是质量控制中非常重要的一个环节。传统的织物疵点检测是由人工离线检测来完成的,受到人的主观因素的影响,存在着误检率和漏检率高、检测速度慢的缺
信念修正是常识推理的主要手段,然而信念修正方法在处理不一致信念时常常会出现有用的信念丢失和结论集难于抉择的问题。为了解决这些问题,邓安生教授提出了信念的非修正方法
近年来,随着计算机及相关技术的发展,使得将计算、通信、网络与传感等功能都集成在一个设备成为可能,无线传感器网络正是这些技术紧密结合的一种典型实例。人们希望随时随地享用
目前医学影像已成为发展最快的技术领域之一,广泛应用于诊断和治疗,是现代医学中的重要手段和工具。医学图像处理是医学影像技术极为重要的一个环节,它能有效地对医学图像进
无线传感器网络(WSN)的路由协议是WSN领域中当前热门研究方向之一。虽然目前国内外提出了不少无线传感器网络路由算法,但是大部分的研究工作都是基于仿真平台对协议进行评估,
近年来,网络的发展和普及为我们的工作和生活提供了便利,但同时其安全性和可靠性成为我们关注的焦点。随着攻击者知识的日趋成熟,攻击工具与手法的日趋复杂多样,单纯的防火墙
随着Internet和网络信息技术的迅猛发展,网络资源呈指数急剧增长,传统的通用搜索引擎的查询结果只依赖于查询关键词,而实际上,即便相同的查询词,不同的用户查询目的可能不同,
现阶段,国内各高校数字校园的建设不断深入,大学资源计划(URP)逐渐成为高校信息化建设的主流理念。数字化建设已经从过去的系统集成阶段发展到目前的应用集成阶段,高校数字化