基于谱聚类的数据挖掘方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:Mr__x007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化时代的到来,各个领域的数据量呈现了指数爆炸式增长,如何高效地从海量数据中挖掘其潜在的规律性已成为智能信息处理领域的研究热点,聚类算法是数据挖掘中主要方法之一,其重要性日益凸显。聚类算法能根据数据本身的属性和特征挖掘数据的类别信息而无需对大量数据的人工标记。作为聚类算法的一个分支,谱聚类算法能处理非凸分布的数据,有效解决传统聚类算法易收敛于局部最优解的问题。然而实际中,谱聚类算法因复杂度较高,且受限于无监督学习,因此算法的性能有待进一步提高。本论文主要研究基于稀疏表示的谱聚类算法,主要研究内容和取得的研究成果如下:1.针对地标点选取受数据分布和噪声影响易造成选取不均匀的问题,提出了一种基于快速选取地标点的谱聚类算法。该算法通过从备选集合中迭代选取各个簇中具有代表性的数据,较好地解决了选取地标点不均匀的问题,有效减小了稀疏表示带来的误差。实验表明,该算法具有更好的聚类准确率。2.针对成对约束扩展的局限性,提出了一种基于强连通分量的隐含约束扩展算法(TEC)。该算法通过计算无向图的强连通分量,同时根据隐含约束扩展的条件,逐步筛选满足隐含约束扩展的强连通分量,从而实现约束扩展。实验结果表明,所提算法能扩展出更多的监督信息,并且对隐含约束的扩展速度较快。3.针对现有的半监督谱聚类算法只能融合部分成对约束信息的不足,研究了两种解决方法。一方面,在权重矩阵中融合隐含约束扩展后的监督信息,提出了一种基于隐含约束扩展的地标点稀疏表示谱聚类算法(LSC-EC)。另一方面,在划分代价函数中融合隐含约束扩展后的监督信息,提出了一种基于隐含约束扩展的L1范数约束谱聚类算法(ECOSC)。LSC-EC通过强连通分量的隐含约束扩展,得到更加精确的连通区域,并利用监督信息更新稀疏表示矩阵。ECOSC利用约束扩展,在划分代价函数中加入更多的约束信息,并将其转化为连续的优化问题的求解。实验结果表明,LSC-EC和ECOSC均能取得较好的聚类效果,证明了隐含约束扩展在一定程度上对聚类划分起到了指导作用。
其他文献
本文以石油焦为炭前躯体原料,采用化学活化法制备双电层电容器(EDLC)电极用高比表面积和适宜孔径分布的活性炭材料。考察了石油焦种类、KOH活化工艺、混合活化剂类型及配比对所
本文通过对春10区春光油田沙一段储层基本特征的研究,同时依据本区的地质条件,认为三类隔夹层(泥质隔夹层、物性隔夹层和钙质隔夹层)在该区可能发育。此次在砂体数据的基础上
随着移动通信的蓬勃发展,人们对移动通信系统的传输速率、时延以及吞吐量等方面的要求越来越高。D2D(Device-to-Device)通信技术是下一代移动通信中非常有前景的技术,通过使
电能储存对于可再生能源的高效率利用来说至关重要,正成为当今研究的一个热点。新能源车辆也需要先进的电能储存技术来提供高能量供应和高功率密度。而锂离子电池提供已知电
阵列信号处理作为现代信号处理领域的一个重要分支,通过传感器阵列来接收空间信号,与传统的单个传感器相比,具有灵活的波束控制、更高的信号增益、极强的抗干扰能力及良好的
随着天线罩高性能的发展,天线罩测试,作为天线罩设计工作的补充与验证,也越来越追求快速、精准。本文针对天线罩测试工作中的实际问题,以干涉测向技术为依托,开展了球面波干
随着Web 2.0的发展,在线知识社区(OKC)成为生产、分享和获取知识的重要平台。OKC社会系统由大量异质性个体组成。异质性个体之间需要进行团队互动来推进知识序化,知识序化结
随着信息化进程的加快,人们对信息的安全有着更高的要求,这给人脸识别的研究带来了巨大的挑战。这些挑战主要来源于人脸的姿态、表情、光照及遮挡等变化因素,传统的方法很难
同义实体识别任务是指在数据中发现同一命名实体的不同的指代名称的任务。同义实体识别可以有效解决数据冲突、去除冗余数据,进一步提高数据集成度,保证数据的准确性、一致性
纳滤是一种以压力为驱动力的膜分离过程,主要用来分离二价离子或者分子量范围在200~1000的有机物及胶体物质。纳滤膜作为过滤过程中除反渗透膜之外的另一选择,可以用于水质软