高维数据的多视图聚类方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:eyeknee1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前实际应用产生的数据维度越来越高,受维度效应的影响,许多在低维数据上表现良好的聚类方法运用在高维数据上时无法获得好的聚类效果。在过去十几年,高维数据的聚类方法是聚类分析的主要研究方向,众多国内外研究人员已经取得了不少研究成果,如子空间聚类、主题模型等。  最近高维数据的多视图特性引起了研究人员的注意。多视图特性是指许多高维的特征可以自然分为若干特征组,特征组中的特征具有语义相关性。传统的聚类方法将多个视图视作一个整体进行处理,忽略了视图内部的信息及视图之间的差异。近几年,研究人员提出了一些多视图聚类算法来解决上述问题。但现有多视图聚类研究存在如方法少、算法复杂度高、忽略视图关联关系及只能处理多视图结构已知的高维数据等缺点。  本文在现有研究工作的基础上,针对高维数据多视图聚类存在的几个问题,结合软子空间聚类及主题模型最新研究成果,提出了一系列新颖的高维数据多视图聚类方法。主要研究工作和创新包括:  1.将传统的特征加权扩展为双层特征加权,提出了一个多视图双层特征自动加权聚类方法TW-k-means。该算法同时对视图及单个特征进行自动加权,可以有效地识别紧凑的视图及重要的特征。同时该算法具有与标准的k-means一样的算法复杂度,适合处理大数据。该方法的提出为变量加权聚类方法开辟了一条新的道路。  2.将传统的子空间加权扩展为双层子空间加权,提出了一个多视图双层子空间自动加权聚类方法FG-k-means。该算法同时对定义在视图及单个特征上的子空间进行加自动权,可以有效地识别紧凑的视图子空间及重要的特征子空间。同时该算法具有与标准的k-means一样的算法复杂度,适合处理大数据。该方法的提出为子空间聚类方法开辟了一条新的道路。  3.扩展传统的主题模型提出一个用于寻找文档两个视图之间关联关系的主题模型TCM。新算法的特点主要体现在:1)同时对文档的两个视图包含的主题进行建模,2)计算两种不同主题的联合分布概率。实验结果表明TCM可以发现文档两个视图的关联关系,其建模性能优于传统的主题模型如LDA。该方法将流行的主题模型LDA成功扩展到多视图聚类领域。  4.扩展传统的主题模型,提出一个适用于包含隐式多视图结构的高维数据的多视图聚类算法-隐含语义子空间模型LSSM。该算法主要用于文本数据聚类,可以在聚类过程中自动将特征划分为一定视图(词簇/主题)并找到文档和视图之间的子空间结构。LSSM的特点主要体现在:1)对文本数据同时文档和词两个方向进行建模,2)对文档簇和视图之间的条件概率建模。实验结果表明LSSM具有较好的建模性能及聚类性能。同时该模型也可以用于分类应用,并具有较好的分类性能。该模型的提出扩展了多视图聚类算法的应用范围。  本研究提出的四个算法中,TW-k-means和FG-k-means具有速度快的特点,能够解决现有多视图聚类算法存在的算法复杂度高的问题。TCM的提出则解决了现有多视图聚类算法忽略视图关联关系的问题。而LSSM的提出则解决了现有多视图聚类算法只能处理多视图结构已知的高维数据的问题。在模拟数据及真实数据上的实验结果证实了这四种方法的有效性。  这四种新的多视图聚类算法的提出,将大力推动高维数据多视图聚类领域的发展,并有望带动新的研究方向。同时,这些算法也将给高维数据分析应用带来更多更好的选择。  
其他文献
信息技术的快速发展使得人类与计算机的关系日益密切,智能人机交互已成为人工智能领域内的研究热点之一。情感识别作为智能人机交互的关键技术之一,在其中也扮演着重要角色,
车牌识别系统VLPR (Vehicle License Plate Recognition)是现代智能交通系统ITS (Intelligent Transportation System)中的重要组成部分,在违章车辆抓拍、停车自动收费、交通
人脸识别系统中,多种关键技术会对最后识别结果产生影响,而关键技术中的光照在人脸识别中是实现人脸识别常态化最大的一个障碍;同样人脸识别算法是人脸识别中最重要的一个环
随着计算机网络技术的迅速发展,诸如网络流媒体等技术在网络上应用越来越多,这都为组播通信提供了更好的发展空间。组播技术是一种比较理想的、用于实现群组通信的网间通信技
模型检测是一种形式化验证方法,目前已经得到了广泛的发展和应用。本文给出的是一种基于命题投影时序逻辑(Propositional Projection Temporal Logic,PPTL)的模型检测器的改进和
滑阀组件通常是将工艺不同的孔轴零件按照一定的配套规则进行组合而成。本文研究的滑阀组件将用于航空飞机,基于安全性考虑,孔轴零件的测量值和间隙值均精确至万分位,同时确
普适计算是一种全新的计算模式,其致力于将由通信和计算构成的信息空间与人们工作生活的物理空间融为一体,支持用户“随时随地”并且“透明”地获取符合其个性化需求的信息服
下一代的互联网数据与服务核心必然是云计算。它被使用在公共服务和按需计算服务领域。云计算不是一个全新的技术,而是在应用和服务创新中派生出来的,多租户就是云计算核心技
如今大数据产业的发展对全球经济发展方式的转变、人类生活水平的提高和国家综合能力的增强起到显著推动作用。为促进该产业又好又快的发展,首要任务就是开放共享数据,但企业
关联规则挖掘是数据挖掘研究中的热点问题之一,其目的是发现数据库中数据项之间存在的潜在联系。关联规则挖掘的重点任务是频繁模式挖掘。然而,由于频繁模式挖掘的复杂性,业