高维数据的多视图聚类方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：eyeknee1

【摘要】

：

当前实际应用产生的数据维度越来越高，受维度效应的影响，许多在低维数据上表现良好的聚类方法运用在高维数据上时无法获得好的聚类效果。在过去十几年，高维数据的聚类方法是聚类

【作者】

：

陈小军

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2011年期

【关键词】

：

高维数据多视图聚类语义相关性软子空间聚类自动加权聚类 FG-k-means算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

当前实际应用产生的数据维度越来越高，受维度效应的影响，许多在低维数据上表现良好的聚类方法运用在高维数据上时无法获得好的聚类效果。在过去十几年，高维数据的聚类方法是聚类分析的主要研究方向，众多国内外研究人员已经取得了不少研究成果，如子空间聚类、主题模型等。　　最近高维数据的多视图特性引起了研究人员的注意。多视图特性是指许多高维的特征可以自然分为若干特征组，特征组中的特征具有语义相关性。传统的聚类方法将多个视图视作一个整体进行处理，忽略了视图内部的信息及视图之间的差异。近几年，研究人员提出了一些多视图聚类算法来解决上述问题。但现有多视图聚类研究存在如方法少、算法复杂度高、忽略视图关联关系及只能处理多视图结构已知的高维数据等缺点。　　本文在现有研究工作的基础上，针对高维数据多视图聚类存在的几个问题，结合软子空间聚类及主题模型最新研究成果，提出了一系列新颖的高维数据多视图聚类方法。主要研究工作和创新包括：　　1.将传统的特征加权扩展为双层特征加权，提出了一个多视图双层特征自动加权聚类方法TW-k-means。该算法同时对视图及单个特征进行自动加权，可以有效地识别紧凑的视图及重要的特征。同时该算法具有与标准的k-means一样的算法复杂度，适合处理大数据。该方法的提出为变量加权聚类方法开辟了一条新的道路。　　2.将传统的子空间加权扩展为双层子空间加权，提出了一个多视图双层子空间自动加权聚类方法FG-k-means。该算法同时对定义在视图及单个特征上的子空间进行加自动权，可以有效地识别紧凑的视图子空间及重要的特征子空间。同时该算法具有与标准的k-means一样的算法复杂度，适合处理大数据。该方法的提出为子空间聚类方法开辟了一条新的道路。　　3.扩展传统的主题模型提出一个用于寻找文档两个视图之间关联关系的主题模型TCM。新算法的特点主要体现在：1）同时对文档的两个视图包含的主题进行建模，2）计算两种不同主题的联合分布概率。实验结果表明TCM可以发现文档两个视图的关联关系，其建模性能优于传统的主题模型如LDA。该方法将流行的主题模型LDA成功扩展到多视图聚类领域。　　4.扩展传统的主题模型，提出一个适用于包含隐式多视图结构的高维数据的多视图聚类算法-隐含语义子空间模型LSSM。该算法主要用于文本数据聚类，可以在聚类过程中自动将特征划分为一定视图（词簇/主题）并找到文档和视图之间的子空间结构。LSSM的特点主要体现在：1）对文本数据同时文档和词两个方向进行建模，2）对文档簇和视图之间的条件概率建模。实验结果表明LSSM具有较好的建模性能及聚类性能。同时该模型也可以用于分类应用，并具有较好的分类性能。该模型的提出扩展了多视图聚类算法的应用范围。　　本研究提出的四个算法中，TW-k-means和FG-k-means具有速度快的特点，能够解决现有多视图聚类算法存在的算法复杂度高的问题。TCM的提出则解决了现有多视图聚类算法忽略视图关联关系的问题。而LSSM的提出则解决了现有多视图聚类算法只能处理多视图结构已知的高维数据的问题。在模拟数据及真实数据上的实验结果证实了这四种方法的有效性。　　这四种新的多视图聚类算法的提出，将大力推动高维数据多视图聚类领域的发展，并有望带动新的研究方向。同时，这些算法也将给高维数据分析应用带来更多更好的选择。　　

其他文献

基于半监督学习的语音情感识别研究

信息技术的快速发展使得人类与计算机的关系日益密切,智能人机交互已成为人工智能领域内的研究热点之一。情感识别作为智能人机交互的关键技术之一,在其中也扮演着重要角色,

学位

语音情感识别条件随机场模型半监督学习自训练算法

基于小波神经网络的车牌识别研究与应用

车牌识别系统VLPR (Vehicle License Plate Recognition)是现代智能交通系统ITS (Intelligent Transportation System)中的重要组成部分,在违章车辆抓拍、停车自动收费、交通

学位

图像预处理车牌定位字符分割车牌识别小波神经网络

人脸识别系统中关键技术研究

人脸识别系统中,多种关键技术会对最后识别结果产生影响,而关键技术中的光照在人脸识别中是实现人脸识别常态化最大的一个障碍;同样人脸识别算法是人脸识别中最重要的一个环

学位

Retinex理论光照预处理人脸识别仿生模式识别

基于节点综合性能的总线型应用层组播模型

随着计算机网络技术的迅速发展,诸如网络流媒体等技术在网络上应用越来越多,这都为组播通信提供了更好的发展空间。组播技术是一种比较理想的、用于实现群组通信的网间通信技

学位

信用度节点综合性能总线型应用层组播分层结构

PPTL模型检测器的改进及应用

模型检测是一种形式化验证方法，目前已经得到了广泛的发展和应用。本文给出的是一种基于命题投影时序逻辑（Propositional Projection Temporal Logic,PPTL）的模型检测器的改进和

学位

模型检测时序逻辑SPINPPTL

基于滑阀组件高精度配套系统的研究与实现

滑阀组件通常是将工艺不同的孔轴零件按照一定的配套规则进行组合而成。本文研究的滑阀组件将用于航空飞机,基于安全性考虑,孔轴零件的测量值和间隙值均精确至万分位,同时确

学位

.NET滑阀组件网络流规划Dinic算法配套系统

普适计算上下文感知中间件的研究与实现

普适计算是一种全新的计算模式,其致力于将由通信和计算构成的信息空间与人们工作生活的物理空间融为一体,支持用户“随时随地”并且“透明”地获取符合其个性化需求的信息服

学位

普适计算上下文感知中间件JiniXML

云计算中租户虚拟网络的管理研究

下一代的互联网数据与服务核心必然是云计算。它被使用在公共服务和按需计算服务领域。云计算不是一个全新的技术,而是在应用和服务创新中派生出来的,多租户就是云计算核心技

学位

基于角色的访问控制租户虚拟网络管理OpenFlowOpenStack

数据发布中的敏感属性隐私保护方法研究

如今大数据产业的发展对全球经济发展方式的转变、人类生活水平的提高和国家综合能力的增强起到显著推动作用。为促进该产业又好又快的发展,首要任务就是开放共享数据,但企业

学位

单敏感属性多敏感属性隐私保护语义分析相关性

基于分布式的频繁闭合模式挖掘算法研究

关联规则挖掘是数据挖掘研究中的热点问题之一,其目的是发现数据库中数据项之间存在的潜在联系。关联规则挖掘的重点任务是频繁模式挖掘。然而,由于频繁模式挖掘的复杂性,业

学位

数据挖掘关联规则分布式算法频繁闭合模式

高维数据的多视图聚类方法研究

与本文相关的学术论文