论文部分内容阅读
当前实际应用产生的数据维度越来越高,受维度效应的影响,许多在低维数据上表现良好的聚类方法运用在高维数据上时无法获得好的聚类效果。在过去十几年,高维数据的聚类方法是聚类分析的主要研究方向,众多国内外研究人员已经取得了不少研究成果,如子空间聚类、主题模型等。 最近高维数据的多视图特性引起了研究人员的注意。多视图特性是指许多高维的特征可以自然分为若干特征组,特征组中的特征具有语义相关性。传统的聚类方法将多个视图视作一个整体进行处理,忽略了视图内部的信息及视图之间的差异。近几年,研究人员提出了一些多视图聚类算法来解决上述问题。但现有多视图聚类研究存在如方法少、算法复杂度高、忽略视图关联关系及只能处理多视图结构已知的高维数据等缺点。 本文在现有研究工作的基础上,针对高维数据多视图聚类存在的几个问题,结合软子空间聚类及主题模型最新研究成果,提出了一系列新颖的高维数据多视图聚类方法。主要研究工作和创新包括: 1.将传统的特征加权扩展为双层特征加权,提出了一个多视图双层特征自动加权聚类方法TW-k-means。该算法同时对视图及单个特征进行自动加权,可以有效地识别紧凑的视图及重要的特征。同时该算法具有与标准的k-means一样的算法复杂度,适合处理大数据。该方法的提出为变量加权聚类方法开辟了一条新的道路。 2.将传统的子空间加权扩展为双层子空间加权,提出了一个多视图双层子空间自动加权聚类方法FG-k-means。该算法同时对定义在视图及单个特征上的子空间进行加自动权,可以有效地识别紧凑的视图子空间及重要的特征子空间。同时该算法具有与标准的k-means一样的算法复杂度,适合处理大数据。该方法的提出为子空间聚类方法开辟了一条新的道路。 3.扩展传统的主题模型提出一个用于寻找文档两个视图之间关联关系的主题模型TCM。新算法的特点主要体现在:1)同时对文档的两个视图包含的主题进行建模,2)计算两种不同主题的联合分布概率。实验结果表明TCM可以发现文档两个视图的关联关系,其建模性能优于传统的主题模型如LDA。该方法将流行的主题模型LDA成功扩展到多视图聚类领域。 4.扩展传统的主题模型,提出一个适用于包含隐式多视图结构的高维数据的多视图聚类算法-隐含语义子空间模型LSSM。该算法主要用于文本数据聚类,可以在聚类过程中自动将特征划分为一定视图(词簇/主题)并找到文档和视图之间的子空间结构。LSSM的特点主要体现在:1)对文本数据同时文档和词两个方向进行建模,2)对文档簇和视图之间的条件概率建模。实验结果表明LSSM具有较好的建模性能及聚类性能。同时该模型也可以用于分类应用,并具有较好的分类性能。该模型的提出扩展了多视图聚类算法的应用范围。 本研究提出的四个算法中,TW-k-means和FG-k-means具有速度快的特点,能够解决现有多视图聚类算法存在的算法复杂度高的问题。TCM的提出则解决了现有多视图聚类算法忽略视图关联关系的问题。而LSSM的提出则解决了现有多视图聚类算法只能处理多视图结构已知的高维数据的问题。在模拟数据及真实数据上的实验结果证实了这四种方法的有效性。 这四种新的多视图聚类算法的提出,将大力推动高维数据多视图聚类领域的发展,并有望带动新的研究方向。同时,这些算法也将给高维数据分析应用带来更多更好的选择。