多视图聚类算法研究

来源 :深圳大学 | 被引量 : 0次 | 上传用户：jjx2777

【摘要】

：

随着各种电子设备的不断进化和发展,我们已经迈入了大数据时代。人类生活中的数据通常产生于不同的数据源或者从不同的视角来描述,我们将此类数据称之为多视图数据。如何挖掘

【作者】

：

孙文雅

【出处】

：

深圳大学

【发表日期】

：

2019年01期

【关键词】

：

多视图聚类谱聚类特征分解谱旋转抽样算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着各种电子设备的不断进化和发展,我们已经迈入了大数据时代。人类生活中的数据通常产生于不同的数据源或者从不同的视角来描述,我们将此类数据称之为多视图数据。如何挖掘隐藏在各式各样多视图数据的信息已经成为数据挖掘领域和机器学习领域的一个热门的研究方向。然而,这些多视图数据通常具有?分复杂的数据结构,这就使得许多基于物理距离的聚类算法如K均值聚类算法等失去有效性。由于谱聚类算法在对各种复杂结构数据聚类时的优越性能,各种基于谱聚类的多视图聚类算法已经被成功得用于多视图聚类领域。但是,由于传统的基于谱聚类的算法通常都是先对由相似度图中导出的图拉普拉斯矩阵进行特征分解,然后在通过K均值聚类或者谱旋转从分解得到的特征向量中获得最终的聚类分配,这样一个特征分解和求解聚类分配矩阵相分离的方法可能导致聚类结果的不精确,使聚类结果与数据中隐含的真实信息有所偏离。而且由于特征分解步骤的较高时间复杂度,使得基于谱聚类的多视图聚类算法很难用来处理大规模数据。此外,许多基于谱聚类的多视图聚类算法都涉及一个对多个视图加权整合的过程,但是由于多视图数据通常结构复杂,可能包含一些噪声数据,所以这些加权多视图聚类算法的聚类效果可能会受到某些噪声视图的影响,得到较差的聚类结果。此外,由于多视图数据中往往包含相较于单视图数据更为丰富的信息,所以往往具有很大的数据规模。为了降低数据的规模,从而可以对这些多视图数据分析,很多对数据进行抽样的算法已经被提出。但是由于这些抽样办法通常不能考虑每个视图的重要性,可能会选择一些噪声数据作为抽样结果,导致对数据的后续分析不精确。基于上述提到的多视图聚类领域面临的一些问题,本文主要进行如下工作:1.针对由于传统谱聚类的多视图聚类算法特征分解和求解聚类分配过程相互分离导致的聚类结果与实际的数据结构偏离的问题,本文提出了一个直接优化目标函数的聚类模型,该模型可以不用对图拉普拉斯矩阵进行特征分解,而是通过一个迭代的过程直接对模型进行优化,不仅可以避免特征分解过程与聚类求解过程导致的结果不精确问题,还可以通过避免对拉普拉斯矩阵的特征分解从而降低计算复杂度。2.针对现有的对多个视图进行加权的算法容易受到噪声视图影响的问题,本文提出一个自动对多视图数据进行加权的模型,并引入一个视图权重调整参数,通过调整视图的权重分布,使重要视图具有更大的权重,噪声视图具有更小的视图权重,降低多视图数据中噪声数据对聚类结果的影响。3.为了能够对大规模多视图数据进行聚类分析,本文提出一个新的多视图数据的抽样方法,该抽样算法可以自动识别不同视图的权重信息,从而避免因将噪声数据选择为代表点造成的后续聚类结果不精确等问题。

其他文献

多功能碳基复合材料在高性能锂硫电池中的应用

为了加快建设资源节约型社会,国家大力提倡使用节能减排效果明显的新能源汽车。目前制约其发展的突出问题是电池的续航能力不足,而解决该问题的关键因素则是开发并利用能量密

学位

锂硫电池静电纺丝多孔结构吸附碳纳米纤维

吐温20对大豆蛋白乳液界面性质及稳定性的影响

大豆蛋白是一种优质的植物蛋白资源,乳化性是大豆蛋白非常重要的功能性质之一,大豆蛋白添加到食品中可以有效改善口感、稳定体系的乳化状态并延长货架期。大豆蛋白的乳化性质

学位

大豆蛋白吐温20界面取代稳定性乳液改性界面剪切流变性

大豆GmRCD1互作蛋白的筛选及与GmNAC82互作研究

RCD1(radical-induced cell death1)是重要的转录因子调节子,属于植物SRO(similar to rcd one)蛋白家族。研究表明SRO蛋白家族参与植物正常生长发育,同时是多条抗逆信号通路

学位

GmRCD1蛋白质互作NAC82固有无序蛋白

二维离散障碍期权定价的数值分析

障碍期权作为一种常见的奇异期权,其在理论上和实践中都有十分重要的作用,因此成为了研究的热点之一。但之前的研究多见于单资产的情况,虽然在不同的方向上进行了很多扩展,但大多是在障碍的存续方式上做些改变,从而得到不同的结果。而对于增加资产的情况,即使是2种资产的情况也所见较少。本文对经典的障碍期权进行了一定的扩展,将原生资产的数量增加到2个,并假设对障碍的观测是离散的。首先对单资产的情形下已有的结果进行

学位

期权定价障碍期权Monte Carlo模拟二叉树

基于金黄色葡萄球菌FnBPA和停乳链球菌GapC1-150的多表位疫苗免疫原性研究

金黄色葡萄球菌和链球菌是奶牛乳腺炎的重要致病菌,抗生素已经无法有效的防治金黄色葡萄球菌和链球菌感染。疫苗免疫接种已经成为防治金黄色葡萄球菌和链球菌感染的有效措施

学位

金黄色葡萄球菌停乳链球菌多表位疫苗纤维蛋白原结合蛋白A甘油醛-3-磷酸脱氢酶C

基于模拟匹配的分布式频繁图模式挖掘方法研究

频繁模式挖掘的目标是在数据中找出所有频繁出现的模式,进而发现蕴含在数据中的潜在知识,根据所挖掘数据对象的种类,可以把模式分为事务、序列、项集和图等。在图数据中挖掘频繁的图模式称为频繁图模式挖掘,频繁图模式挖掘的目标是在数据图中找出所有出现次数大于给定最小支持度阈值的图模式。频繁图模式挖掘具有非常重要的理论与应用价值,众多学者也致力于研究新的更高效的频繁图模式挖掘算法。图模式匹配是频繁图模式挖掘算法

学位

模拟匹配分布式图模式挖掘

基于深度神经网络的联合实体关系抽取

自2012年来,谷歌知识图谱(Google Knowledge Graph)技术引发各领域研究人员的广泛关注。知识图谱本质上是一个由实体节点相互连接形成的网状语义知识库,其初衷是增强用户的搜

学位

知识图谱联合实体关系抽取远程监督神经网络注意力机制

高性能Al-Si-Cu-Mg系合金热处理工艺与强韧化机理研究

铸造Al-Si系合金因质量轻和流动性好等特点,在传统汽车发动机相关零部件上得到广泛应用。然而,随着未来汽车发动机轻量化、集成化、智能化的发展趋势,结构减重、内腔薄壁和高

学位

Al-Si-Cu-Mg系合金强韧性中间相热处理过渡金属元素

基于电阻抗技术的高性能人体健康检测系统的研制

人体成分分析具有十分重要的意义。在临床中,通过检测人体成分能够监测治疗方案的疗效。对于某些疾病的预防和诊断,人体成分的分析可帮助降低误诊率,争取宝贵治疗时间。在健

学位

生物电阻抗技术人体成分分析八电极方法硬件优化设计软件优化设计

基于多源极轨卫星资料的中国地区不同光学厚度下的冰云特性及气溶胶对其影响研究

冰云对地球的辐射平衡至关重要。在大气污染加重,气候变暖得到证实的情况下冰云在气候变化中的作用仍然具有很大的不确定性。并且,气溶胶能够成为冰核,影响冰云的形成和发展,

学位

冰云气候特征冰云类型光学厚度气溶胶影响效应

多视图聚类算法研究

与本文相关的学术论文