基于多核概念分解的聚类方法研究

来源 :山西大学 | 被引量 : 2次 | 上传用户:A13808289587
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘经过几十年的发展,已经成为目前计算机科学研究领域的重要方向之一,通过数据挖掘我们可以在数据中探索到潜在的规律。数据挖掘中有一项在我们日常生活中应用非常广泛且非常重要的方法,即聚类分析。同样,聚类分析也一直是国内外相关学者研究的一个重要领域。聚类分析技术可以探究到数据中潜在的构造,从而在很多专业领域的运用非常广泛。在聚类分析领域中,基于概念分解算法(CF)得到了广泛的应用,因为该方法能够将矩阵分解推广到单个非线性核空间,使得多维数据更容易被描述,该方法被广泛运用在信号处理和计算机视觉等领域的研究中。但是,基于概念分解的聚类算法在实际应用中面临的一个重要问题是针对特定的任务或数据集该如何设计合适的核函数,因为很多情况下单一的线性方法或非线性方法不能体现任务的具体特性。针对概念分解在聚类分析时面临的核函数选择和设计的困难,我们提出了两个相应的多核概念分解方法,具体如下:(1)提出了基于全局融合的多核概念分解方法(GMKCF)。该方法通过全局线性加权的方式将多个候选核函数合并,并将多核融合过程和概念分解过程进行联合学习。一方面借助融合后的高质量核函数提升概念分解质量,另一方面借助概念分解发现数据集上的本征结构并用于指导多核融合参数的学习。本文设计了相应的分块迭代算法并证明其收敛性和复杂性等理论特性。经过实验表明,该方法在基准数据集上与实验中对比的单核方法和其他多核方法相比实验效果更好,因此方法的有效性被证明。(2)提出了基于局部判别分析全局集成的多核概念分解方法(DMKCF)。该方法首先扩展了以上提出的GMKCF,然后对于每个基核,通过全局集成的局部判别模型提取每个样本的局部判别结构。此外,我们进一步线性组合所有这些核级局部判别模型,以获得跨基核的内在结构的综合一致性特征。这样,我们的方法可以通过更紧凑的数据重建和更准确的局部结构保持来获得更好的结果。另外,还设计了一种保证收敛性的迭代算法来寻找最优解。通过在基准数据集上的实验,可以从实验结果看到该方法在多个指标上优于许多先进的算法。综上,本文围绕概念分解中核函数设计的问题,探索了概念分解中新的核函数生成算法,并提出了两个多核聚类算法。聚类分析作为模式识别、机器学习以及数据挖掘等计算机研究领域中使用最为普遍的方法,在其他专业领域的应用也十分的广泛。所以不管在理论层面,还是在实际应用层面,这两个多核聚类方法在聚类分析领域有很大的价值。
其他文献
随着室内无线局域网(Wireless Local Area Networks,WLAN)的广泛部署和智能终端对IEEE802.11协议的普遍支持,面向未携带任何信号收发设备的未知目标的入侵检测服务需求呈现大幅增长趋势。基于WLAN的未知目标入侵检测技术利用WLAN信号波动特性与入侵目标位置的相关性实现对入侵目标的检测与区域定位,可广泛应用于智能家居、安防监控、反恐维稳和灾害救援等诸多领域。目前系统
教学是教育管理的重要组成部分,教育管理各项工作的开展必须以教师的“教”和学生的“学”作为基石。本论文选用“绘画分析”方法作为研究工具,根据绘画分析的特性把“美术课”作为切入点,从具体教学内容出发旨在为教学管理提出可借鉴与参考的依据。本研究是一次理论与实践相结合、心理学与教育学相结合、心理治疗方法与具体学科相结合的一次实证性研究,通过对具体操作方法在教学过程中的作用机制及其规律的研究得出结论,从而为
阅读能力对现代人适应现代社会,对当代公民形成公民素养,对个人的终身学习,对社会主义现代化建设,都是一项极具价值的能力。高考作为一项选拔性考试,在语文学科的高考试卷中,阅读能力一直以来都是主要的考核内容。自新高考实施以来,高考语文试卷发生了不少新的变化。主动阅读是应对高中语文阅读教学和新高考考查变化的重要策略。高中语文主动阅读教学的理论研究和实践探索具有重要的研究价值和现实意义。本论文研究的是新高考
良好的班级文化建设,有利于学生的身心发展和综合素质的培养。对于职业学校来说,建设具有职业特色的班级文化,将增加学生的归属感和责任感,有助于营造团结向上和勤学好问的班风班貌,帮助学生塑造职业道德和职业素养,培养学生的拼搏进取精神和工匠精神。中等职业学校普遍存在班级学风差、学生缺乏职业素养工匠精神、就业率低等问题,在国家重视职业教育的大环境下,培养出具有综合素养的技能型人才尤为重要,对中等职业学校班级
近几十年来,“玉器热”在中国传播和发展,玉器市场蓬勃发展。伴随着玉器市场的发展,仿古玉制造产业也孕育而生,这不可避免地给古玉爱好者、收藏家带来了困扰和经济损失。在这种情况下,古玉器的鉴定和辨伪方法也日益更新,不管是宏观鉴定还是微观鉴定都更有理有据,二者辩证统一,更加科学有效。现今仿古玉制作工艺水准也随着相关鉴定专家的鉴藏水准的提高而不断提高。仿古玉市场对古玉市场也产生了很大的影响。安徽蚌埠仿古玉雕
粗糙集理论是波兰数学家Pawlak教授在1982年提出来的,它是一种处理不完备、不确定、不精确数据的数学工具,被广泛应用于数据挖掘、机器学习、决策支持与分析、图像处理、专家系统、近似推理等诸多领域。近年来,广大学者对Pawlak粗糙集模型进行了大量推广,其中基于区间值信息系统的知识发现成为粗糙集理论及其应用研究的重要方向之一。由于Pawlak粗糙集模型中的等价关系的要求过于严格,处理区间值型数据存
随着人工智能的飞速发展,人们对于神经网络的研究日渐深入。而脉冲神经网络作为第三代的神经网络,更是被科研人员广泛关注。如何构建与人脑神经网络类似的智能网络成为当前研究的热点问题,而神经元和突触正是神经网络中最重要的研究部分。本文以神经元模型和突触为出发点,设计一种温度依赖型神经元模型,并研究其在神经网络中建立突触、更新突触、修剪突触以及最终形成神经环路的完整过程。首先,结合生物实验结果和资料,本文在
近年来,随着深度学习技术的迅速发展,基于Seq2Seq的神经网络机器翻译模型(NMT)的性能得到极大的提升,并且在很多语言对上的性能都超过了传统的统计机器翻译模型(SMT)。但不论是基于RNN的Seq2Seq还是基于self-attention的Transformer,它们通常会遇到错误偏置(exposure bias)的问题:在进行解码时容易产生具有良好前缀但不良后缀的不平衡目标。针对这个问题,
现有长期演进(Long Term Evolution,LTE)系统和高级长期演进(Long Term Evolution-Advanced,LTE-A)系统中频谱资源的稀缺,以及用户资源的独占性,使通信网络容量难以满足第五代移动通信系统(The Fifth Generation Mobile Communication System,5G)日益增长的通信需求。随着物联网(Internet of T
结直肠癌是世界上第三大常见肿瘤,其发生率和死亡率都在不断的增加。早前的研究证实结直肠癌的发生和发展受到遗传因素和环境因素的共同作用,其中遗传因素在结直肠癌的产生中