对关联聚类的扩展及其应用的研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:gjsh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据时代下智能化是各种设备和应用发展的一大趋势,各种数据挖掘技术正被用于实现这一目标。虽然数据时代的前景十分美好,但是也充满着各种挑战。首先,数据搜集和存储的代价越来越小,而人们处理数据的速度却远不及数据增长的速度。其次,获取的数据存在包括噪声、无结构性、信息缺省等多方面的质量问题,这为数据分析带来了不少困难。现实中获取的数据大部分为无监督类型的,快速高效的无监督学习方法不仅能够适当缓解数据处理压力,而且能够根据其所发现的价值帮助后续的数据收集工作。聚类分析是无监督学习的重要内容,有着久远的发展历史。相比起其他聚类方法,关联聚类能够不需预定义而自动选择合适的簇类数目进行聚类,这种特性使其更加适用于真实数据场景。然而关联聚类因其求解十分困难,多年来一直未能得到广泛应用。鉴于此,本文针对关联聚类问题进行了如下研究:(1)分别对关联聚类、最小k-割问题和二次半分配问题的数学优化形式进行了重构,一方面阐述了三者之间的相互关系和求解难度,另一方面以此说明利用现有的解决类似问题的松弛技术很难有所突破,应寻求其他方法。(2)通过对关联聚类求解难点的分析,引入聚类指示矩阵和聚类分配这两个新的变量,对原问题进行重新形式化,松弛掉问题的非关键约束,提出了一种单次迭代时间复杂度为O(|V|+|E|)的基于伪期望最大的迭代算法—-Pseudo-EM。此外,本文讨论了一种启发式的聚类指示矩阵的初始化方法和数据的稀疏性问题,并利用实验验证了算法的有效性。(3)本文最后探索了关联聚类的扩展应用,文中列举了两个关于聚类分析的典型应用——图像分割和社区挖掘。在图像分割中,基于Pseudo-EM的算法表现出了比谱聚类更加自然的分割结果。在社区挖掘中,算法能够十分接近地恢复真实的社区数目,并且所挖掘的社区质量也比其他算法更优。
其他文献
近年来,随着国家对高速铁路的大力发展,投入实际运营的高速列车类型和数量不断增加。相应地,检修基地的检修业务量也在显著增大。有效的运维是高速列车安全运行、高效运营的重要
端到端延时是手机视频通讯应用性能指标中相当重要的一个参数,延时测量的准确性直接关系到通讯产品的质量以及安全。然而现有的一些内部和外部延时测量方法都存在时钟同步、通
敦煌莫高窟游客流量众多,为了进一步加强对莫高窟遗产的保护,对游客流量实时监控具有重要意义。游客流量的监测需求使得对低功耗传感器定位技术的研究成为必需。通过对基于AS39
随着网络的普及和日趋丰富的社交软件的出现,网络作为一个新起的舆论方式已深入人们的日常生活。舆情分析任务涉及分词、聚类、情感分析等相关工作。在这些工作中算法存在效率
基于移动互联网的动漫内容服务已经成为移动互联网领域重要的数据业务,而在终端动漫图片数据处理中,图片存储问题已经成为了一个亟待解决的问题。目前为止,还没有专门针对动
随着人们对业务流程管理的可靠性和正确性要求的提高,科研管理工作流已经成为科研机构实现业务过程自动化的核心技术。建立工作流模型是实现工作流技术的关键环节,模型的优劣
在无线网络的通信过程中,如果数据包长过大,会大大增加数据包的错误率,增加重传次数;如果数据包长过小,会增加包头的比例,降低信道利用率。因此,已有很多工作研究无线网络中数据包
文本分类由来已久,近年来,随着人工智能和机器学习的迅速发展,文本分类也出现了很多新方法。随着技术的发展,一方面,文本语料的数据质量和数量发生了巨大的变化,大规模语料的积累为
随着物联网相关技术的逐步发展,面向各种行业的感知应用也纷纷出现,但也正是由于行业“关注自身”的特点,其感知系统所存在的建设孤立、复杂度高、通用性差、系统封闭、数据共享
软件可靠性测试是保障软件质量的一个重要手段,基于Markov链使用模型的可靠性测试是其中最为重要的方法之一,其包含两个最为关键的流程:一是软件Markov链使用模型的构建;二是