论文部分内容阅读
作为一种重要的无监督机器学习方法和典型的数据挖掘技术,聚类分析已得到学术界和企业界的广泛关注.近年来,根据不同应用领域的需求,研究者已经发展了一系列聚类模型和算法,并在图像处理、信息检索、社交网络和生物信息学等领域的数据分析中扮演着重要角色.然而,随着大数据、物联网等一系列新兴技术的快速发展与广泛应用,社会活动、科学研究、移动互联网等诸多领域积累了大量复杂数据.需要处理的这些数据呈现出样本规模的海量性、特征规模的高维性、特征表示的混合性、内在结构的复杂性等特点.无论从模型、算法还是应用层面,均给聚类分析提出了严峻挑战.因此,如何从大规模复杂数据中挖掘隐含的类结构成为了一个富有挑战性的研究课题.本文针对数据的大规模性、高维性、混合性、复杂性等特点,采用抽样、子空间聚类、聚类集成、图压缩等技术系统地开展了聚类分析模型与算法的研究.具体地,本文的主要研究内容及取得的研究成果如下:(1)针对大规模数据聚类算法面临的计算效率低下的问题,提出了一个基于分层抽样的聚类算法框架.与其他大多数基于抽样的聚类算法相比,提出的框架在抽样过程中考虑了数据集的分布信息.一个包含大量数据对象或方差较大的数据层应该被抽取更多的数据对象来代表原始数据,这种差异有利于产生更具代表性的样本子集和更好的部分聚类结果.大量实验验证了提出算法的有效性和高效性.(2)针对高维混合数据聚类的有效性问题,提出了一种高维混合数据软子空间聚类算法.首先,为了更加准确客观地度量对象与类之间的差异性,设计了一种针对混合数据的扩展欧氏距离;其次,通过融合不同类型信息熵,实现了对类结构的类内、类间的不确定性度量,并基于此给出了针对各个类的特征加权方法.在真实数据上,验证了提出算法的有效性.(3)针对聚类集成中基聚类质量以及他们之间的差异性问题,提出了一种基于信息熵的混合数据序列化基聚类生成算法.该算法针对数值型数据和分类型数据分别利用微分熵和互补熵建立了统一的聚类结果有效性评价准则.基于该准则和归一化互信息,能够有效生成聚类质量高、差异性强的基聚类成员.系列实验验证了该算法的有效性.(4)针对聚类集成算法集成过程中基聚类贡献不同的问题,提出了一种分类型数据的聚类集成选择算法.该算法利用5种常用的分类型数据内部有效性评价指标和归一化互信息分别度量基聚类成员的质量和差异性.通过迭代式地选择聚类质量高且差异性强的基聚类参与集成获得了更加准确的聚类结果,在多个真实数据集上通过实验验证了提出算法的有效性和鲁棒性.(5)针对大规模复杂网络聚类分析计算效率低下问题,提出了一种基于图压缩的大规模社交网络聚类算法.根据社交网络中节点具有幂律分布的特点,该算法通过压缩度数较低的节点获得规模较小的压缩图,基于压缩图进行聚类分析,最后将部分聚类结果传播到整个社交网络.该算法在保证聚类质量的前提下,提高了计算效率.进一步将该算法应用到社会化推荐中,有效地提高了推荐算法的计算效率.本文取得的研究成果不仅丰富了聚类分析的研究内容,而且可为社交网络和生物信息学等领域中的数据分析提供技术支持。