论文部分内容阅读
数据挖掘技术是近年来在人工智能、信息决策及数据库领域研究的热点之一。在众多数据挖掘分析工具中,聚类分析是一种最常用、最有力的工具。聚类分析的目的是将抽象出来的对象或样本集合根据相似度划分成若干具有特殊意义的团或者类,从而更好地理解和分析数据,发现样本的潜在分布结构。迄今为止,人们提出了大量聚类算法。但随着数据规模(包括样本个数及数据维度)越来越大,而先验知识相对匮乏,传统的聚类算法效果并不尽如人意。受量子力学启发,量子聚类(Quantum Clustering, QC)将聚类问题作为一个物理系统,在波函数已知的情况下,通过求解薛定谔方程式(Schr dinger equation)导出势能函数,从势能能量点的角度来确定聚类中心。作为一种基于划分的无监督聚类算法,量子聚类能够克服传统方法的一些缺陷,如对初始值和噪声敏感,聚类类别数需要事先给定等。为了进一步提高数据的聚类精度和运算效率,本文在传统量子聚类基础上做了相关的改进工作。由于复杂网络的社团检测与数据的聚类分析具有一定的相似性,量子聚类同样可以应用于社团检测问题研究。本文所做的主要工作如下:(1)通过研究了量子聚类的基本理论及特点,提出了一种利用核熵主成分分析的量子聚类算法。为了获取数据的潜在结构,采用核方法将原始数据映射至高维特征空间,并用熵值为评价标准筛选特征向量,以获得核熵主成分。为了增强算法的局部特性,同时提高算法的运行效率,在量子聚类算法中引入K近邻策略,并通过梯度迭代获得最终的聚类结果。通过实验分析,不论是聚类效果还是鲁棒性,该算法远优于其他对比算法,尤其是对线性不可分数据集。(2)在对已有的复杂网络社团检测算法进行深入研究的基础上,将量子聚类应用于复杂网络的社团检测问题研究中。首先为把网络转化为适合聚类分析的数据结构,构建了结构相似度矩阵,度量网络中节点之间连接关系的强弱。同时,在量子聚类过程中,引入节点的邻接信息,在提高算法局部分析能力的同时,降低算法的时间复杂度。(3)针对大规模复杂网络的社团检测问题,借鉴小规模社团检测解决方式,综合考虑检测精度和运算效率两方面的因素,提出了两点改进策略以增强量子聚类算法对大规模网络社团检测的处理能力。该算法采用网络层次划分方法,将原始大规模网络划分成若干个较小的子网络,并在子网络中构建相似度矩阵。此外,采用Nystr m方法逼近结构相似度矩阵的特征向量,进一步提高算法的运行效率。仿真结果表明,该算法能够取得较好的检测效果,且运算时间较之于原来的算法大大降低。