论文部分内容阅读
随着信息时代到来,数据量激增,数据复杂度高,如何从这些数据中挖掘有用信息正成为数据挖掘的一个重要研究方向。聚类研究是数据挖掘的一个主要方法,是一种有效分析数据、挖掘有效信息的方式。传统的聚类算法如k均值算法、k中心点算法等在处理日渐复杂的数据时显得力不从心。谱聚类是一种建立在图论基础上的新型聚类算法,近年来谱聚类算法因其具有坚实的理论基础和优异的聚类效果吸引了越来越多的学者对其进行研究。但是只采用一种聚类算法通常无法处理各类异构数据集和计算过程中面对的问题。聚类集成的思路是通过一定的方式整合多个学习器产生的基聚类以产生新的聚类结果,因其结合了学习器的差异性和精确性,所以集成算法泛化能力强,生成聚类结果更优。膜计算是仿照生物细胞膜工作机制提出的一种高效、新颖的计算模型,它涉及计算科学与生命科学两大领域,是一门综合学科。本文主要对谱聚类算法、谱聚类集成算法以及膜计算进行了研究,具体研究内容如下:首先,介绍了本文涉及到的膜计算、谱聚类算法、聚类集成算法的研究现状及国内外研究趋势。细胞型膜系统、组织型膜系统和神经型膜系统三种膜计算模型的结构、规则;图划分准则、谱聚类概述;聚类集成算法原理、学习器合并策略以及各自研究应用和本文的创新的与难点。其次,本文提出两种新型组织型膜系统—动态组织膜系统(Dynamic Tissue-like Membrane System,简称DTP系统)和混合型动态组织膜系统(Hybrid Dynamic Tissue-like Membrane System,简称HDTP系统)。前者可以根据输入数据调用膜内规则动态调整结构,实现自动聚类;后者在DTP系统基础上将组织型膜系统与细胞型膜系统结合,使之成为适合聚类集成算法的结构。同时利用寄存器证明了DTP系统和HDTP系统的图灵可计算性。然后,提出两种基于膜系统的聚类算法。第三章提出基于动态组织膜系统的改进谱聚类算法(Improved Spectral Clustering Algorithm,简称为ISC算法),将基本谱聚类算法中用到的K-means算法初始点的选取方法进行了优化,使K-means算法不易受初始聚类中心和离群点的影响提高算法准确性,并将改进算法与膜系统结合,用实验证明改进算法在聚类准确性和处理球面数据集方面的优越性。第四章以ISC算法为学习器,利用Bagging技术和选择性集成策略设计了基于Bagging技术的改进谱聚类选择性聚类集成算法(Improved Spectral Clustering Selective Clustering Ensemble Algorithm Based on Bagging Technology,简称为ISCBE算法),再将此算法与HDTP系统结合,利用其并行计算优势提高算法有效性。本章将HDTP-ISCBE算法与DTP-ISC算法、谱聚类算法及K-means算法进行比较,在UCI数据集上显示出较好的聚类效果。最后,本文将提出的HDTP-ISCBE算法应用到微博用户和小红书用户细分研究中,用网络爬虫软件分别爬取两个平台用户数据,对数据进行清洗、编码、特征选择等一系列操作后利用HDTP-ISCBE算法对数据进行聚类,以聚类效果衡量算法效率,从实际意义方面分析细分后用户类型的特征,以此为依据为企业针对不同类型微博用户设计营销方案提出意见与建议。