聚类分析优化关键技术研究

被引量 : 0次 | 上传用户:dl_smh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析作为数据挖掘的一个重要研究领域,可以有效地帮助我们分析数据的分布、了解数据的特征、确定所感兴趣的数据类,寻找隐藏在数据中的结构,以便作进一步分析和利用。本文针对现有某些聚类算法存在的不足,结合粒子群优化等方法对现有某些聚类算法存在的需要人工设置算法初始参数及提高聚类性能等问题进行了探讨并提出了解决方案。研究了成对约束先验信息如何扩展和指导聚类以提高聚类质量。针对文本数据高维稀疏的特性,对如何提高文本聚类效果进行了研究。本文研究具有一定的理论研究价值与现实的应用意义。具体研究内容包括以下几个方面:1)提出了一种简单有效的粒子编码方法,采用新的粒子编码方法的粒子群优化K均值算法有效地解决了已有粒子群优化聚类算法当样本维数较大及样本各维的取值范围变化较大时,造成粒子群搜索空间过大,在有限次迭代搜索时影响算法的收敛速度和聚类效果,且在搜索过程中样本各维的值在一定范围内变化时可能会取到不符合样本实际情况的数值而出现空簇的情况等问题。当数据集较大时,通过将凝聚层次聚类、K均值算法与粒子群优化有机结合提出了一种两阶段混合聚类方法,通过凝聚层次聚类获得若干纯度较高的子簇作为下一阶段粒子群优化聚类的初始聚类中心搜索空间,并引入混沌思想保持粒子群的多样性,以避免粒子群优化算法可能出现的早熟现象。在多个UCI数据集和文本数据集上的实验结果表明新方法对初始聚类中心敏感性较小、收敛速度快、能有效抑制早熟现象,聚类结果的精度和稳定性显著增加。2)提出了一种利用粒子群优化自动搜索合适的算法初始参数,同时获得对应的聚类划分的方法,解决了一些聚类算法需要人工设定初始参数,而参数选择不当将严重影响聚类性能的问题。通过将模糊C均值算法(FCM)与粒子群优化有机结合,同时对初始聚类中心和加权指数m进行编码与搜索,解决了FCM算法对初始聚类中心敏感和需要人工设置加权指数m值的问题。DBSCAN算法能够发现任意形状的类簇,但对邻域半径Eps与邻域内样本数MinPts这两个输入参数敏感。根据DBSCAN类簇扩展的特点,以DBSCAN聚类结果类簇数目与输入的预期聚类个数的符合情况作为粒子群优化适应度值,通过粒子群优化搜索,寻找最优的Eps值,同时生成预期聚类个数的聚类划分结果,解决了DBSCAN算法对输入参数Eps与MinPts敏感的问题。在已有的粒子群优化聚类算法和聚类有效性指标研究的基础上,设计了一个基于粒子群优化聚类的聚类有效性验证框架,同时对聚类个数和初始聚类中心进行编码,将聚类有效性函数作为粒子群优化适应度函数进行自动搜索,能自动确定聚类划分的最佳类簇数目,同时可以用于对不同的聚类有效性指标进行测试比较。在多个UCI数据集上比较了Sil、DB和IGP等聚类有效性指标的性能。3)提出了一种半监督粒子群优化聚类算法。采用改进的Floyd最短路径算法对初始加入的Must-link和Cannot-link成对约束信息同时进行扩展,用扩展后的成对约束信息对相异度矩阵中相关样本间的相异度值进行修正,结合简化的粒子编码方法和融合先验信息的相异度矩阵进行粒子群优化聚类,最后将样本间的成对约束信息融合在聚类结果适应度函数的计算中,根据聚类结果中违反成对约束的情况来指导粒子群优化搜索。在多个UCI数据集上的实验结果表明本方法加入少量的成对约束先验信息就能获得聚类准确率的较大提升,聚类效果优于半监督近邻传播算法。4)提出了一种新的初始聚类中心选择方法。通过在聚类过程中动态统计已划分和未划分的数据集合的相关信息,将这些统计信息应用到下一步类簇的划分中,逐步探测数据集中未划分归属类簇部分的相对密集区域,若此密集区域与已划分类簇覆盖度小于一定阈值,则将此区域作为一个初始聚类中心。寻找到K个初始聚类中心集合后,将剩余未划分的数据划分到最相似的类簇中,最后通过准则函数对聚类结果进行进一步优化。目前典型的聚类算法都需要不同程度人工选择阈值,而阈值选择的优劣将直接影响聚类效果。本文提出的文本聚类算法中阈值均通过在聚类过程中对数据集划分情况进行动态统计得到,避免了根据经验对不同数据集阈值设定的盲目性。该方法能够很好地排除类边缘点和噪声点的影响,能够适应数据集中各个实际类别大小及密度分布不平衡的情况。与著名的CLUTO聚类工具集的比较实验表明该方法在不同数据集上聚类效果更好,鲁棒性更强。在提出的文本聚类算法基础上进一步研究了将成对约束监督信息进行扩展并指导文本聚类,提出了一种半监督文本聚类方法。通过将成对约束嵌入文档相似度矩阵,在初始聚类中心选择、剩余文档划分及聚类结果优化过程中充分利用成对约束先验信息改进文本聚类效果。
其他文献
随着电子技术在自动化、工业控制、医学、航天航空和日常生活等领域的广泛应用,高密度、宽温域、小尺寸、多功能、高品质等特性日益成为其发展的必然趋势,同时这些特性给传统封
印度环境史研究是在回应环境主义运动的现实需要和历史研究探索展示庶民的细小声音的进程中诞生的。印度环境史研究在三个方面取得了突破性进展,一是提出了一套完整的理论分
在化石能源日益枯竭的当今社会,寻找一种实用廉价的可再生能源来替代煤、石油和天然气成为人类社会生存发展必须重点关注的问题。风能的可再生性使得其受到了全世界各国的广泛
金融学研究的核心问题之一是在不确定的环境下对资产进行有效地合理地配置.1952年,Markowitz[1~4]假定证券收益是随机变量,利用证券收益的方差度量投资风险,利用证券收益的均
新课程标准的实施,数学教学从传统的只注重教学内容,转变为更加注重数学教学的过程。其中教学评价是教学过程中不可或缺的一项重要内容,新课程标准中对教学评价着重提出了要注重
自二十世纪中叶以来,世界各国在工业化的进程中不断造成环境污染,人们在一次次的环境污染事件中渐渐觉醒,政府、个人和各种社会团体都积极投入到环境保护事业中。环保组织凭借其
赵翼是清代享有盛誉的诗人、诗歌批评家和史学家。目前学界关於赵翼的探究,文学工作者主要集中在他的诗歌创作与诗歌理论,史学研究者主要研讨他的史学理论和史学方法,对其生平事
随着社会的发展和人们生活水平的不断提高,大众化的旅游观光活动显然不能满足旅游者日益变化的旅游需求,注重体验和参与的体育旅游开始逐渐走进人们的视线。尤其是08年在北京成
通过对文献的研究和分析,目前国内关于4C/ID模型的研究主要关注:4C/ID模型的内涵、理论基础、构成要素以及4C/ID模型与其他模型的区别等;而国外的研究重点则是4C/ID模型在实
随着我国资本市场的逐步完善,人们对于价值评估理论和方法的关注度日益增加。通过对企业或某类资产进行价值评估,才能使得企业收购、资产重组等经济活动有效地进行。而对于每