论文部分内容阅读
聚类分析是数据挖掘技术的一个重要研究领域,对大规模、高维数据的聚类分析是目前研究的热点和难点问题。
论文在分析高维数据的主要特征,传统聚类算法在处理大规模高维数据时所遇到的困难,以及高维数据对聚类算法所产生影响等内容的基础上,针对传统基于距离的度量函数并不适合高维数据的相似性度量问题,提出了一种新的适合计算高维数据对象间相似性的度量函数,并在此的基础上设计出两种高维数据聚类算法。一是参考层次凝聚聚类算法的步骤,采用自底向上方法每次聚类两个相似度最高的簇,直到不满足阈值要求为止;另一种算法参考顺序凝聚聚类算法的步骤,每扫描一次数据对象,即按照阈值要求聚出一簇,直到所有对象都已聚类才停止扫描。实验结果显示,这两种算法都能应用到高维数据的聚类分析中,并且能聚类出效果比较好的簇。
为了进一步优化算法对高维稀疏数据聚类的效果,论文针对高维稀疏数据的特点,提出了两种不同的高维稀疏数据聚类算法。一是针对区间变量的高维稀疏数据,算法采用两次聚类分析,初次聚类对数据对象进行简单聚类,再次聚类在初次聚类结果上做进一步细分,从而达到提高聚类质量目的;另一种算法则是针对二态变量的高维稀疏数据,本文提出一种新的计算对象组相似度的函数,并研究相应的对象组特征向量,算法利用对象组特征向量可加性特点实现对高维稀疏数据的聚类分析。实验结果显示,这两种算法在高维稀疏数据聚类分析方面也能得到不错的效果。
最后,论文以移动话务数据为基础,基于所研究的算法设计出一个小型应用系统原型,该原型系统能对高维数据进行聚类分析,并可为企业提供决策支持,显示了论文研究结果具有良好的推广应用价值。