高维数据聚类算法研究及在移动话务数据分析中应用

来源 :华南师范大学 | 被引量 : 0次 | 上传用户:a0701302
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘技术的一个重要研究领域,对大规模、高维数据的聚类分析是目前研究的热点和难点问题。 论文在分析高维数据的主要特征,传统聚类算法在处理大规模高维数据时所遇到的困难,以及高维数据对聚类算法所产生影响等内容的基础上,针对传统基于距离的度量函数并不适合高维数据的相似性度量问题,提出了一种新的适合计算高维数据对象间相似性的度量函数,并在此的基础上设计出两种高维数据聚类算法。一是参考层次凝聚聚类算法的步骤,采用自底向上方法每次聚类两个相似度最高的簇,直到不满足阈值要求为止;另一种算法参考顺序凝聚聚类算法的步骤,每扫描一次数据对象,即按照阈值要求聚出一簇,直到所有对象都已聚类才停止扫描。实验结果显示,这两种算法都能应用到高维数据的聚类分析中,并且能聚类出效果比较好的簇。 为了进一步优化算法对高维稀疏数据聚类的效果,论文针对高维稀疏数据的特点,提出了两种不同的高维稀疏数据聚类算法。一是针对区间变量的高维稀疏数据,算法采用两次聚类分析,初次聚类对数据对象进行简单聚类,再次聚类在初次聚类结果上做进一步细分,从而达到提高聚类质量目的;另一种算法则是针对二态变量的高维稀疏数据,本文提出一种新的计算对象组相似度的函数,并研究相应的对象组特征向量,算法利用对象组特征向量可加性特点实现对高维稀疏数据的聚类分析。实验结果显示,这两种算法在高维稀疏数据聚类分析方面也能得到不错的效果。 最后,论文以移动话务数据为基础,基于所研究的算法设计出一个小型应用系统原型,该原型系统能对高维数据进行聚类分析,并可为企业提供决策支持,显示了论文研究结果具有良好的推广应用价值。
其他文献
文本分类是数据挖掘、机器学习中的一项基本技术。文本分类中通常要把文本表示成多维特征构成的向量。原始的特征空间维数通常很高,不仅会导致分类的效率低下,而且由于噪音特征
在信息时代,科学数据成为重要的科技资源,对科学研究、科技创新起着显著的基础支撑作用。而众多的科学数据是通过野外观测采集到的,特别是对于农业、地理、生态等学科领域。通常
学位
Maze是一款在教育网内非常流行的P2P文件共享系统,用户在上传资源的同时不仅贡献了文件资源本身,还贡献了自身的存储空间及网络资源。为了更好的利用用户资源,提高资源可下载性
分布式虚拟现实系统正受到各行各业越来越多的关注,在先进的计算机技术支持下,人们可以在虚拟的世界中进行对真实情况的仿真模拟,达到节约成本预知结果的目的。   大规模分布
无线通信技术的迅速发展给移动车载系统提供了广阔的发展空间和应用前景。车联网可以实现车辆内部网与外部网的信息交换,并与现有的互联网整合起来,实现社会与车辆系统的整合
数字集成电路的设计错误注入技术在功能验证中具有重要的意义,可用于评估验证质量和指导激励生成。然而根据调研分析,学术界并没有通用的设计错误注入方法和公开的设计错误注入
近年来,矿井安全监控系统在煤炭工业上的运用越来越广泛,但是还存在着效率低,开发时间长,可靠性差等问题。因此利用组态技术建立一套完善的矿井安全监控组态软件为解决上述问
随着嵌入式技术的发展和硬件设备的价格下降,嵌入式系统的存储能力迅速提高;另一方面,应用中产生的数据也在日益增加,这些数据亟需管理,因此嵌入式文件系统的重要性显得愈加
随着多媒体应用的普及,相关技术(如:堆存储、视频压缩,以及高速网络等)得到了进一步的推广。目前磁盘容量和性能之间的差距越来越大,而且内存的性能增长速度也远远大于磁盘性
汽轮发电机组是电力生产的重要设备,由于其设备结构的复杂性和运行环境的特殊性,汽轮发电机组的故障率一直比较高,故障危害性也很大。因此,汽轮发电机组的故障诊断一直是故障诊断技术应用的一个重要方面。汽轮机振动信号中一般含有大量的噪声,要求对振动信号进行消噪。在研究了Donoho阈值消噪的基础上,提出了阈值量化的新定义,并实现了一种基于遗传算法的信号消噪方法,通过引入了γ估计因子,对估计因子的遗传优化来实