论文部分内容阅读
数据挖掘是指从数据库中发现隐含的、新颖的、对决策有潜在价值的知识和规则的过程,已经在许多领域得到了广泛的应用。聚类分析是数据挖掘领域最为重要的技术之一,在理论和方法上都取得了丰硕的研究成果。无线网络数据是电信数据的重要组成部分。来源于我国某区域的用户语音通话信息,包含用户标识、通话质量等属性,这些属性属性共同决定了用户的通话质量。文中对无线网络数据的研究,着眼于用户语音状况,寻找提高企业服务质量的方案,助其因地制宜地为用户提供优质服务。无线网络数据集规模庞大,适于数据挖掘的研究,而聚类算法处理后的数据,用户记录被分为多个簇,簇内的相似度较高,簇间的相似度较低。针对具体簇内的信息,结合簇间差异性,得出聚类结果并分析。根据数据集特征,选择合适的聚类算法对结果至关重要。当今的聚类算法,根据各自的特性,可以划分为若干类。每种聚类算法都有自己的适用范围,在实际应用中,需要根据具体数据集选择聚类算法。KSummary聚类算法能够较好的处理分类属性及混合属性数据集。该算法提出用摘要信息表示一个簇,对分类属性的处理方法,相比用取值频率最高的属性值来代表整个属性值的取值方法,摘要信息的表示方法偏差更小,特别是在不同取值频度差异不大的情况。但是该算法还存在一些缺点:当数据规模达到一定程度时,聚类个数K难以确定;算法对初值敏感;初始聚类中心选取不当,算法易陷入局部最优解。本文提出使用自适应多趟聚类分析方法对KSummary方法进行改进,针对KSummary算法在聚类个数及初始聚类中心选择上的问题,引入层次和密度聚类,对数据集进行多趟聚类。第一趟,层次聚类用以确定聚类个数k;第二趟,密度聚类用以获得较准确的初始聚类中心点;第三趟,迭代重定位,处理数据用以得到最终聚类结果。通过在数据集上的实验结果和分析表明,自适应多趟聚类的分析方法有效地克服了KSummary算法的缺点,并且能够得到稳定、收敛、精度更高的结果。最后,将自适应多趟聚类分析方法应用于无线网络数据集。影响通信质量的因素有很多,为了更准确的分析出上行信息与下行信息在这些因素中的重要性,将两者分开,获得两个数据集,分别对两个数据集进行聚类。分析两个聚类中簇的信息,交叉比较两个聚类结果中特性相近的簇,得出实验分析图表,分析这种现象的原因,企业据此设置合适的基站布局。