自适应多趟聚类算法在无线网络数据中的研究与应用

来源 :广东工业大学 | 被引量 : 3次 | 上传用户:kabasiji2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是指从数据库中发现隐含的、新颖的、对决策有潜在价值的知识和规则的过程,已经在许多领域得到了广泛的应用。聚类分析是数据挖掘领域最为重要的技术之一,在理论和方法上都取得了丰硕的研究成果。无线网络数据是电信数据的重要组成部分。来源于我国某区域的用户语音通话信息,包含用户标识、通话质量等属性,这些属性属性共同决定了用户的通话质量。文中对无线网络数据的研究,着眼于用户语音状况,寻找提高企业服务质量的方案,助其因地制宜地为用户提供优质服务。无线网络数据集规模庞大,适于数据挖掘的研究,而聚类算法处理后的数据,用户记录被分为多个簇,簇内的相似度较高,簇间的相似度较低。针对具体簇内的信息,结合簇间差异性,得出聚类结果并分析。根据数据集特征,选择合适的聚类算法对结果至关重要。当今的聚类算法,根据各自的特性,可以划分为若干类。每种聚类算法都有自己的适用范围,在实际应用中,需要根据具体数据集选择聚类算法。KSummary聚类算法能够较好的处理分类属性及混合属性数据集。该算法提出用摘要信息表示一个簇,对分类属性的处理方法,相比用取值频率最高的属性值来代表整个属性值的取值方法,摘要信息的表示方法偏差更小,特别是在不同取值频度差异不大的情况。但是该算法还存在一些缺点:当数据规模达到一定程度时,聚类个数K难以确定;算法对初值敏感;初始聚类中心选取不当,算法易陷入局部最优解。本文提出使用自适应多趟聚类分析方法对KSummary方法进行改进,针对KSummary算法在聚类个数及初始聚类中心选择上的问题,引入层次和密度聚类,对数据集进行多趟聚类。第一趟,层次聚类用以确定聚类个数k;第二趟,密度聚类用以获得较准确的初始聚类中心点;第三趟,迭代重定位,处理数据用以得到最终聚类结果。通过在数据集上的实验结果和分析表明,自适应多趟聚类的分析方法有效地克服了KSummary算法的缺点,并且能够得到稳定、收敛、精度更高的结果。最后,将自适应多趟聚类分析方法应用于无线网络数据集。影响通信质量的因素有很多,为了更准确的分析出上行信息与下行信息在这些因素中的重要性,将两者分开,获得两个数据集,分别对两个数据集进行聚类。分析两个聚类中簇的信息,交叉比较两个聚类结果中特性相近的簇,得出实验分析图表,分析这种现象的原因,企业据此设置合适的基站布局。
其他文献
基于脑机接口的动物机器人系统,是以动物为载体,将外部控制指令转化为各种形式的有效刺激施加给动物大脑,从而直接干预动物的感受并控制其行为。随着实际应用的需求越来越迫切,精
计算机系统安全问题日益突出,异常检测技术由于具备检测未知攻击的能力越来越受到普遍关注。异常检测可以分为基于网络和基于主机的异常检测,本文讨论主要是基于特定主机尤其
随着计算机技术与网络通信行业的迅猛发展,人们对高速运动状态下信息传递、获取需求越来越强烈。无论是无人机空中作战指挥,还是地面上移动车辆之间的协同等,都需要高速移动
随着计算机和通信技术的发展,个人及企业的电子文件数量也在不断地增长,这些文件中不乏一些需要个人和企业保密的重要文件。由于个人及企业员工安全意识或者防范能力较差,导
P2P技术的诞生给数据集成领域带来了强大的发展动力。传统的集中式数据集成系统具有系统性能依赖服务器这一系统短板,结合P2P和数据集成系统两者优势而诞生的P2P数据集成系统
随着互联网技术的不断发展和普及,信息技术为多媒体信息的收发和存取提供了极大的便利,也使信息之间的交流达到了从未有过的广度和深度。信息隐藏利用其伪装这一特点在信息安全
Web服务组合的目标是通过简单服务的组合形成以满足需求的新服务,这个目标的完成是通过相对简单的Web服务交互的设计。但Web服务组合的执行过程中,复杂的需求的互动往往涉及
学位
随着蒙古文信息处理技术的发展,研究内容越来越深入,如何保证文本的正确性,显得越来越重要。因此,校对的工作量也随之增大,对于飞速增长的电子文本,人工校对的方法已经无法满
随着近些年互联网的飞速发展,Internet已经发展成为一个庞大的发布和共享信息资源的平台。但是如何从海量、无结构或半结构化的数据中快速、高效地获取用户所需的信息仍然是亟