论文部分内容阅读
伴随经济与技术的发展,网络通信已经成为国民生活的重要工具之一,需要时刻保持稳定与安全。网络优化是实现这一任务的重要手段,而网络优化的前提是必须清楚掌握当前网络的基本运行情况。本文针对传统的依靠人工分析网络数据所带来的低效率性,结合网络数据量巨大这一特点,提出将大数据挖掘技术应用到网络分析过程中。首先对数据进行预处理,然后对数据中存在的异常小区进行检测并去除,接着对去除异常小区后的小区网络数据进行聚类,将相近网络特性的小区划为一类。最后针对每一类的小区进行数据分析,获取当前网络的运行情况并提出网络优化方案。对于异常小区的检测,采用改进的局部异常点(LOF)检测算法。该算法将LOF算法与网络数据的密度分布情况相结合,通过网络数据的密度分布情况确定异常点的个数,并获得异常点集D1。然后使用LOF算法来确定相同个数的异常点集D2。取D1与D2的交集作为最终的异常点集。开源数据上的仿真证实了该算法具有较高的精确率和较低的误报率,同时克服了LOF算法必须知道异常点个数这一缺点。在小区聚类算法上,使用了改进的K-means聚类算法。传统的K-means聚类算法具有初始聚类中心选择随机性及需要手动输入聚类个数两大缺陷。改进的聚类算法依照一定的规则选择那些密度较大又相互排斥(距离较远)的点作为初始聚类中心,同时选择平均类间最大相似性系数(DBI)最小时的聚类中心个数作为最终的聚类个数。改进后的算法能够一边优化聚类中心,一边确定聚类个数。开源数据上的仿真证实了该算法准确性高,收敛速度快且误差值小。最后,针对聚类之后的每一类小区进行网络特性分析。分析网络连接设备,网络利用率及网络掉线情况之间的关系。每一种网络掉线情况下,都求出一个网络可接入性裕度。并根据网络的可接入性裕度提出网络优化方案,避免网络过载。