海量电信数据的挖掘与异常分析

被引量 : 8次 | 上传用户:jackind
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学研究、通信技术、IT技术的快速发展,电信业务的数据量急剧增长,而电信行业间日益激烈的竞争也使电信运营商更加需要注重网络和服务的质量来提高行业竞争力。如何从大量数据中获取异常但有用的潜在信息是异常挖掘的主要任务,也是通信网络优化和获得良好的服务质量的关键。本文对相关的数据挖掘和并行计算技术展开了一系列研究,旨在从海量电信数据中挖掘异常信息,指导通信网络优化和服务质量提高。本文首先根据超频用户的特点,提出了结合离群点检测算法和聚类系数的异常分析算法,其中离群点检测算法改进了基于密度的LOF算法,主要体现在采用SimHash算法改进原LOF算法中的性能瓶颈K近邻查找算法。然后结合乒乓切换的特点,提出了利用多标签分类算法来进行乒乓切换解决方案预测,以随机游走图的多标签分类算法为基础,结合全概率公式和随机过程实现多标签分类算法。为了使本文中改进的算法能适用于大数据,所有的算法利用MapReduce的编程框架进行编写,并利用空间换时间的原理降低了算法的时间复杂度,实现了并行计算的目的。通过对多种实验数据的大量实验证明,本文中提出的并行超频分析算法和并行乒乓切换方案预测算法有较高的准确率和较大的性能优势。最后本文给出了异常分析的原型系统设计,结合Hive和MapReduce编程实现了对原始数据的预处理,并依据不同的业务逻辑进行了ETL和统计。通过并行化的不同数据挖掘算法的分析,得到具有业务意义的数据分析结果,并且在前台界面予以展示本文将不同的机器学习的算法引入专题应用,克服了人工进行异常检测的效率低下和正确率容易受主观因素影响等缺点。通过大量的实验说明,本文中提出的异常分析方法和系统相对传统的异常分析系统有很大的优势。
其他文献
慢性淋巴细胞白血病(CLL)是一种以成熟B淋巴细胞在外周血、骨髓、脾脏和淋巴结等部位聚集为特征的淋巴系统恶性增殖性疾病。该病为欧美国家发病率最高的成人白血病,多见于老
在中国美术史中由唐朝画家张璪提出的"外师造化,中得心源"中"心源"便是指画家的主观情感。这句话的意思是艺术创作既要遵循大自然,又要通过艺术家内心的感受和提炼。正如徐复
微博图书,开创了传统出版的新领域,本文在梳理微博图书发展脉络的基础之上,通过分析具有代表性的微博图书个案来研究其发展现状,并深入分析微博与实体书在媒介属性、内容属性
2008年国际金融危机过后,国际经济政治的秩序发生了较大变化,不稳定因素增多。在这样的环境下,中国作为一个迅速崛起中的经济大国受到国际社会越来越多的关注,而作为对外经济联系
随着我国社会经济、汽车工业和城市化、城镇化的快速发展,我国城镇居民人均汽车保有量迅速增加,而城市交通网络条件改善缓慢,交通拥堵逐渐成为制约城市居民出行的瓶颈。同时
在以间接金融为主的甘肃,银行信贷资金实至名归的成为其国民经济发展血液,支撑着该地区的经济增长。但资金作为一种资源与生俱来具有稀缺性,因而,不断提高信贷资金的配置效率
自1987年《中华人民共和国民法通则》生效、民事侵权正式进入司法审判之后,以侵害名誉权、隐私权和肖像权等人格权为由起诉记者和新闻单位的案件——即“媒体侵权”持续增多,
随着我国医改的不断深入,公立医院薪酬制度的改革迫在眉睫。针对医务人员普遍认为所获得薪酬小于付出、公立医院薪酬制度缺乏顶层设计、公立医院相关政策有待完善、绩效考核
苏区或革命根据地,是中国共产党在土地革命战争时期实行局部执政的实验田。由方志敏、邵式平、黄道领导创建的闽浙皖赣苏区(又称赣东北或闽浙赣苏区),在中华苏维埃运动史上有极
车联网管理平台是中国电信车联网系统中的中枢管理平台,本文的主要工作是对该平台的空中服务功能和统计管理功能进行设计实现。在互联网、计算机等信息技术飞速发展的今天,在