论文部分内容阅读
随着中国电信体制的改革与重组,中国电信市场环境发生了根本性的变化。中国电信服务市场逐步形成了从最初个别运营商垄断市场到数家大运营商竞争的新格局。而电信运营企业作为经营电信业务的服务商又有着自己独特的客户特性与市场特性:电信业的客户具有多元性;电信客户的需求特征具有多样性,表现出极大的行业特征及业务量特征;电信业的服务比重大,电信产品更新率高;另外,客户使用电信服务的随机性强,用户稳定性差,用户对电信业务运营商的选择权多了。面对一个全新的、更加激烈的、国际国内全方位的市场竞争环境,国内电信运营商迫切需要一个能为电信企业的资费、营销、规划等多个方面决策提供必要支持的有力利器—电信运营分析与决策支持系统。而这个利器又必须具备数据挖掘功能。数据挖掘是近年来伴随着人工智能和数据库技术发展而出现的一门新兴技术。它的核心功能是从巨大的数据集或数据仓库中获取有用信息,以供企业分析和处理各种复杂的数据关系。随着电信市场竞争的日益加剧,运营商普遍开始向“客户驱动”管理模式转变。最近几年,数据挖掘技术以其强大的数据分析功能被普遍应用到电信运营商客户关系管理、营销等活动之中。本文主要研究电信运营分析中的数据挖掘。在对企业数据仓库的构建方式进行了深入分析之后,在前人的基础上,提出了数据挖掘在电信行业中的应用研究的观点,并针对电信行业的具体特点提出了应用于电信行业中客户呼叫模式的关联分析的挖掘算法—基于分区的散列算法,和应用于客户细分的基于网格的模糊聚类算法。基于分区的散列算法是对常用的关联分析的有益补充,实现了对海量数据分区的设计,极大地减少了数据库的扫描次数,同时很好的实现了散列技术和分区技术的融合,既说明了数据挖掘模块设计的可行性,同时也针对电信行业的特点,有针对性地改进了电信行业中应用到的各种挖掘算法性能;基于网格的模糊聚类算法是基于网格聚类和基于密度的聚类算法的混合,是在电信客户特征的聚类识别应用中具体实现的,学术界对海量数据的挖掘研究方兴未艾,希望通过本论文的探讨可以为目前在电信行业中构建、实施数据仓库的研究提供有价值的参考。另外,本文将自然界中的“万有引力”思想引入网格状数据空间模型,即首先将数据空间划分为有限个单元的网格结构,所有的处理都以单个的单元格为对象,而在处理每个单元格之前先根据“万有引力”原理将周围单元格中的那些与本单元格“关系更密切”的数据吸引过来,这样位于单元格边界附近的数据就被重新分配到对它“吸引力大”的单元格中,这样相当于模糊了单元格的边界。从而解决了传统网格聚类中没有考虑和其相邻单元的关系,克服了结果簇的边界要么是水平的,要么是竖直的,没有对角的边界的缺点。同时消弱了网格边界过硬的问题,它将对电信运营分析与决策支持系统的建设有着重要的指导意义,并在实际系统的建设过程中发挥着重要的作用。