论文部分内容阅读
随着电信市场的迅速发展,目前我国通信设备的覆盖率已到达了很高的水平,手机用户的数量逐年增加。电信运营商要保持市场的高效运作,必须依据不同地区,根据不同的人群来划分不同的收费标准,同时应采取运营策略防止用户出现大额欠费现象和欠费换号现象。而电信客户是一个庞大的群体,如何通过分析大量的信息来进行运营决策是目前的一个难题,数据挖掘技术在海量信息处理方面的优势使得数据挖掘在电信领域中有了更广阔的应用空间。数据挖掘中的聚类技术可以将要处理的对象聚类分析,应用在电信市场分析中,表现为能从客户基本库中发现不同的用户群,并且刻画出不同客户群体的特征。本文就是基于电信欠费用户的特征,在现有算法的基础上提出适合电信行业数据特征的聚类分析算法,以此分析出电信用户的欠费特点,为电信制定相应措施提供理论依据。本文主要研究工作有:首先对聚类算法进行研究,在模糊C-均值(FCM)聚类算法基础上,提出基于信息熵的FCM算法。此算法的优点是首先利用信息熵来对聚类中心进行初始化,从而确定聚类中心的个数,以此降低初始聚类对算法产生的误差,然后结合类合并的思想,将大簇或任意形状的簇分割成多个小簇,再根据类合并的条件将各个小簇合并,这样就可以解决不规则数据集的聚类。之后又在基于信息熵的FCM算法的基础上引进加权因子,使得算法在聚类过程中对聚类中心的位置不断调整,从而更加接近实际的中心位置,算法的迭代次数也要少于传统的FCM算法,使得算法的运行效率得到了很大提高。而且加权因子的引入使得算法能够对孤立点进行一定的分析处理,提升了算法的精确度。最后应用实例证明了基于熵加权的FCM算法的高效性。其次将改进的算法应用到电信欠费数据的分析中。本部分首先将电信数据库中有关计费的属性提取,对数据进行清洗操作,将所研究数据转化为符合算法输入的标准数据格式,然后分别用FCM算法和改进算法对数据进行聚类,得出聚类结果并进行比较。通过比较发现改进算法的聚类结果比较理想,这也证明了算法的实用性。同时,通过对欠费数据的分析,挖掘出了数据中的隐含的信息,从而可以为电信运营商提供可靠的欠费应对策略。本文的创新处与成果在于:(1)在FCM聚类算法的基础上提出了基于信息熵的FCM算法,降低初始聚类对算法造成的误差,同时也提升了算法的运行效率。(2)在基于信息熵的FCM算法的基础上又引进了加权参数,更进一步提升了初始聚类中心位置的精准度。(3)将改进的算法应用到电信欠费数据的分析中。一方面证明了算法的实用性,同时也为电信运营商制定相应的策略提供了理论依据。