论文部分内容阅读
通信以及网络技术的高速发展极大的丰富了人们的生活。但网络安全的漏洞造成了大量的个人信息泄漏,进而导致骚扰和诈骗电话等异常电话像病毒一样蔓延在人们的日常生活中。为了降低由异常电话带来的财产损失和困扰,许多研究人员提出了一些异常电话检测的解决方案。但是现有的工作更多的是关注人群的数据标注,忽略了特征挖掘的有效性和数据分布带来的影响。这些检测方法大多数为被动的检测,不能及时、主动的给出准确的预测。电信运营商通过构建数据中心存储了海量的电信用户行为记录,这些大数据为主动识别异常电话提供了新的机会。如何从海量数据中准确的获取能代表用户类别的用户行为特征、构建异常电话识别模型进而主动的识别异常电话,成为通信运营商和研究人员迫切关注的问题。本文研究了一种基于特征挖掘和集成学习技术相结合的异常电话检测模型,主要工作如下:1、提出一种电信数据预处理和特征提取分析方法(Data preprocessing and Feature extraction analysis,简称DF)来处理电信数据,并对用户历史行为数据进行特征提取、分析与特征降维。首先对电信样本数据进行预处理,并从七个大的维度充分挖掘电信用户信息进行特征提取、分析,最后通过降维算法建立了一套完整的电信用户行为特征体系’TF。2、提出一种基于同质集成的异常电话识别方法(Detecting Abnormal Phones based on Homogeneous Integration,简称DAPHoI)。在DAPHoI方法中,本文提出了一种DF+Bagging框架,首先将数据经过DF方法处理,接着通过Bootstrap采样形成不同的训练集并根据传统机器算法和神经网络算法分别训练基学习模型M+b,然后通过投票法分别对M+b模型进行不同数目的集成构建最终的异常电话识别模型。3、提出一种基于异质集成的异常电话识别方法(Detecting Abnormal Phones based on Heterogeneous Integration,简称DAPHeI)。在DAPHeI方法中,将数据经过DF方法处理,通过Bootstrap和SMOTE两种算法分别对数据进行采样,并根据传统机器算法和神经网络算法分别训练基模型M+b、M+s。接着采用不同的集成策略构建模型:第一种通过投票法集成不同数量不同类型的M+b基模型构建异常电话识别模型;第二种在基模型M+s的基础上增加元学习器构建两层框架的异常电话识别模型FEMELD。本文在真实的电信数据上进行了多组对比实验。实验结果表明,传统的分类模型和神经网络模型在加入我们的框架后,效果可以获得显著的性能提升。特别的是本文的FeMELD模型准确率、F1分数和召回率分别达到96.6%、96.7%和98.1%,实验结果表明模型能够主动的、精准的识别出所需要的异常电话。