基于集成学习的异常电话识别分析与建模

来源 :济南大学 | 被引量 : 0次 | 上传用户:wuweiguowwg32691819
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通信以及网络技术的高速发展极大的丰富了人们的生活。但网络安全的漏洞造成了大量的个人信息泄漏,进而导致骚扰和诈骗电话等异常电话像病毒一样蔓延在人们的日常生活中。为了降低由异常电话带来的财产损失和困扰,许多研究人员提出了一些异常电话检测的解决方案。但是现有的工作更多的是关注人群的数据标注,忽略了特征挖掘的有效性和数据分布带来的影响。这些检测方法大多数为被动的检测,不能及时、主动的给出准确的预测。电信运营商通过构建数据中心存储了海量的电信用户行为记录,这些大数据为主动识别异常电话提供了新的机会。如何从海量数据中准确的获取能代表用户类别的用户行为特征、构建异常电话识别模型进而主动的识别异常电话,成为通信运营商和研究人员迫切关注的问题。本文研究了一种基于特征挖掘和集成学习技术相结合的异常电话检测模型,主要工作如下:1、提出一种电信数据预处理和特征提取分析方法(Data preprocessing and Feature extraction analysis,简称DF)来处理电信数据,并对用户历史行为数据进行特征提取、分析与特征降维。首先对电信样本数据进行预处理,并从七个大的维度充分挖掘电信用户信息进行特征提取、分析,最后通过降维算法建立了一套完整的电信用户行为特征体系’TF。2、提出一种基于同质集成的异常电话识别方法(Detecting Abnormal Phones based on Homogeneous Integration,简称DAPHoI)。在DAPHoI方法中,本文提出了一种DF+Bagging框架,首先将数据经过DF方法处理,接着通过Bootstrap采样形成不同的训练集并根据传统机器算法和神经网络算法分别训练基学习模型M+b,然后通过投票法分别对M+b模型进行不同数目的集成构建最终的异常电话识别模型。3、提出一种基于异质集成的异常电话识别方法(Detecting Abnormal Phones based on Heterogeneous Integration,简称DAPHeI)。在DAPHeI方法中,将数据经过DF方法处理,通过Bootstrap和SMOTE两种算法分别对数据进行采样,并根据传统机器算法和神经网络算法分别训练基模型M+b、M+s。接着采用不同的集成策略构建模型:第一种通过投票法集成不同数量不同类型的M+b基模型构建异常电话识别模型;第二种在基模型M+s的基础上增加元学习器构建两层框架的异常电话识别模型FEMELD。本文在真实的电信数据上进行了多组对比实验。实验结果表明,传统的分类模型和神经网络模型在加入我们的框架后,效果可以获得显著的性能提升。特别的是本文的FeMELD模型准确率、F1分数和召回率分别达到96.6%、96.7%和98.1%,实验结果表明模型能够主动的、精准的识别出所需要的异常电话。
其他文献
在很多的影视剧当中,场景的氛围需要进行精心细致的设计,以烘托出剧中人物或是剧情所要表达的情感,对于一部影视剧来说,关于场景的设计在剧中显得极为重要,想要充分地表达剧
期刊
~~
党的政治规矩是党员、干部的政治底线,一旦游离政治规矩,突破政治底线,就必然要走向错误乃至腐败;党的政治规矩是维系党内团结、保持党的先进性的政治生命线,一旦规矩松弛,失
<正>在高等教育规模迅猛扩张、高校更加致力于知识创新、管理改革的今天,如何保证和提高本科教学质量,是社会及各高校普遍关注的重大课题,因为人才培养是高等学校的根本任务,
采用婚姻调适测定量表和幸福感指数、总体情感指数量表对1553名福建已婚女性居民进行调查分析。Logistic回归分析显示,控制混杂因素后,婚姻调适不良是导致福建已婚女性居民幸
公司要持续创造价值,就要兼顾短期绩效和长期增长。公司治理和公司战略是公司价值创造的两大工具;投入资本回报率和增长能力是公司价值创造的根本驱动因素。本文立足于公司治
“马克思主义中国化”是一个对待马克思主义与中国实际关系的总体性概念,它包含了马克思主义必须在中国具体化和中国实际必须马克思主义化的双向互动过程。“中国革命实际马