一种改进的基于通话行为特征的骚扰电话检测方法

来源 :锦绣·下旬刊 | 被引量 : 0次 | 上传用户:ljyxq13571302523
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:移动通信的快速发展为人们带来了便利,同时也伴随着商业目的的营销甚至一些非法信息的传播,导致骚扰电话的泛滥。骚扰电话已成为用户投诉电信运营商的重要原因之一,也对通信设备的负荷造成了重大影响。本文通过对用户通话行为特征进行分析,从运营商数据中提取了包含传统特征的多维融合特征,如平均通话距离、外卖时间占比、物理位置变化率等生成骚扰电话识别模型,有效地识别了骚扰电话,同时降低了快递外卖以及一些社区医院、水站等符合社区居民利益的正常电话的误检测率,并通过投诉数据和实际检测结果不断优化已有模型,提高识别准确率。
  关键词:骚扰电话;运营商数据;通话行为特征
  Abstract: The rapid development of mobile communications has brought convenience to people, accompanied by marketing for commercial purposes and even the spread of some illegal information. The proliferation of harassing calls has become one of the important reasons for users to complain to telecom operators, and has also caused a significant impact on the load of communication equipment.This article analyzes user call behavior features and extracts multi-dimensional fusion features including traditional features from operator data, such as average call distance, take-out time ratio, and physical location change rate to generate harassing phone recognition models. It reduces the false detection rate of delivery and some normal calls such as community hospitals and water stations, and optimizes existing strategies through complaint data.
  Keywords: harassing calls; mobile operator data; call behavioral feature
  1 引言
  随着移动通信业务不断发展,移动通信在给人们带来了便利的同时,也使一些人为了商业目的而进行电话营销、骚扰。其中骚扰电话的泛滥已成为用户投诉电信运营商的重要原因之一,也对通信网络设备的负荷造成了重大影响[2]。2018年7月30日,工信部等13个部门联合发布《综合整治骚扰电话专项行动方案》的通知,通知里提出,即将在全国范围内严厉整治骚扰电话乱象。
  本文首先通过对运营商信令数据和话单数据进行分析,得出典型场景下的骚扰电话的通话行为特征。然后通过大数据技术[4],对运营商的信令监测数据进行计算,得出每个用户的通话行为特征值,生成骚扰电话识别模型,经过识别模型的过滤,得出疑似骚扰电话号码。最后通过投诉数据调整模型阈值,进一步优化模型的准确性。
  2 骚扰电话行为特征分析
  2.1 通话行为特征概括
  骚扰电话由于其特殊的目的,与正常呼叫电话的通话行为上存在比较明显的区别。经过调查研究,总结出现有网络环境中骚扰电话存在如下特点。
  1)骚扰电话的呼叫频次高;
  2)骚扰号码呼出与呼入的比例高;
  3)骚扰电话的骚扰目标离散度高;
  4)被骚扰号码的相关性较小;
  5)骚扰电话的通话时长较低,且被叫先挂机的概率大;
  6)骚扰号码与所有的被骚扰号码间的重复通话次数相对较少;
  7)骚扰电话的物理位置变化较小,常常在同一个地方产生大量外呼;
  8)真实的骚扰电话常常配有多个终端、多张手机卡,往往一张卡被关停后更换另一张卡继续拨打骚扰电话。
  2.2 传统特征和多维融合特征分析
  基于以上对通话行为的特点进行分析,本文从如下多维融合特征来考量骚扰电话的判别依据。
  各維度的含义及计算方式如下。
  1)主叫频次:指某一号码作主叫时的试呼次数。
  2)忙时主叫频次:指工作时间段的主叫频次。
  3)主叫占比:指某一号码作为主叫时的频次与其作为主叫和作为被叫的总频次之和的比值。
  4)被叫号码离散度:指某一主叫对应的所有被叫号码去重后的数量与该主叫号码的主叫频次的比值。
  5)被叫空间离散度:指某一主叫对应的所有被叫号码的归属地去重后的数量与中国省份数量的比值。
  6)外省呼叫占比:指某一主叫拨打外省的频次在其主叫频次所占的比重。
  7)接通率:指某一主叫号码外呼的所有电话中被接通的次数的占比。
  8)平均通话时长:指某一主叫号码所有被接通的通话记录的通话时长的平均值。
  9)平均振铃时长:指某一主叫号码所有外呼记录的振铃时长的平均值。
  10)ci去重后数量:指某一主叫号码所有外呼记录中的ci值(或cell值)去重后的数量。
  11)物理位置变化率:指某一主叫号码的ci去重后数量与主叫频次之比。   12)外卖时间占比:指某一号码在外卖时间(11:00-14:00,17:00-20:00)外呼的频次与主叫频次的比值。
  13)15秒以下通话占比:指某一主叫号码通话时长小于15秒的记录数量与主叫频次之比。
  14)个人名下黑名单数量:指某一主叫号码对应的使用人,其名下已被判定为骚扰电话号码的数量。
  2.3 信令数据介绍与处理
  2.3.1 信令数据
  针对投诉率居高不下的痛点,我们利用信令数据、精分数据和话单数据,综合第三方标记数据库,全面分析了所有用户的通话行为特征。
  2.3.2 数据处理
  本文使用的数据主要包括用户的mc口数据、nc口数据、4g(VoLTE)信令系统接口数据、话单数据和用户签约数据。
  1)不同来源的信令数据聚合
  2)号码和IMSI对应补全
  3 多维融合特征模型
  由于特征选取的丰富性,本文将多维融合特征模型的所有判定策略分为基础策略模型、主叫策略模型、信息关联策略模型和专题模型。
  3.1基础策略
  考虑到所有骚扰电话的共同特点主要有:主叫频次高、同一主叫号码对应的被叫号码离散度高、主叫占比高。此外,主要治理本省骚扰电话,故主叫归属地都为本省。
  3.2主叫行为策略
  基础策略中使用的特征维度为几乎所有骚扰电话的通用特征,排除这些通用特征后,其他一些特征如忙时主叫频次、平均通话时长、外省呼叫占比、平均振铃时长、接通率、位置信息等也可以作为判断骚扰电话的特征维度。
  3.2.1工作日高频骚扰策略
  工作日高频骚扰指在工作日忙时(08:00~12:00,14:00~18:00)主叫频次超过50次/小时且平均通话时长小于30秒,且外卖时间占比小于60%,则判定该主叫号码为疑似工作日忙时高频骚扰号码。
  3.2.2本省用户对外地用户的骚扰策略
  本省用户对外地用户的骚扰指主叫为本省,被叫外地的通话记录的占比超过90%,且平均通话时长小于30s时,则判定该主叫号码为疑似本省用户对外地用户骚扰号码。
  3.2.3物理位置不变
  物理位置不变是指骚扰电话拨出的位置不变,判定条件是时间类型为主叫,一段时间内主叫号码位置信息不变,且平均通话时长小于30s,如同时满足上述三个条件,则判定该主叫号码为疑似物理位置不变骚扰号码。
  3.3信息关联策略
  3.3.1个人身份信息关联策略
  个人身份信息关联是指同一个人身份证下的骚扰电话数量超过3个,则将该身份证下的其他号码也加入骚扰电话黑名单。
  3.3.2设备信息关联策略
  设备信息关联是指某一主叫号码对应的IMEI号若已存在IMEI黑名单中,则将该IMEI下的其他号码也纳入骚扰电话黑名单。
  3.4专题策略
  3.4.1贷款理财策略
  贷款理财类骚扰电话通常针对特定年龄段(18~35)的人群,这类人群有比较强烈的信贷消费需求,如买房买车等。本文通过被叫的年龄信息和接通率来判定是否归属贷款理财类骚扰电话。
  4 实验结果与评估
  4.1 策略模型流程
  将所有的信令数据、话单数据和用户签约数据采集过来后,首先进行数据清洗和初步处理,将所有的数据进行聚合汇总,形成一张聚合表。再按照各维度的特征值对所有的主叫号码进行过滤,找出能被各策略命中的疑似号码。
  需要注意的是,基础策略和主叫行为策略、专题策略需要配合使用。信息关联策略与基础策略则相互独立,依赖历史数据中的黑名单。对于曾经被关停过的骚扰电话号码,若新得到的号码其IMEI号与黑IMEI号相同,则直接进行关停。
  4.2 传统特征模型和多维融合特征模型对比计算
  选取连续一周的号码进行检测,其中多维融合特征模型连续一周的准确率超过95%,而传统特征模型连续一周的准确率最高为80.2%,最低为59.9%,说明新添加的特征对快递外卖等正常号码的识别效果较好,有效地降低了识别误差。5 结论
  本文提出了一种改进的基于通话行为特征的骚扰电话检测方法。通过分析骚扰电话的通话行为特征,生成骚扰电话识别模型。利用大数据技术计算得到所有用户的通话行为特征值,然后经过模型识别过滤后得出所有骚扰电话号码。在传统的用户通话行为特征的基礎上,通过添加各维度融合特征,提出了一种多维融合特征检测模型,有效地减少了对快递外卖、社区水站、社区医院等非骚扰电话的误判率。进行第三方平台验证以及人工拨测验证,准确率达到95%以上,是一种可靠的骚扰电话检测方法。
  参考文献
  [1] 王彦青,王瀚辰. 一种识别骚扰电话的组合算法研究[J].电信科学,2017,33(7)112-119.
  [2] 刘剑. 基于数据挖掘技术实现骚扰电话识别[D]. 北京.中国地质大学(北京).2011
  [3] 王丹阳. 数据挖掘技术在骚扰电话监控系统的应用研究 [D].湖南大学,2010.
  [4] HUANG Y J, FENG M, DING S Y, et al. Discussion on the devolpment strategy of telecom operators[J]. Telecommunications Science, 2013, 29(3): 6-11.
  (中国移动通信集团天津有限公司)
其他文献
摘要:在小学数学的课堂教学中,培养学生浓厚的学习兴趣,有序推进教学指导工作,启发学生积极思考、大胆想象、主动探究,从而优化整体的教学效果,形成和谐的师生互动关系,是数学教师必须完成的艰巨任务。小学生学好了数学基础知识,实现了学科成绩的不断进步,熟练运用学习技能,在接下来的课堂实践中会有更加出色的表现。基于此,本文特意从几个方面出发,关于小学数学教学中有效培养学生学习兴趣的可行性策略进行了总结研究。
期刊
摘要:在小学阶段开展课程教学时,语文是其不可或缺的基础学科,在具体开展课程教学时,培养学生作文能力对学生语文素养具有极其重要的影响,教育人员必须对其加强重视,本文综合探究小学语文教学活动中培养学生作文能力的具体策略,分别从学生写作兴趣,写作能力,阅读指导,修改能力和作文评改五个方面展开具体论述。  关键词:小学语文;作文能力;培养  引言:  在进行小学语文教学时,作文教学是其极其重要的一项内容,
期刊
摘要:小学阶段是学生形成语文学科意识、丰富文学素养的关键阶段,对学生的心灵成长、情感体验起着积极的作用,有助于学生对文学世界与情感世界发生正向的反馈。小学语文教学中,单元整体教学法有助于学生对整体的把握,预先了解知识、掌握知识的内部联系。教师应该在小学语文课堂中合理融入单元整体教学法,激发出学生学习语文的兴趣,调动学生学习的积极性,使学生成为教学关系中的主体,引导学生学好语文。  关键词:单元整体
期刊
摘要:游戏化教学是适应幼儿身心特征的教学方式,幼儿园生成性课程是游戏化教学精神的具体实施。它从幼儿的兴趣作为出发点,以提升幼儿的能力为目的,教师通过对幼儿的观察,制定相应的游戏,让幼儿在游戏中探索,并得到相关经验获得成长。幼儿园生成性课程可以提高幼儿对知识的接收能力和应用能力,通过多样化的教学方式,提升幼儿的能力,完善幼儿的知识结构。本文主要围绕幼儿园生成性课程的实施策略展开讨论,希望可以对幼儿的
期刊
摘要:如今,每个幼儿园都有一亩三分的种植区,种植区种植活动是源于孩子的兴趣与主张,教师是活动的倾听者、支持者、合作者,活动中他们有趣的发现正是有价值的研究,深入的探索以及及时的记录也是关键,激发孩子们主动参与和亲身体验,促进他们知识、能力和情感方面的发展。  关键词:种植区;幼儿自主;教师指导  一、探究幼儿的关注点  孩子们在水稻边摸摸看看闻闻,我问:“你们有什么发现吗?”  小钰说:“叶子长长
期刊
随着6月13日零时起,湖北突发公共卫生应急响应级别降为三级,高中非毕业年级离返校越来越近,线上教学走向尾声。回顾线上教学,已有4个多月,付出了很多,也收获了很多。  4个月前,受新冠疫情影响,“停课不停学”要求,学校开始了线上教学。为提升教学实效,学校要求,以学科组为核心,加强集体备课;利用升学e网通等资源,提升教学效果;腾讯会议上课,增强互动,提升课堂实效;每日总结反思,强化监管,促进老师交流提
期刊
小学三年级是提高学生阅读能力的关键时期,统编教材从三年级开始,安排了略读课文,形成“精读”“略读”“课外阅读”三位一体的阅读体系。义务教育语文课程标准对阅读也提出明确的要求:“具有独立阅读的能力,学会运用多种阅读方法。”统编教材紧紧围绕这个课程标准编排了阅读,可见,提高学生阅读能力势在必行。那么在课堂教学中,我是怎样提高学生阅读能力的呢?下面,就我个人的做法略谈一二。  一、课内阅读要扎实  本册
期刊
一、问题提出  幼儿园教师专业标准(试行)中明确要求幼儿园教师应具有一定的现代信息技术知识。然而幼儿园教师在保教活动中存在多媒体软件操作、版面设计、多媒体课件在幼儿教育中的适宜性等方面的问题。毕志峰(2017)通过调查研究发现幼儿园使用多媒体课件存在以下问题:课件多来自外在资源;多媒体操作水平普遍一般;课件制作的熟练程度有待提高;多媒体在教学场景中的应用研究不够深入;幼儿的主体地位没有真正体现等。
期刊
摘要:午睡是幼儿一日生活中的重要环节,也是幼儿在生长发育过程中不可忽视的一部分。养成良好的午睡习惯不但可以使幼儿对下午的活动充满生机和活力,而且还可以促进幼儿身体正常发育和机能的协调发展,使幼儿身心受益。所以幼儿教师和家长要认识幼儿午睡的重要性,通过合理的方法帮助幼儿养成一个良好的午睡习惯,让幼儿享受睡眠带来的快乐。  关键词:小班幼儿;午睡;习惯  《3-6岁儿童学习与发展指南》指出幼儿阶段是儿
期刊
摘要:家庭教育指导是指以儿童家长为主要教育对象,由社会通过社会机构或者大众媒介以儿童家长为主要对象,以提高家长的教育能力和水平、改善教育行为为直接目标,以促进儿童身心健康成长为目的的一种教育过程。由于起步晚,目前我国幼儿园对家庭教育指导存在的一系列问题,针对我国家庭教育指导存在的问题,本文进行了一系列的研究。  关键词:幼儿;家庭教育;指导  一、家庭教育指导的相关概念的界定  (一)家庭教育  
期刊