【摘 要】
:
近年来,通过拨打电话、发送短信实施诈骗的违法行为屡屡出现,这给通信用户的日常工作与生活造成了一定的困扰甚至是威胁,有效识别并及时关停诈骗号码,成为各大运营商和公安部门亟待解决的问题。本文旨在通过数据挖掘技术,基于运营商用户多方面的通信行为数据建立预测精度较高且稳健的诈骗电话识别模型,并展开相关研究。本文先对诈骗电话识别问题已有的研究进行了梳理,并介绍了本文所用的研究方法。然后,以四川省某数据中心提
论文部分内容阅读
近年来,通过拨打电话、发送短信实施诈骗的违法行为屡屡出现,这给通信用户的日常工作与生活造成了一定的困扰甚至是威胁,有效识别并及时关停诈骗号码,成为各大运营商和公安部门亟待解决的问题。本文旨在通过数据挖掘技术,基于运营商用户多方面的通信行为数据建立预测精度较高且稳健的诈骗电话识别模型,并展开相关研究。本文先对诈骗电话识别问题已有的研究进行了梳理,并介绍了本文所用的研究方法。然后,以四川省某数据中心提供的某运营商用户的通信数据为样本,在对数据进行特征工程之后,先基于探索性数据分析探究了不同类型通信用户在用户基础信息和行为特征上的一些差异;随后建立模型,先选择了三个异质且性能相对较好的算法随机森林、GBDT和XGBoost进行建模,并在此基础上尝试对单个模型利用Soft voting和Stacking两种集成方法进行集成以提高预测精度和稳定性;选用F1Score作为预测准确性的主要评价指标、PSI作为模型稳定的评价指标;最后输出基于最优模型得到的特征变量的重要性排序,并基于预测的用户诈骗概率对其诈骗风险级别进行了划分。本文的最终研究结果表明:基于Stacking思想将三种模型集成后的结果是最优的,其F1Score为87.87%,PSI为0.0028;由最优模型输出的变量的重要性排序可知,在诈骗电话识别中重要程度比较高的变量有用户通话记录为空的月份数、月均外呼人数、月均外呼次数、户下卡数、开户地是否未知等;在本次研究中,使用“预测概率等间隔阈值划分”方法进行诈骗风险级别划分的效果是最优的,基于此可以为通信或公安部门针对不同风险级别的诈骗用户实施不同程度的干预提供参考。
其他文献
量化投资是金融市场上一种新的投资方式,它通过数学模型和统计方法进行决策,从而得到一个能够获得超额收益的投资组合。其中,多因子量化选股模型因其效率高、客观性强而受到业界和学术界的青睐。本文主要研究了如何将随机森林算法模型与支持向量机算法模型应用于多因子量化选股中,从而在不断变换风格的市场中取得高收益。本文首先选择了分布在估值类、盈利能力类、偿债能力类、经营能力类、成长类、行情类、技术类这7个大类共2
近几年,随着我国网络技术的高速发展和智能设施的不断升级,数字经济呈现迅猛发展的趋势,电商行业迎来发展机遇的同时也面临新的挑战。要想获得更多消费者的关注,电商平台就需要不断地实现领域创新,精准地了解用户的购买偏好,提升用户购买体验,占据市场竞争的有利地位。在如今信息爆炸的网络时代下,从海量真实的用户行为数据中挖掘出有价值的信息是研究的重点。本文采用机器学习算法预测电商用户的购买行为,并通过大数据技术
本篇论文的主要内容是论述网络平台企业社会责任法律化,我国《公司法》提出公司承担“社会责任”的要求。近年来,《网络交易平台经营者履行社会责任指引》《电子商务法》等文件也相继颁布,但是网络平台企业社会责任问题仍旧层出不穷。网络平台企业社会责任究竟应当如何承担,这一问题的研究兼具学理和实践意义。本文主要由三部分构成,第一部分界定社会责任的内涵、性质和范围,归纳整理网络平台企业社会责任法律化的现状,分析网
普光气田高含硫化氢和二氧化碳,高含硫天然气的特殊性使得普光气田开发过程中急需解决的难题之一就是气井油管的堵塞问题。在含硫气田开发过程中,随着生产时间增加,特别是高含硫气田各类地层产物,气井作业残余物逐渐从地层析出,井筒堵塞一直是影响单井平稳生产的重要问题。因此,开展普光气田生产井油管堵塞原因及对策研究具有重要意义,主要研究工作及成果如下:(1)开展堵塞物成分及形成机理研究。根据堵塞物取样化验结果,
在工业4.0背景下,科技进步和技术创新对工业企业可持续发展以及提高综合实力尤为重要。长江三角洲地区是我国重要的工业基地,研究长三角地区工业企业技术创新能力及效率,可以准确把握长三角地区技术创新现状及其存在的问题。根据分析所得结论,提出有效可行的政策和建议,有利于提高长三角地区工业企业技术创新能力及效率。本文首先从技术创新投入、产出、活动及环境四个方面选取19个指标,建立综合评价体系,结合熵权-TO
在教育部颁布的2022年版义务教育课程方案中规定,体育与健康学科在整个义务教育阶段的课时占比应达到10%~11%,仅次于语文和数学学科,即体育与健康应担负起“大学科”之重任。健康教育是体育与健康学科的重要组成部分,因此在“双减”背景下,如何更好地落实体育教学中的健康教育、促进青少年身心健康发展、强健体魄,进而为良好健康行为和生活习惯的养成打下牢固的基础,显得十分迫切。
社会经济高速增长,工业化规模不断扩大,随之而来的环境污染事故频频发作,环境问题逐渐受到社会的广泛关注。通常而言,环境污染风险对生态资源的威胁性很大,且历时较长,不易于治理,因而会造成广泛影响。环境污染事故除了会造成严重的经济损失,还会危及公众的身体健康,如水域污染导致周围养殖鱼类、作物死亡,大范围废物排放导致多人血铅超标,而并非所有企业都可以承担高昂损失赔偿带来的经济压力,企业可能会因此面临濒临破
近年来,依法行政、依法治税不断取得进展,但我国财税法治实践仍然给我们提出了不少急需解决的问题。仅从近年来公开的财税领域的裁判文书来看,案件数量持续以较大幅度递增,财税部门被诉的行政诉讼案件明显增多,除了以往较多发的政府采购纠纷、财政信息公开纠纷,财税公益诉讼已成为不可忽视的诉讼现象。新修改的《行政诉讼法》将国有财产保护纳入行政公益诉讼的受案范围,针对涉及侵害公共利益的财政税务行为这一问题给予回应。
随着社会技术发展和广告商对广告效果的要求逐渐提升,发展出了按广告转化计费的方式,如何根据用户转化率匹配广告为广告商提供最大的收益,在近几年受到大量关注。广告转化率预估存在数据高维、数据稀疏等难点,这是当前广告转化率预估的预估效果不甚理想的原因。本文将异质集成学习应用于APP广告转化率的预估,探究在实际互联网行业环境下,数据高维和数据稀疏情况下,如何更有效地将特征工程和集成模型研究应用于转化率预估。
每一件产品的诞生源于用户自身的需求,而产品随后的发展需要紧紧跟随市场,在经济、科学技术等多种条件的影响下,用户的需求在不断变化,因此需要企业精准地抓住瞬息万变的市场信息,对于不同阶段的产品发展方向及时做出决策,确保企业在市场中能够实现稳定的发展。相较于传统的调研方式,在线评论呈现出易获取、实时更新以及成本低廉的特点,由此逐渐成为了企业洞察用户需求的途径。本文基于企业改进产品的视角,通过文本挖掘技术