海量短信数据中异常行为的研究

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:lsxfa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网通信的不断发展,传统通信业受到了互联网的巨大冲击,但短信作为对通信条件要求非常低的传统通信手段,在日常生活中仍然有较多的使用场景。自从短信出现开始,商户就开始利用垃圾短信进行营销,之后逐渐有不法分子利用短信进行电信诈骗。随着防诈骗技术的不断升级,电信诈骗也开始出现多个不同的变种。如何低成本、快速的发现电信诈骗、定位电信诈骗并源头预防电信诈骗,一直是一个经久不衰的问题。对此的相关研究,也有广泛深入的应用场景。到目前为止,传统基于频次、互信息的文本分类研究在性能和速度上已经达到瓶颈,而基于最近流行的CNN神经网络的文本分类技术又受制于昂贵的设备,所以如何在保证一定精确度的情况下,开发出一套快捷高效的文本分类系统,满足在电信诈骗场景下的个性化需求,是文本分类系统所要面临的新挑战。本文对文本分类、短信诈骗提取相关技术进行了研究,分析了垃圾短信分类、处理和电信诈骗研究中的热点问题,从如何平衡短信分类速度和准确度的角度出发,设计并实现了基于层次softmax的快速文本分类器HSTC。利用人工标注的垃圾短信样本做监督学习,对海量垃圾短信进行标签聚类,初步定位诈骗类型的短信。然后通过对诈骗类短信的文本特征提取,对最近流行的电信诈骗形式进行精确定位。本文的研究内容和创新工作主要包括以下两点:本文设计并实现了一种基于层次softmax的快速文本分类器HSTC,能够在不牺牲太多分类精确度的情况下,以较快的速度训练出文本分类模型,有效的对海量短信数据进行模型训练和文本聚类。在传统的文本分类方法中,通常分类精确度是较大瓶颈,而对于基于CNN的文本分类系统而言,通常模型训练时间是一个较为严重的问题。HSTC通过单隐层神经网络,在单标签分类这个简单的场景下,结合一些文本分类的常用技巧和思路,实现了在很短时间内做大量数据训练的文本分类系统,并通过某运营商提供的人工标注数据进行验证。实验证明,通过本文实现的文本分类系统,在垃圾短信分类这个场景下,取得了良好的效果。为了更好的满足精确定位新型电信诈骗的需求,最大程度提取出符合“换号诈骗”场景需求的诈骗类短信,以上一步分好分好类的诈骗短信数据作为基础,提出n-邻近词相似文本聚类法,通过对相似文本的相似特征提取,提取出符合“换号诈骗”情景的短信簇,然后通过规则提取出称呼等特性,实现精确定位“换号诈骗”的个性化需求,为某运营商消除新诈骗手段提供了方法和思路。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
中国古代入室脱鞋的习俗历史久远,这既是出于居室卫生的考虑,更重要的是它也已经成为礼教文化的组成部分.入室脱鞋习俗的形成后绵延至今,并深远影响到亚洲其他国家,成为汉文
黄河流域自古以来被人们视为中华文明的摇篮。虽然这一观点并不十分确切,但黄河文化在“多元一体”的中华文明中无疑起着极其重要的作用, 她和长江文化无疑是两支最具代表性和
铁凝的小说以悲悯的情怀对现实人生进行了叙述,她的悲剧小说不给人以惨烈的悲剧性,而是具有一种和谐之美。这主要通过对悲剧冲突的化解来实现:一是注意节制,把悲剧意蕴留给读
通过对既有住区在适老化改造方面所存在问题的分析,总结出产生问题的根本原因,进而提出推进旧区适老化改造应重视的要点和原则。
目前我国社会经济的发展中,新技术与新工艺的应用范围不断的增加,很多的行业中对于自动化技术的使用非常的重视,这对人们的生活与工作都会产生很大的影响.在社会生产中使用自
本文通过对《中国民法典 (草案 )》(征求意见稿 )与不动产登记公信力保护之间的制度比较 ,认为关于不动产变动中的交易安全保护 ,结合我国具体国情以采行“不动产登记公信力
三农是普惠金融发展的重点,普惠金融是支持乡村金融经济发展的关键因素。但现阶段农村普惠金融发展仍是我国普惠金融体系中最为薄弱的环节。本文通过简述当前我国"三农"服务
在科技飞速发展的时代,数字多媒体互动技术被广泛地用在科普场馆展陈空间中。数字多媒体技术结合了声、光、电以及新颖的互动技术,它突破了传统的图文展板,静态单调的展示形
通过腐蚀模拟试验和电化学测试,研究了H2S分压对316L不锈钢在含Cl-条件下的点蚀行为。模拟试验结果表明,随H2S分压的升高,316L不锈钢试样表面钝化膜局部出现破损,点蚀电位及