基于广义数字的垃圾短信拦截策略的研究

来源 :中国新通信 | 被引量 : 0次 | 上传用户:merry_leaf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】 当短信已经成为人们生活当中不可或缺的通信方式时,短消息业务也为信息垃圾的传播提供了一条便捷的渠道,因此针对垃圾短信的拦截成为各运营商的社会责任和网络运维的一部分。但低速、短信内容频繁变异让传统的拦截策略束手无策,而中文的博大精深又让新颖的语义分析拦截法命中率低及误拦率高。本文以不变应万变,抽取垃圾短信内容中的联系电话、诈骗卡号等数字串信息作为特征码进行拦截,则实现了对垃圾短信的精准打击,收到事半功倍的效果;如果进一步建立垃圾短信的大数据平台,则可使得基于广义数字的垃圾短信拦截策略如虎添翼。
  【关键词】 垃圾短信 广义数字 变异数字 拦截 大数据一、背景
  随着无线通信服务功能的不断增强和完善,短消息业务已成为人们生活中最普及的电信增值业务。然而,短消息业务在为用户提供便捷消息服务的同时,也为信息垃圾的传播提供了一条方便的渠道。随着我国移动通信网络建设的不断完善以及越来越多的可提供给用户短消息服务的平台的出现,垃圾短消息有愈演愈烈的趋势。
  垃圾短消息的存在给用户与运营商均带来了不少的烦恼:用户可能被恐吓、骚扰,往往也被犯罪分子利用来进行违法活动,破坏安定团结的政治局面;而运营商也会由于用户错误的界定垃圾短消息的来源而受到用户的误解,给公司努力建立的良好声誉和品牌形象造成严重的影响。因此,目前各运营商在网络侧都大大加强了垃圾短信的整治力度,采用了众所周知的过滤和拦截,如流量规则、传统的关键字规则及其它发送行为规则,但由于这些规则本身的限制及垃圾短信发送者的“灵活”调整,使得现有的垃圾短信过滤策略总是滞后于垃圾短信发送行为,同时因为误拦与拦截效果两者之间的矛盾而使现有的垃圾短信拦截很难达到理想的效果。
  因此,各运营商虽投入了大量的人力物力与垃圾短信发送者“斗智斗勇”,但效果仍不理解,仍因为频繁的垃圾、诈骗短信的发送而受到用户的各种诟病。
  二、垃圾短信的关键特征分析
  随着垃圾短信的整治工作的深入,垃圾短信由于以下特点而现有的大量策略面临命中率或误拦率高的窘境:
  1. 低速发送。垃圾短信发送者采用大量号码,单一的发送号码至同一区域或省份的垃圾短信发送数量很小,内容分散。
  2. 垃圾短信关键信息频繁变异,是传统的关键字抽样和语义分析等拦截手段一直的“恶梦”,如兜售发票的垃圾短信,可以将发票变异成“发漂”、“發票”、“發piao”等,由于汉字的博大精深,所以短信内容中的中文可以变异成无数种,让运营商的垃圾拦截策略来不及变化和调整。
  基于低速、短信内容的变异和中文的博大精深让传统的拦截策略束手无策,如果全部采用人工审核和确认的方式进行,为了保证正常短信的时延不能增加,必须进行系统扩容和大量的人工审核人力投入,并且人工审核量巨大。
  但是,垃圾短信的内容无论怎么变异,无论怎么低速,无论发给谁,其中必不可少的关键特征是联系电话或诈骗电话的银行卡号等。因此,无论垃圾短信的发送号码如何变化,但由于成本关系,垃圾短信中所带的数字信息不会频繁变化。
  【案例1】发送号码:86159xxxx7205;垃圾短信内容:“宏达汽贸销售九成新(套牌)车本田丰田3万,奥迪宝马5万,现代1,5万越野车可送货当面交易电话137xxx36768刘经理”
  【案例1】发送号码:86159xxxx8307;垃圾短信内容:“汽贸销售九成新(套片卑)车本田丰田3万,奥迪宝马5万,现代1,5万越野车。联系电话137xxx36768王经理”
  因此,根据垃圾短信中的数字信息这一关键特征进行拦截,将击中垃圾短信发送者的软肋,在垃圾短信拦截系统或手机中加以应用,可以取得事半功倍的效果。而基于短信内容中的数字进行拦截,是目前众多研究者和拦截策略所忽略的,且很多采用复杂算法的拦截策略还首先过滤了其中的数字等ASCII码,将垃圾短信中相对不变的关键特征“抛弃”了。
  三、基于广义数字的拦截
  3.1 主要功能模块
  针对垃圾短信中的数字信息关键特征进行拦截,主要模块如下图1所示:
  1. 广义数字。垃圾短信中所包含的电话号码、账号等数字,很多时候已不是简单的阿拉伯数字,不法分子为了避免被拦截,往往通过各种各样的形式来表达数字信息:阿拉伯数字、中文简体数字(如一、二、三)、繁体数字(如壹、贰、叁)、谐音数字、带符号的数字(①、?)、以全角或上下标表示的数字(如?、?)等等。我们把这些表现形式多样的“数字”定义为广义数字。
  2. 广义数字库。即定义0~9每个阿拉伯数字分别可以等价于哪些广义数字,这是针对垃圾短信中的数字信息关键特征进行拦截成果与否的关键,系统拦截策略将根据此“广义数字库”进行判定字符是否为“数字”。如广义数字库中定义的数字1包括:1、1、①、?、?、1、一、壹。由于可以理解的变异数字不会像汉字那样千变万化,因此“广义数字库”样本量将会非常小,易于维护、拦截效率高。例如,垃圾短信内容将联系号码变异为“壹③91ooOO0000”,拦截系统也会根据“广义数字库”识别出“139100000000”的数字串。随着新的变异数字的出现,可以将新出现的变异数字加入“广义数字库”。
  3. 短消息输入源。通常为短信中心、垃圾短信接收服务器或手机终端,根据“广义数字”拦截策略所布署的位置而变化。当布署于垃圾短信拦截系统中时,就是从短信中心接收过来的原始的短消息内容。
  4. 短消息预处理。垃圾短信发送者同样会在诈骗卡号或联系电话中夹杂空格等无效的ASCII码或其它字符,干扰拦截策略。因此预处理模块会首先将定义的一组字符进行过滤,包括“广义数字”中定义的数字以外的ASCII码、自定义的其它字符等。
  5. 数字串黑名单。系统根据策略人工或自动将定性为垃圾短信中的联系电话、银行号码加入“数字串黑名单”中,作为后续“广义数字策略”判定的标准。
  6. 广义数字策略判定。根据“广义数字库”,按一定规则抽取短信内容的广义数字并转换为标准的数字串,如果该数字串在“数字串黑名单”中,则判定为垃圾短信。
  3.2 基于广义数字的拦截流程
  基于广义数字拦截策略的拦截流程如下图2所示。
  3.3 特殊约束
  为了避免广义数字拦截策略产生误拦截,因此需要进行一些特殊约束:
  1. 从短信内容中抽样出的数字串s1,必须满足一定的长度,即m≤length(s1) ≤n。对于长度过短的数字串,如10086、银行类的9xxxx开头的联系电话、短信内容中出现的短数字等,均为正常,因此长度过短或过长均应排除。
  2. 数字串白名单。将一些容易出现在短信内容中的正常的数字串加入数字串白名单列表中,此列表中的数字串判定为正常短信。
  3.4 应用效果
  通过将广义数字拦截策略应用在试验环境,在数字串长度、数字串白名单等特殊约束条件下,广义数字拦截策略拦截准确率达到100%。如果布署在生产环境,将会大大减少人工投入,大幅降低垃圾短信判定的人工审核量。
  四、结束语
  现有常规的垃圾短信拦截策略已无法适应新的垃圾短信发送特征。而通过抽取垃圾短信内容中最本质的数字信息特征,利用广义数字拦截策略,以不变应万变,将垃圾短信内容中的联系电话、诈骗卡号等数字串加入黑名单,则可实现对垃圾短信的精准打击,收到事半功倍的效果。同时,切中垃圾短信发送者要害的广义数字拦截策略原理简单,易于推广和应用。
  而随着大数据时代的到来,各运营商更可以针对垃圾短信建立全集团的大样本量。这样,即使每个号码往某一地区只发少量垃圾短信,但从汇集全集团范围内的大数据中仍可以抽取可观的数字特征串,丰富各省公司的数字串黑名单,以进一步提高各省公司垃圾短信的拦截率,让垃圾短信无所遁形。
其他文献
【摘要】 在LTE-A系统中引入了多点协作(CoMP)技术,它能够有效降低小区间干扰,提升系统吞吐量,它可以看做是一个协作的多用户MIMO系统,但是每个用户会同时接收到有用信息和来自其他用户的干扰。而采用预编码方案可以有效消除MIMO用户之间的干扰。本文重点研究了基于CoMP技术所使用的经典预编码算法,并在此基础上,提出了结合SLNR和SVD两种算法优势的改进算法,该算法可以同时消除用户间以及用户
期刊
【摘要】 引入室内分布与室分外引互为补充的室内分布系统设计模型,在实际工程中采用室内分布与室分外引的设计模型实现对楼宇小区的覆盖,通过现场模测证明了室内分布与室分外引相结合的室内覆盖方式的有效性,为物业敏感、室分入户困难等类似场景的室分覆盖提供整体解决方案。  【关键词】 TD-LTE 链路预算 室内分布系统 室分外引  一、概述  TD-LTE系统采用OFDM、MINO、链路自适应等多种关键技术
期刊
【摘要】 为了更加有效地应对各类突发事件,提升公司应急处置能力和水平,新疆电力公司建立应急高清视频会议系统。本文介绍了公司应急视频会议系统现状、组网结构及工作原理,重点阐述新疆电力应急高清视频会议系统改造方案,阐明系统高可靠性应用成效。  【关键字】 高清视频会议 MCU 会议终端 传输通道  电力系统作为关系国计民生的基础公共设施,承担着为社会提供可靠电力供应的重要责任。近年来,地震、暴风雨雪等
期刊
【摘要】 当前,经济的快速发展,促进了科技的不断进度和人们生活水平的极大提高,因此,人们对电力系统的要求也在不断升级。为了满足社会发展的需求,电力系统正在进行通信技术的转化,以实现传统的电力通信网络向光传输网络的转变,促进企业革命性的跨步发展。为了保障电网系统的安全运行,提高光传输网络的可靠性,本文通过对电力通信光传输网络的概述,总结出电力通信光传输网络优化的具体途径和方法,以促进电力通信光传输网
期刊
【摘要】 伴随着我国经济快速发展,我国高速公路里程大幅度增加,同时大量的交通事故及交通拥堵也日趋严重。高速公路智能化是将原来单一的设备采集信息变为不同类型设备采集的信息进行有效地融合和挖掘。本文集中讨论如何将模糊控制理论应用到高速公路智能化中。  【关键词】 高速公路 智能化 模糊控制理论  一、引言  我国第一条高速公路自从1988年建设以来,高速公路的建设速度快速发展[1]。截止2013年底,
期刊
【摘要】 主要阐述了RFID系统中电子标签的防碰撞问题,分析了常用的防碰撞技术ALOHA算法。结合公安巡检数据采集终端的实际情况,给出了改进型ALOHA算法的实现过程,该算法简单有效,实用性强,提高了系统数据的吞吐率。  【关键词】 RFID标签 防碰撞 ALOHA算法 改进型一、引言  当前社会发展与经济建设进入全面提速阶段,国民的生活水平得到进一步的提高,社会公共安全越来越收到广泛的关注,尤其
期刊
【摘要】 动态调整PDCH信道配置来适配某一区间的TBF复用度,能够对PDCH承载效率产生明显的影响。一般情况下,TBF复用度越高就代表了较高的PDCH承载效率。在这一理论支持下,通过对某地区网络的数据进行大量的分析统计,可以得出TBF复用度与PDCH承载效率的线性关系,从而指导PDCH承载效率优化工作的进行。  【关键字】 TBF复用度 PDCH承载效率 线性关系一、引言  目前数据业务流量急剧
期刊
【摘要】 随着农村地区网民的快速增长,移动无线宽带的需求也愈加迫切。本文分析了终端普及、业务需求、网络资源、产业链成熟度等各方面影响网络建设的因素,综合考虑给出了不同场景下农村区域的无线网络建设策略。  【关键词】 无线 GSM-HI 农村  一、引言  根据中国互联网信息中心第34次《中国互联网络发展状况统计报告》[1],截至 2014 年 6 月,我国网民规模达 6.32 亿,互联网普及率为
期刊
【摘要】 随着科学信息技术的飞速发展,数字光纤通信技术在社会工作以及日常生活当中都发挥出极其重要的作用,有效的促进我国社会经济的飞速发展。本文针对数字光纤通信设备的管理和应用技术进行分析,对数字光纤通信设备所具有的特点进行概括,同时简述了数字通信光纤设备的主要构成,并提出对其进行管理及应用技术以供参考。  【关键词】 数字光纤通信设备 设备管理 应用技术一、数字光纤通信设备所具有的特点  相比传统
期刊
现阶段,伴随着移动通信的进一步发展,智能手机应用的普及,移动互联网以惊人的速度和创新能力倍受全球瞩目。由于移动互联网的业务种类增长速度快,并逐渐呈现出了多元化的趋势,其发展具有旺盛的生命力,特别是即时通信、手机搜索、手机社交等方面的业务渗透力最为突出。鉴于此,下面主要分析了移动互联网新应用——云服务,它也是移动互联网产业技术和产品发展的创新方向。  一、移动互联网应用的发展趋势  从移动互联网的新
期刊