垃圾短信过滤关键技术研究

被引量 : 0次 | 上传用户:carefreebeet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
垃圾短信泛滥是近年来困扰运营商和普通用户的一个重大问题。本文针对垃圾短信过滤中的垃圾短信判别问题,利用机器学习领域中的Bayes分类方法、SVM分类方法和社会网络方法,结合短信发送过程中的具体限制性条件,对垃圾短信内容识别和垃圾短信发送用户的识别这两个问题中的关键技术进行了深入的研究。完成的主要工作包括:1、统一垃圾短信过滤模型本文中提出了一个可以解决多种短信发送方式的过滤模型——统一垃圾短信过滤模型。该模型即考虑到了不同发送端短信的具体特征,又尽可能利用现有的针对短信和短信发送用户的短信阻止机制,能够有效地过滤各种类型的垃圾短信,减少改造成本。2、基于多特征的垃圾短信识别算法设计了一种基于多特征的垃圾短信识别算法,综合考虑短信发送的行为特征、短信的文本分词后特征,利用Bayes分类和SVM分类方法分别离线与在线的实现对垃圾短信内容的学习和实时分类;并通过一组基于反馈的自学习机制,使分类器具备增量式学习能力。实验和分析表明:本文的算法相比传统方法在过滤效率和准确率两方面均获得大幅度提升。3、基于社会网络的垃圾短信发送用户识别从社会网络的角度对短信发送问题进行形式化的建模,通过实验验证了短信发送网络所具有的社会性特征,如小世界原理、幂率等,并在此基础上进一步分析和挖掘了垃圾短信用户在网络上发送接收的异常模式和行为,并以此提出了一个基于语音关联程度和短信回复比率的过滤算法(NASFA算法)。实验和分析表明:算法不仅能够高效的识别垃圾短信发送号码,同时能够有效的控制将正常用户误识别为垃圾短信用户的比率。4、基于位置特征的垃圾短信发送用户识别对于垃圾短信发送者而言,其在地理位置上具有明显的特征。据此提出了一个利用位置特征和短信发送内容的垃圾短信发送用户识别算法。5、面向网络端发送短信的快速匹配过滤算法针对网络端发送的短信具有发送速度快、发送频率变化范围大、不具备社会性特征和分类特征过少等特点,本文提出了一种适用于网络端口发送类垃圾短信的监控和过滤解决方案,通过编码预处理算法来克服反过滤干扰手段,并根据短信日发送数量、短信内容等特征,采用模糊匹配和频度监控相结合的方法动态进行短信过滤。此外,还引入了关键字加权控制频度方法,根据短信长度修正过滤的阀值。最后对全文进行概括性总结,并指出了下一步重点需要研究和突破的方向。
其他文献
基于情感倾向点互信息(SO—PMI)给出一种量化微博情感的计量方法;基于EGARCH模型并以量化后的微博情感变量作为外生变量建立三个微博情感对股票市场影响的计量模型;采用所建
随着生活质量和幸福感方面研究的兴起,生活满意度作为幸福感的一个关键指标倍受关注。目前生活满意度的研究已经广泛地渗入到了各个年龄阶层和特殊群体,但是对于少数民族青少
小学英语写作教学的目的是要提高学生综合运用语言的能力,发展学生从口头表达转向书面表达的能力,让学生主动地学会将所学的单词、语法、句型等知识、技能整合到英语写作中。
<正> 关于日语的被动句,日本学者历来有着不同的分类方法。有的分为“直接被动”和“间接被动”,有的分为“有生物作主语的被动”和“无生物作主语的被动”等等,不外乎从形式
目的 通过对中国人胃癌染色体 11p15 .5处杂合性缺失的研究 ,了解中国人群中胃癌病人在此区域杂合性缺失的情况。方法 从 66例胃癌病人的石蜡包埋的手术病理标本中 ,提取肿
马克思的生产社会化概念主要指生产的集中化和大型化 ,马克思恩格斯也主要是从这样一种涵义出发得出了资本主义必然灭亡的结论。 1 0 0多年来资本主义经济发展的实际状况表明
患者的知情同意权是医患关系中最基本、最核心的权利之一,而医生的告知义务是患者知情权实现的前提和基础。只有通过法律的形式对医生的告知义务进行立法确定,才能切实的保护
本文基于建构主义理论,从信息技术与外语课程有机结合的视角,探讨了积极开发和合理利用英语聚合新闻App的必要性。英语聚合新闻App的媒体特性与建构主义的教学理论和学习理论
随着我国经济的快速增长,社会财富日益增加,闲置资金越来越多,资本市场进而得以迅速发展。一种新兴的投资方式——委托理财在此背景下应运而生并迅速发展,参与度与社会关注度
本研究通过对3个超高产夏玉米品种从光合特性及其相应的生理生化角度进行分析,明确当前紧凑型玉米高产的光合机制与生理基础,为生产实践提供理论依据与参考。进行了产量及物