基于文本挖掘的垃圾短信过滤方法

被引量 : 0次 | 上传用户:fuzi001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
手机短信作为一种收发便捷、移动性好、价格低廉的通讯方式,逐渐影响着人们的生活。但随着短信的日益普及,垃圾短信问题也变得日益严峻,其严重的泛滥不仅仅严重影响人们的正常生活,而且严重影响社会稳定和公共安全。垃圾短信的过滤成为了当前人们生活急需解决的一个重要任务,因此垃圾短信智能过滤技术的研究具有重要的意义。目前垃圾短信过滤技术包括黑白名单技术、规则过滤以及关键词匹配等。然而现有的技术需要对短信进行逐条分析与判断,存在大量运算,会造成短信服务中心网络堵塞,使得短信发送得不到及时的处理。针对目前过滤技术的缺点,本文提出了一种基于抽样的短信流过滤方法,该方法提出用部分短信代表整个短信流的思想;同时给每个用户设定一个可信值,并根据用户可信值的不同,对发送到短信服务中心的短信进行不同强度的检测。检测到的短信根据短信的文字信息进行分类,而不必对每一条短信进行分析,提高了垃圾短信的处理效率。该方法整合了现有的垃圾短信过滤技术(长度过滤,黑白名单、关键词及内容过滤等技术)。在内容过滤技术中,本文采用了协同神经网络的分类方法,然而经典的Haken模型对海量数据识别是极为困难的,本文根据协同神经网络在注意参数相等时能快速识别的原理,改进算法,使之能适应海量垃圾短信分类。同时将现有的垃圾短信过滤技术和改进的协同神经网络应用于MapReduce模型之中。实验表明基于抽样的垃圾短信过滤方法比单一的内容过滤方法准确率和处理时间上有很大的提高,以及这些技术应用MapReduce模型中的可行性和有效性。本文的主要工作包括:(1)概述了现有的垃圾短信过滤技术以及分析了这些技术存在的问题,同时对垃圾短信的定义、危害进行了描述。(2)介绍了协同神经网络模型原理,并在现有的模型基础上进行改进,建立一个多输入单输出的协同神经网络结构,使之能适合海量的短信识别。(3)提出了抽样短信流过滤方法,构建了一个基于抽样的短信流过滤系统。(4)介绍了MapReduce模型,并将现有的垃圾短信过滤技术和改进的协同神经网络应用于MapReduce模型之中。
其他文献
在二语习得中,母语与目的语之间的差异会对目的语的习得产生干扰作用。学习者常常无意中将他们母语的语言习惯迁移到目的语的学习和使用当中,导致学习的错误和交流的失败。英
泥石流运动属于非定常的复杂多相流流动,其运动机理研究是研究泥石流的重要内容之一,也是泥石流学科的前沿性基础理论问题,其研究内容属于流体力学、水土流失、地质学、灾害
超宽带(Ultra Wide-band ,UWB)通信技术利用低占空比的极窄脉冲传输数据,具有传输速率高、功耗低、抗截获能力强等许多优点,UWB信号具有极宽的带宽和极低的功率谱密度,接收机
为了帮助铁路客运企业深化顾客满意理念、应用客户满意战略来改善服务质量,从而在竞争日益激烈的中国客运市场保持优势,本文对铁路客运企业的满意度测评方法进行了研究。本文
结果的公平固然重要,但是在跨文化交流中我们不可忽视程序公平。在跨文化交际中,程序公平认知早已受到中西方学者的广泛关注和研究。虽然也有不少以中国人作为调查对象而展开
在宽距离多光谱光轴平行性检测系统中,存在着集中平行和离散平行。比如说坦克的火控系统中,瞄准轴线(即电视摄像机、红外热像仪、激光测距机等的瞄准轴线)之间的相互平行性,
风险控制随着商品经济的出现就已经开始了,直到20世纪才开始提到书面上来,并随之出现一系列的观点和建议。面对全球金融危机,企业经营环境的巨大变化,风险控制、特别是财务风
虽然航空公司积累了大量的常旅客信息,但是怎样在这些海量的数据资源中挖掘出有价值的知识并加以应用是常旅客管理的关键所在。航空公司的各种资源是有限的,面对数量众多的常
<正>公共关系素质教育是自改革开放以来高校普遍开展的通识教育,在2010年教育部确立卓越人才培养项目之后,公共关系素质教育的实质内涵与卓越人才培养的核心理念具有着深度呼
党的十七大作出了加快行政管理体制改革的战略部署,十七届二中全会进而提出了《关于深化行政管理体制改革的意见》。在此政治背景下,市辖区特别是一些在撤地级市大气候中形成