论文部分内容阅读
手机短信作为一种收发便捷、移动性好、价格低廉的通讯方式,逐渐影响着人们的生活。但随着短信的日益普及,垃圾短信问题也变得日益严峻,其严重的泛滥不仅仅严重影响人们的正常生活,而且严重影响社会稳定和公共安全。垃圾短信的过滤成为了当前人们生活急需解决的一个重要任务,因此垃圾短信智能过滤技术的研究具有重要的意义。目前垃圾短信过滤技术包括黑白名单技术、规则过滤以及关键词匹配等。然而现有的技术需要对短信进行逐条分析与判断,存在大量运算,会造成短信服务中心网络堵塞,使得短信发送得不到及时的处理。针对目前过滤技术的缺点,本文提出了一种基于抽样的短信流过滤方法,该方法提出用部分短信代表整个短信流的思想;同时给每个用户设定一个可信值,并根据用户可信值的不同,对发送到短信服务中心的短信进行不同强度的检测。检测到的短信根据短信的文字信息进行分类,而不必对每一条短信进行分析,提高了垃圾短信的处理效率。该方法整合了现有的垃圾短信过滤技术(长度过滤,黑白名单、关键词及内容过滤等技术)。在内容过滤技术中,本文采用了协同神经网络的分类方法,然而经典的Haken模型对海量数据识别是极为困难的,本文根据协同神经网络在注意参数相等时能快速识别的原理,改进算法,使之能适应海量垃圾短信分类。同时将现有的垃圾短信过滤技术和改进的协同神经网络应用于MapReduce模型之中。实验表明基于抽样的垃圾短信过滤方法比单一的内容过滤方法准确率和处理时间上有很大的提高,以及这些技术应用MapReduce模型中的可行性和有效性。本文的主要工作包括:(1)概述了现有的垃圾短信过滤技术以及分析了这些技术存在的问题,同时对垃圾短信的定义、危害进行了描述。(2)介绍了协同神经网络模型原理,并在现有的模型基础上进行改进,建立一个多输入单输出的协同神经网络结构,使之能适合海量的短信识别。(3)提出了抽样短信流过滤方法,构建了一个基于抽样的短信流过滤系统。(4)介绍了MapReduce模型,并将现有的垃圾短信过滤技术和改进的协同神经网络应用于MapReduce模型之中。