基于内容的中文垃圾短信分类技术的研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:frkzhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动通信技术的高速发展,手机用户的数量在飞速膨胀,由于手机短信使用简单、快捷、费用低廉,已经成为日常生活中不可或缺的通信方式之一。然而,低廉的传输代价,使得我们每天收到很多不请自来的垃圾短信,垃圾短信危害社会安全、毒害社会风气、影响用户的正常生活。规则过滤、黑—白名单和基于关键词匹配的内容扫描等技术都是目前垃圾短信过滤主流技术。为了解决垃圾短信给我们的日常生活带来的烦恼,本文首先从垃圾短信的定义、特征、产生的原因、危害及我国当前垃圾短信状况做了详细的分析和介绍,对当前短信分类技术的现状进行了概述和分析;其次介绍了3种中文分词方法、4种文本表示方法、4种特征权重赋值方法、7种特征选取方法和7种具有代表性的文本分类算法;最后在此基础上,采用了改进的贝叶斯分类方法结合黑白名单过滤机制实现对短信的过滤,进行了详细的实验论证,实验中先对短信进行分词和停用词过滤等预处理,再采用DF等特征提取方式,训练分类器,优化分类器参数后进行短信测试,详细记录实验过程,分析数据,达到了较好的分类效果,分类器同时可以根据新的训练集,训练出个性化的分类器,适应短信变化,满足用户的个性化需求。通过实验证明,改进贝叶斯算法能在正确分类短信的同时,减少了正常短信的误判率。具体地说,工作内容主要包括以下几个方面:1、介绍了多种特征选取方法,实验中采用了3种特征提取方法,考查了各选取方法的优劣;2、在现有条件下,收集了一定数量的、符合要求的中文短信库;3、在短信语料库的基础上,实现一种提高正常短信通过率的改进的贝叶斯分类模型,并使用贝叶斯分类器应用于自建的短信语料库,分析、比较它的实验性能与效果;4、分类模型可以训练出个性化的分类器,适应短信变化,满足用户的个性化需求;5、根据文本分类的评价标准,通过实验对贝叶斯分类器进行了评估,根据评估结果,设定了分类模型的各项基本参数;6、总结成果,展望未来,为将来的工作打下基础。
其他文献
随着移动设备的普及和无线通讯技术的进步,地理相关服务(LBS)引起了广泛的关注,然而当前基于LBS的应用中普遍缺乏地理位置上的实时信息。近年来微博迅速成为网络中传播信息的
随着社会信息化的建设,信息变得越来越重要,甚至成为社会各领域赖以生存的基础。人们可以使用数据备份系统来安全而有效地保护这些信息数据,但是,数据爆炸式的增长导致需要使用大
当前对于车载网络路由协议的研究大部分都是基于联通性网络的,这使其具有一定的局限性,网络中的结点被要求在大部分时间内至少与另一个结点相连通,如果源结点和目的结点间不
在当今社会中,随着计算机科学和互联网技术的飞速发展,数据的总量也越来越多,随之而提高的就是人们对数据的可靠性要求。在任何行业任何部门中,数据的丢失大多都会带来灾难性的后
传统的基于帧时隙的防碰撞算法在识别大规模标签时存在两个问题,一是随着标签数的增加,标签估计算法的误差会越来越大,严重影响了帧长的分配,进而导致识别效率的下降;二是因阅读器
工作流业务流程管理技术满足了企业对其业务过程不断地进行优化以及重组的需求,给企业的业务过程管理带来了很大的益处,使得企业实现了办公自动化,从而提高了企业的办事效率,
在信息化时代,企业比以往任何时候都更加依赖于数据。如何对数据进行备份和灾难恢复已成为存储业界研究的热点。常规的容灾系统已经越来越无法满足对更细粒度的恢复时间目标(Re
随着信息技术的发展和广泛应用,人们对计算机系统数据存储能力的要求也越来越高。存储系统面临的问题主要包括:数据存储的地域空间范围更加宽广;数据量成指数级增长;数据传输速度
近年来嵌入式系统中软件规模与复杂度的迅速增长给高质量系统的设计、验证与维护带来许多重要挑战,传统的基于代码的测试与分析技术方法已经不能满足一些安全关键领域中的嵌入
畜牧疫情一直是畜牧业生产上的重要灾害,一直是制约畜牧业高产,优质,高效可持续发展的主导因素之一。随着我国经济建设的不断发展,畜牧业已经成为我国农业经济中的支柱产业,