文本分类在短信过滤中的应用

被引量 : 0次 | 上传用户:aiming4636j
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
手机短信因具有移动性好、价格低廉、收发便捷和娱乐性强等特点而使人们逐渐习惯于用短信的方式来传送信息和进行沟通交流。但垃圾短信问题也日益严峻。统计显示,自2001年以来,垃圾短信就以非常快的速度在增长。如今,手机用户平均每天收到的垃圾短信数量已经超过了正常短信数量。因此,研究短信的自动过滤具有重要意义。 本文首先介绍了垃圾短信和现在反垃圾短信技术的发展现状,以及短信过滤的基本概念和原理;其次分析和比较了7种特征选取方法、4种特征权重赋值方法和5种具有代表性的文本分类算法;然后重点介绍了贝叶斯分类方法的原理,分析了传统朴素贝叶斯算法在短信过滤中所存在的局限性(合法短信被误判为垃圾短信将可能给用户带来更大的损失),并在此基础上,采用了基于最小风险的朴素贝叶斯短信过滤算法。在自建的中文短信语料库上的实验结果表明,该算法能在正确分类短信的同时,也能减少合法短信的误判率,在对垃圾短信进行分类与过滤时具有较好的性能;最后,对短信分类系统中的反馈学习问题进行了分析与讨论。 具体地说,本文的工作主要包含下列内容: (1) 在目前尚无一个公开的、规范的中文短信语料库的现实条件下,建立一个真实的、规范的、能够适应实验要求的中文短信语料库; (2) 概述垃圾短信过滤问题的研究现状,包括垃圾短信的定义、产生机理、危害以及常用的过滤技术; (3) 详细介绍了文本分类的相关理论和知识,总结比较了常用的特征选择方法、权重计算方法以及可以应用于短信分类的各种文本分类算法; (4) 在现有的文本分类器中,选择NB和KNN两种典型的分类器应用于自建的短信语料库,分析、比较它们的实验效果与性能; (5) 详细介绍了贝叶斯算法,分析了传统贝叶斯算法在短信过滤中存在的局限性,采用了基于最小风险贝叶斯短信过滤算法,使用自建的短信语料库试验该算法的性能,并比较了特征选择方法、权重计算方法、特征数量和阈值对实验结果的影响; (6) 设计了一个客户端短信过滤系统,合理解决短信过滤系统中的用户分类标准动态变化问题和反馈学习问题;
其他文献
写作是对各种语言知识的一种综合显现,能全面反映学生的语言水平。中国大学生在英语写作中所犯的各种语言错误是一个困扰教师已久并且颇为棘手的问题。那么中国大学生在英语写
迈入21世纪,教育面临着前所未有的机遇和挑战,物理学是整个自然科学和现代技术发展的基础,也迎来了新的挑战。 初中物理研究的是经典物理学的内容,包括力学、热学、声学、电学
“五四”运动和“新文化”运动为中国的文化塑造了一个新的范式,这个范式便是用西方文化来救赎中国文化。中国的现代绘画发展也在这个范式当中,这个范式带来的则是通常意义上所
交通运输设施的落后,已成为我国经济进一步发展的重要制约因素,而影响交通运输进一步发展的最大障碍是交通运输建设资金不足。如何运用经济学和管理科学理论武器来透析交通运输
目的:分析对超声引导下麦默通治疗乳腺良性肿瘤患者进行心理护理的效果。方法:选取2010年4月至2015年7月在我院进行治疗的乳腺良性肿瘤患者100例,随机进行分组,常规组患者50例,进
冷成型钢复合墙体的抗火性能是限制多层冷成型钢结构在我国推广应用的一项重要因素。该文设计完成了2片冷成型钢非承重墙体缩尺模型进行耐火试验,考察了板材类型对冷成型钢墙
高校学生党建工作是高校党建工作的重要组成部分,是高校育人工作的重要内容。加强对学生党建工作的研究,提高学生党组织的凝聚力、战斗力,对于把青年大学生培养成为合格的社
以2-苄氧基苯硼酸为原料,经催化剂四(三苯基膦)钯作用,与(Z)-3-甲氧基-2-碘丙烯酸甲酯发生Suzuki偶联反应;然后经钯碳加氢,催化脱除苄氧基,生成目标产物(E)-3-甲氧基-2-(2-羟基苯基)
在大尺寸半导体基片和功能晶体的切割中,固结磨料线锯以无可比拟的优点被认为是最有前途的切割方法之一。与现有的几种固结超硬磨粒的方法相比,电镀方式具有制造周期短和生产成
随着互联网技术的飞速发展,网络服务商的数量也越来越多,他们所提供的网络服务对于互联网的正常运行至关重要。与此同时,这些服务也会给网络用户从事侵权活动带来一定的便利