垃圾短信过滤中字特征与词特征对过滤效果的比较研究

来源 :北京邮电大学 | 被引量 : 9次 | 上传用户:moon_pine
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
十多年来,短信服务在世界各国电信市场中得到巨大的发展。而手机短信发送量的增长伴随而来的就是日趋泛滥的垃圾短信。词特征数量多,维数大,需要进行特征选择,否则会严重影响过滤效果。在中文文本中,中文分词是提取词特征必不可少的工作,中文分词算法复杂,计算量大,需要耗费大量的计算资源。这些缺陷意味着在使用词特征时需要较好的硬件设备和较多的处理时间。而在垃圾短信过滤的实际应用中,这些条件常常无法满足。针对词特征的缺陷,本实验使用字特征来代替词特征。字特征维数有限,无需分词的特点可以有效地节约计算资源,减少计算量,缩短处理时间,解决词特征在垃圾短信过滤中存在的应用问题。本实验使用柏努利贝叶斯、多项式贝叶斯、径向基支持向量机、C4.5决策树四种分类器,几率比、信息增益、互信息三种特征选择方法,500维、1000维、1500维、2000维、全维度五种维度的空间,通过不同分类器、特征选择方法、维度空间的交叉使用,共构建了52种不同的过滤条件,分别使用字特征和词特征得到过滤的正确率,共52对对比结果。对比结果显示,在C4.5决策树、低维度的柏努利贝叶斯和低维度的互信息选出的特征空间等三种条件下,字特征的过滤效果都要优于词特征;在其它条件下,字特征的过滤效果与词特征差距也不大。分析结果可知,在硬件设备和处理时间有限的条件下,使用字特征和柏努利贝叶斯或C4.5决策树搭配进行垃圾短信过滤可以得到非常不错的过滤效果。
其他文献
伴随着现代工业科技的快速发展,工业对测量精度要求越来越高,视觉测量技术在工业生产中有重要地位。它具有速度快、精度高、非接触、自动化程度高等优势,该技术近年来在非接
EtherCAT(IEC61158 Type12)是一种先进的实时以太网技术,具有极好的实时性能,目前主要应用于对实时性、通信可靠性要求严格的领域如高速印刷机、注塑机、机器人技术、机床、数
在语音信号的检测过程中,被测语音信号通常比较微弱,很容易被噪声干扰和淹没,导致提取纯净的语音信号的工作很难进行。语音增强技术是解决这个问题的关键技术之一,为了消除噪
随着世界范围的人口增长和城镇化进程,人群控制和公共空间设计变得越发重要。在众多用于这方面应用的群信息中,人数值和人群密度是一项重要的信息,因为不同的人群密度通常需
本文是在国家自然科学基金“基于耦合传感反馈的鱼游CPG的多模态控制”的支持下完成的。本文针对机器鱼的嵌入式视觉进行研究,实现仿机器鱼的视觉导航。   本文提出了一种
随着机器人应用领域的不断拓展,多机器人系统以其柔性、并行性及鲁棒性等特性受到普遍重视,围捕作为代表性的多机器人任务以其天然的动态性和对抗性成为研究热点。本文主要针对
两轮自平衡机器人是轮式移动机器人中重要的一类仿生系统。而桌面型两轮机器人不仅在体积、成本上具备优势,而且它可以实现在大型两轮机器人上无法实现的控制算法,具有广泛的应
机器学习作为智能信息处理的代表性方法在近几十年中取得了飞跃式的发展。然而经典的监督学习需要大量人工标记的数据作为训练样本;由于标记样本往往代价高昂,从而大大提高了监
定位与导航策略是实现移动机器人自主导航的关键问题。本文以运行于室内环境的轮式移动机器人为研究对象,对视觉自定位与未知环境下导航策略两个子问题展开深入研究。本文的
学位