引入数据平滑的增量式贝叶斯垃圾邮件过滤方法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:fngdi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
朴素贝叶斯分类器在处理垃圾邮件过滤任务时,往往存在数据稀疏问题。由于语料库中特征出现遵循Zipf定律,所以单纯依靠增加训练语料方式难以解决该问题。为克服数据稀疏问题,引入数据平滑算法计算贝叶斯模型中缺失特征的补偿概率。通过领域术语抽取与概念相关模型增加分类中语义知识处理能力。采用增量式学习方法完成动态在线学习过程。Ling-Spam垃圾邮件语料库实验表明该方法提高分类精度2.51%,在国家863语料表明该方法比Laplace原则提高了3.05%。
其他文献
一篇或一部作品能否成为经典,与它的文化内涵与表达方式息息相关。从内涵上看,经典之作或者具有深刻、独到的思想,或者蕴含丰富、深邃的生命体验,或者表现了一种崇高的人生境界,或
8月15日,孟州市东小仇学校彩旗招展,鼓乐喧天。“我们东小仇学校扩建工程今天胜利竣工,多亏了国土部门啊。”校长高兴地说。
每个新年伊始,《数码印刷》都将联合中国印刷技术协会数字印刷分会(DPB)评选出上一年度的“数码印艺产品编辑推荐奖”,汇集市场上数码印艺领域的优秀产品,为用户提供参考和借鉴。
期刊
11月14日,主题为“可持续旅游助推地方经济发展”的2017年中国教科文组织世界地质公园年会在福鼎市隆重召开。年会进一步深入贯彻党的十九大精神及践行“创新、协调、绿色、开
<正> 随着体育科学技术的不断发展,对于运动训练有着更新、更高的要求。在这一时期的特征之一就是不断改变训练手段、方法。在长距离跑训练中,为提高运动员的竞技能力,保证生
优质优价是一种客观经济现象,用劳动耗费理论来解释这种现象存在着严重的缺陷,而用使用价值来解释这种现象又有陷入效用价值论的危险。但社会必要劳动时间决定商品的价值量所
目前的地图匹配算法分为在线和离线匹配两类。针对离线地图匹配中Marchal算法精度较低的问题,提出了一种改进的Housdorff距离匹配算法,利用航线方向角与Housdorff距离对Marchal匹配算法进行了改进。通过仿真试验的定性定量分析,新算法可以较好地纠正矢量数据不完整时产生的错误结果,很大程度上提高了匹配的准确性,可以为导航系统以及规划部门提供保障服务。
小麦纹枯病是小麦生产上的常发性病害,拔节后病菌侵茎引起茎杆腐烂,影响养分、水分的传导;抽穗后影响灌浆结实,甚至形成枯自穗,导致减产,严重的可造成倒伏。我地调查显示.目前田间纹
为提高传统不确定性推理在中医辨证中的准确率和灵活性,提出了基于D-S证据理论的中医辨证模型。模型采用群决策理论,以证素为识别框架,以不同专家的诊断结果为基本可信度分配,对
针对常规基于肤色检测的Ada Boost算法的不足,提出了一种改进的Ada Boost人脸检测算法,算法包括人体肤色模型、人脸运动检测模型、改进的背景提取方法、针对人脸区域的光照增