中文垃圾邮件过滤技术的研究

来源 :南开大学 | 被引量 : 0次 | 上传用户：sz_ocean

【摘要】

：

众所周知，电子邮件是互联网最重要、最普及的应用，大大方便了人们生活、工作和学习。但垃圾邮件问题也日益严峻，经过综合计算，垃圾邮件给中国的GDP每年造成的损失多达60.69亿人民

【作者】

：

石强

【机构】

：

南开大学

【出处】

：

南开大学

【发表日期】

：

2006年期

【关键词】

：

中文垃圾邮件邮件过滤系统文本分类朴素贝叶斯增量学习 DragPushing算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

众所周知，电子邮件是互联网最重要、最普及的应用，大大方便了人们生活、工作和学习。但垃圾邮件问题也日益严峻，经过综合计算，垃圾邮件给中国的GDP每年造成的损失多达60.69亿人民币。由于法律、技术等多方面的原因，目前还无法从根源上制止垃圾邮件的产生，所以研究反垃圾邮件技术势在必行。其中基于内容的反垃圾邮件技术是目前国际上研究的重点。本文在总结前人所做工作的基础上，针对中文邮件的特性，从整体上对邮件过滤系统进行了深入的研究，并在特征抽取、分类算法等方面提出了一些改进意见。具体来说，本文做了以下工作： 1.从经济、法律、技术等方面讨论了垃圾邮件产生的原因，总结了目前国内外垃圾邮件过滤技术的现状，并详细介绍了文本分类算法在基于内容邮件过滤技术上的应用。 2.本文通过一系列的实验，分析了特征抽取算法、特征词数量及词性选择等因素对邮件过滤系统的影响。我们发现，优势率算法非常适合邮件文本的特征抽取。同时我们发现了中文邮件文本特征在词性和数量方面的一些规律。 3.考虑到邮件过滤系统中再学习能力的重要性，本文将一种增量式贝叶斯分类模型运用到邮件过滤系统中，并取得了很好的效果。实验证明，它可以大幅提高对未知邮件的分类正确性。另外，本文将广泛应用在中心法的DragPushing修正算法的思想应用到朴素贝叶斯分类器上去，它可以有效地提高朴素贝叶斯分类器的准确率。 4.文章最后，提出了一个理想的垃圾邮件过滤系统的模型。

其他文献

基于扩频技术的DCT域数字水印技术研究

随着信息技术和计算机网络的飞速发展，数字式多媒体信息的存储、复制与传播变得非常方便。人们可以通过Internet或CD-ROM获得多媒体信息，可以得到与原始数据完全相同的复制品，并

学位

数字水印灰度图像彩色图像扩频技术离散余弦变换

ZigBee网络的路由优化算法研究

随着物联网时代的到来,无线传感器网络的应用也越来越广泛。作为无线传感器网络工业标准之一的ZigBee技术,具有高可靠性、低成本和低功耗的特点,被广泛应用于工业控制、农业

学位

ZigBee网络结构向量拓扑优化分层树路由能量优化邻居表

基于虚拟样机的并联坐标测量机运动建模与仿真

本论文主要研究的是并联坐标测量机。因虚拟样机技术无需建造实物样机,从而使得它在虚拟轴机床的设计上具有很好的应用前景。本论文针对Stewart型六自由度并联坐标测量机的机

学位

并联坐标测量机虚拟样机运动学正解运动学反解测量空间结构参数优化神经网络遗传算法

满族说部与满族民俗——以萨布素系列说部故事为例

满族说部是满族民间长篇说唱艺术,它是满族各个氏族传讲自己祖先英雄史的重要形式。萨布素的系列说部故事是长期流传于满族民间的著名英雄故事。在萨布素故事中出现了许多满

期刊

说部满族民俗萨布素故事

基于激光测量的人体三维发型特征数据库的研究

基于激光测量的人体三维发型特征数据库系统是对发型数据库数学建模的一种新方法的探讨，即三维发型数据采集与数学建模以及数据库的结合。基于激光测量的人体三维发型特征数据

学位

激光测量人体三维发型模糊加权均值滤波OpenGL发型数据库人体发型匹配

多功能全自动水产养殖作业船控制系统

随着人民生活水平的不断提高,市场对于河蟹产品的需求量逐年攀升,河蟹产业也成为了我国淡水养殖中的支柱产业。在河蟹的养殖过程中主要面临着水草清理和均匀投饵两大难题,当

学位

河蟹水产养殖作业船路径规划自动导航模糊PIDQt Creator

混合型动态有源滤波器的研究及工程应用

本论文以某冶炼厂整流系统的谐波治理和无功补偿为研究对象，旨在研究大容量电网的谐波治理工程应用技术，为高压、大功率有源电力滤波器(APF，Active Power Filter)在国内的早日普

学位

整流系统无功补偿谐波治理有源滤波器

中文垃圾邮件过滤技术的研究

与本文相关的学术论文