基于内容的垃圾邮件过滤系统研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:shui__hen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子邮件的普及,垃圾邮件问题日益凸显,其数量急剧增长,内容千变万化,具有破坏性强,传播速度快,危害范围广等特点,已经成为全球化公害。如何有效地过滤和治理这些垃圾邮件成为当前的迫切要求。现有的垃圾邮件过滤技术主要包括基于规则的过滤和基于内容的过滤两大类。基于规则的过滤方法加入的主观因素较多,抗干扰能力较弱,规则制定的好坏将直接影响邮件的过滤效果。基于内容的过滤作为当前垃圾邮件处理所采用的一种主要技术手段可以通过文本分类的相关算法针对邮件内容自动寻找规律,本文主要针对基于内容的过滤方法进行相关研究。本文从邮件的预处理、特征选择、权重计算和分类器的设计等方面对如何改善垃圾邮件的过滤性能进行了探索,并对现有的算法在垃圾邮件过滤中存在的问题进行了分析。针对基于内容的垃圾邮件过滤算法存在的“维数灾难”等问题,预处理中加入词频和文档频度过滤,采取双重特征选择算法,有效的降低了冗余信息和噪声数据对分类性能的影响。针对垃圾邮件与正常邮件在语义表述上存在的差异性,本文提出一种基于类别信息的LDA特征选择及加权算法Categories-LDA,在不同类型的邮件集中建立各自的生成模型,分别搜寻构成各个主题的特征信息。该算法不但利用了LDA模型基于隐含主题建模的优点,而且还有效的克服了由于忽略类别主题差异性所造成的系统过滤性能下降的影响。本文将反馈学习与随机森林算法相结合,继承了决策树集成与反馈学习的优势,针对垃圾邮件种类实时变化的特点和客户群对邮件判别的差异性,实现邮件过滤系统的自适应调节,及时捕捉到垃圾邮件的变化趋势,搭建客户与过滤系统的内在联系平台。实验表明:基于类别信息的LDA特征选择及加权算法采用反馈学习的随机森林分类器可以有效的提高邮件的分类精度。在CCERT中文语料库的2005-Jun子集上系统精确率提高约2%,在Trec06中英文语料库上垃圾邮件的准确率提高约3%。
其他文献
期刊
化学驱油技术是进行剩余油开采的重要手段,在制定油藏开发方案以前,需要进行油藏数值模拟,对油藏开发进行预测、规划、动态分析及效果评价,而油藏数值模拟结果数据量大,分析
随着人工智能和计算机技术的快速发展,以此为基础的专家系统在各行各业中得到了前所未有的重视,其应用已遍及农业、商业、化学、通信、医学等多个领域。同时,病理图像作为医
随着智能终端技术的迅速发展以及应用领域的不断扩展,无线传感器网络感知数据的种类和数量也快速增长,而其中的图片、视频等多媒体数据由于很好地满足了人们依赖视觉以及听觉
本文主要以探索研究适合现代的高校实验室的管理与建设的方法、手段为目的,从而更大的发挥实验室的利用率,提高实验室在实际教学中的作用.
图像的Gabor特征(图像Gabor变换的系数)有着广泛应用。Gabor小波函数有二个参数:方向因子和尺度因子。通常,为了达到二维全频域的覆盖,一幅图像要进行40次Gabor小波变换(8种不同
Galileo导航卫星系统作为欧洲卫星导航的基础设施,由欧洲委员会和欧洲空间局共同致力研究的。它打破美国全球卫星导航定位系统(GPS)的垄断地位,为全球提供一种完全面向民用和高
计算机视觉的研究目标是:模拟人类视觉,根据感测到的图像对实际物体和场景做出有意义的判定。人类对于图像的感知是通过对其中包含的一系列特征进行编码,然后比较这些特征与先验
数学是思维的体操,学生的思维能力培养的水平如何,通过学生的交流能力得以体现,如果学生在平时的交流中,能做到言之有理,言之有序,可见孩子的交流能力非同一般.
新会计准则进行会计职业判断的空间已经越来越大,因此,会计职业判断能力的要求也在不断的提高.在会计教学里所面临的新任务是培养任何强有力的会计职业判断能力的人才,因此本