基于内容的垃圾邮件过滤系统的设计与实现

来源 :武汉邮电科学研究院 | 被引量 : 3次 | 上传用户:dafsgdfgd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,电子邮件因使用方便,通信快捷,已成为我们生活中的一部分。但是,现在很多的组织或者个人利用电子邮件的便捷,发布大量垃圾信息,这就是垃圾邮件。如今垃圾邮件问题越来越严重,它不仅传播了大量不良信息,还浪费了我们大量时间。垃圾邮件分类技术中用的比较多的分类算法有朴素贝叶斯(Naive Bayes)、神经网络、K-近邻法、支持向量机(SVM)等。由于邮件分类算法都是建立特征项提取基础上的,因此特征项提取直接影响着邮件的分类效果。随着学者的研究发现,对电子邮件内容特征进行提取的有效算法有:文档频率、信息增益、互信息、期望交叉熵、文本证据权、CHI统计以及TFIDF等。TFIDF因其便于理解、操作简单、时间复杂度低等优点被广泛的运用,该算法也存在不足之处:该方法只考虑了特征词文档的绝对数量和特征词在某类邮件中的词频,没有考虑到特征词在类中的分布情况和特征词在其他类邮件中的词频,高估了低频词的作用并低估了高频词的作用。本文将重点探讨并对比现有垃圾邮件过滤技术,分别从邮件预处理、中文分词、特征提取和分类器等角度展开。在比较多种特征提取算法后,论文选择对传统的TFIDF算法进行一定的修改和优化,通过降低特例邮件中频繁出现的特征词的影响,引入了频率差,分别对类中频繁出现和出现频率小的词条的权值进行增加和减少。最终实验结果表明,改进后的方法可以选择出更适合的特征集合,从而使邮件分类的效果更好,达到更有效的垃圾邮件过滤效果。
其他文献
以QQ为代表的网络即时通信软件已成为人们广泛使用的一个网络工具.QQ群因其特有的即时、普遍、简易等特性而被现代教育工作者所接受并灵活利用.利用这些特点,探讨腾讯QQ与个
梨小食心虫Grapholitha molesta(Busck)是梨园、桃园重要的果树害虫。本文比较研究了梨小食心虫性信息素在梨园、桃园悬挂不同高度、设置不同密度对梨小食心虫雄性成虫诱捕效
梨小食心虫Grapholitha molesta(Busck)是我国重要的果树害虫,本文利用室内饲养观察、室外田间模拟、果园采集饲养等方法系统研究了梨小食心虫成虫的性比及日羽化节律;并利用
讨论导体切割磁感线和磁感线横扫导体的区别的同时,以特例说明感应电动势中的感生电动势和动生电动势的绝对性和相对性.
IPO市场是我国证券市场的重要组成部分,近期科技创新板的试点推出,意味着我国IPO市场改革进一步深化,发展速度进一步加快。快速发展的IPO市场中,证券公司作为IPO项目的主要责任人,对项目风险的把控尤为关键。提高证券公司IPO项目风险预警和应对水平不仅对证券公司的良性发展十分重要,对整个IPO市场乃至证券市场同样至关重要。本文结合证券公司风险管理理论、项目风险管理理论和BP神经网络方法研究了X证券
<正>红色测量觇标竖立在地球之巅,珠峰脚下的6个交会测量点同时展开峰顶联测;GPS测量设备、冰雪深雷达探测仪在峰顶开始工作……2005年5月22日上午11时零8分,珠峰高程测量迎
期刊
介绍求待定系数的实根代入法、复根代入法、极限法等一些简单方法,能更快捷有效地解决有理函数的积分问题.
随着我国信息技术产业的发展,电子商务的迅速崛起给传统仓储物流带来了巨大的挑战。虽然近些年来我国的物流行业也取得了较大发展,但是相比于发达国家,我国的物流成本在GDP中的比重仍较大,物流体系的整体智能化水平仍然较低。目前,国内外都在大力发展智慧物流,而智能仓储作为整个智慧物流体系中极其重要的一环,也早已引起了世界各国研究者的关注。以亚马逊的Kiva系统为代表的基于多移动机器人的智能仓储搬运系统的提出
自2001年8月我国在上市公司全面推行独立董事制度以来,对独立董事如何进行激励和约束成为公司治理中的热点课题。本文以2002年末已聘独立董事的全部1201家上市公司为样本,研
自1996年以来,全球Bt(Bacillus thuringiensis)棉花应用规模迅速增长,目前已占棉花种植总面积的60%左右,主要种植国家包括美国、澳大利亚、中国、印度和巴基斯坦等。大量研究