基于内容的电子邮件过滤系统的研究与设计

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:xiaojiaoechou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子邮件是当今最为经济和快捷的通讯方式,而垃圾邮件也成为互联网领域的一大难题。目前,用户收到的垃圾邮件的数量已经超过了正常邮件的数量,而且还有进一步增加的趋势。与此同时,人们也研究出了许多的解决垃圾邮件问题的途径和思路,基于内容的垃圾邮件过滤方法是较为重要的方面,其中,Boosting、Bayes、SVM、Winnow方法是目前较好的垃圾邮件过滤方法,它们在评测语料上的结果已经达到很高水平。本文针对上述问题和现有的研究成果,将最优搜索理论引入垃圾邮件过滤领域,采用最优搜索和KNN相结合的方法,对通过SVM过滤器的可能是误判的垃圾邮件进一步做出判断,来减少正常邮件误判为垃圾邮件给用户带来的损失。主要改进工作为:对分词词典进行了重新加工组织,增加了一些最近出现的词,删除了1字节和2字节词。在分词的具体实施上作了一些相应处理,避免了漏掉重要词语,减少了分词的工作量和分词后得到的词数,为后续的特征选取减少了计算量;分词过程中,对数据库操作做了改进,提高了分词速度。对特征项权重的计算作了改进,提高了分类的精度。创新工作为:根据KNN方法的分类效果和最优搜索方法的在给定资源限制条件下,达到最大查找概率的特点,用最优搜索方法之长补KNN方法之短,构造了最优搜索和KNN相结合的垃圾邮件再过滤模型,提高了垃圾邮件过滤的正确率,降低了误判率。根据上述研究成果,本文最后给出了一个基于SVM和最优搜索与KNN相结合的双重垃圾邮件过滤系统。
其他文献
XML已经成为网络上数据表示和交换的通用标准。随着XML的应用越来越广泛,对XML查询效率的要求也越来越高。模式树匹配是XML查询的核心操作,在高效处理模式树匹配的各种方法中,结
超分辨率图像重建的目的是利用信号处理和图像处理等方法消除成像时诸因素导致的图像退化,同时恢复出光学衍射极限分辨率所决定的截止频率外的信息,形成分辨率更高的清晰图像。
在现有的网络流量中,TCP数据流占据了绝对优势,针对TCP数据流的测量成为网络测量的研究热点。网络测量以获取测度值为目的,所以,对于数据流测度的研究十分必要。为此,本论文围绕TC
随着Internet应用的普及,电子邮件凭着其方便、快捷、成本低廉的特点逐渐取代了传统的通信方式,成为了人们通信的越来越重要的手段,但是随之而来的垃圾邮件也越来越猖獗。垃圾邮
机器人在未知环境下的自主导航,通常存在着大量的障碍物阻碍着移动机器人的前进,机器人必须在这些有限的工作环境中,寻找到一条无碰撞、时耗或能耗最小的最佳路径,到达指定地点并
随着计算机网络的发展与普及,人们在得到便利的同时,不得不面对各种安全威胁。黑客攻击、计算机病毒、信息非法获取等给网络信息安全带来了严重的威胁,安全事故屡有发生,并造成了
互联网的迅猛发展和计算机水平的提高带来了信息过载问题,如何快速的从中获取用户所需要的部分,成为一个亟待解决的问题。信息过滤技术可以帮助人们检出感兴趣的信息而屏蔽掉
在全国各级税务部门中掀起了推广应用CTAIS(中国税收征管信息系统的英文缩写)的热潮,虽然取得较好的效果。但在现有CTAIS中,纳税评定环节却是采用人工评定的方法,没有实现评定自动化。纳税评定能否自动化将直接影响税收征管信息系统的智能化程度以及信息化管理的准确性,它是税收征管信息系统的一个重要组成部分。本文以贵州省贵阳市云岩区国税局市西路大市场税收征管信息系统纳税评定为研究主体,认真分析了该纳税评
学位
随着嵌入式技术的飞速发展,虽然嵌入式芯片的功能变得功能日益全面和强大,但却越来越受制于发展速度相对缓慢得多的电池等供电技术。由于系统功耗的限制,嵌入式系统的持续工