基于Winnow算法的反垃圾邮件引擎的设计与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:carjitar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子邮件已经成为人们日常交流沟通的重要手段和企业运转不可或缺的重要组成部分,然而垃圾邮件作为电子邮件的副产物却日益影响着人们的日常生活,反垃圾邮件已经成为全球的重大研究课题。反垃圾邮件技术有很多,常用的方法是从电子邮件的文本内容出发,使用文本分类的方法,在训练集合上学习并构造分类器,并用测试集测试系统性能。近年来,垃圾邮件的中心开始迁向中国,因此研究中文反垃圾邮件有很重大的意义。本文主要针对中文垃圾邮件,研究了反垃圾邮件引擎中所需的各种技术,设计了系统的模块划分,包括预处理模块、训练模块、分类模块和反馈模块,并给出了部分重要模块的实现,最终实现了一种基于Winnow算法的反垃圾邮件引擎。具体的说,本文的工作主要包含如下内容:1)预处理模块包括邮件解码和中文分词,在邮件解码模块详细给出了Base64和QP的编码规范和解码算法,在中文分词模块,为了更好的维护词典,采用改进的全二分最大匹配快速分词算法。2)训练模块采用Winnow算法构造分类器,Winnow是一种错误驱动在线学习线性分类算法,其在线学习的特性非常适合“一例一学”的增量式反馈。在本系统中,分别实现了最基本的Winnow和Balanced Winnow,经测试发现Balanced Winnow的性能要优于最基本的Winnow。3)在分类模块,经测试发现最初的设置阈值方法会导致Recall过低,调整阈值后,系统的效果有较大的提高,最后总结了阈值调整的方法。
其他文献
目前,伴随着飞行器对飞行速度、飞行高度的要求不断提高,将不同种发动机的性能优势整合起来成为一种发展趋势,其中TBCC发动机在组合动力系统中是最具前景之一。TBCC作为一种吸气
本论文对鼠笼型异步电机的转子故障机理和故障信息进行了深入的理论分析和仿真研究,并以此为基础,介绍了一套电机转子故障诊断平台的硬件和软件的实现方法。 首先,对电机转子
该文设计了一款白光LED驱动DC-DC升压芯片。该设计基于电流控制模式、脉宽调制方式,减小了输出电压的纹波,确保控制环路更加稳定,同时采用同步整流技术,提高了升压转换效率,芯片开关频率为1MHz,保证外围器件可以选择小型的低ESR电容器,从而确保芯片有着更好的集成度。本文首先讨论了DC-DC转换器的设计背景,阐述了国内电源管理行业面临的机遇与挑战。随后就组成DC-DC转换器的主要控制功能模块以及相
全自动生化分析仪是一个涉及到光学、机械、电子、计算机、生物化学和临床医学等多个技术领域的高科技产品,也是医疗机构进行临床诊断所必需的仪器之一。本文密切结合湖南爱
地磁导航技术通过测量地磁场数据来得到位置信息,因为不需要向外发射和接收信号而具有极佳的隐蔽性;此外地磁传感器具有体积小、重量轻和成本低的特点,这些优点使地磁导航具备重
馈线自动化系统是配电网系统的重要环节,而馈线终端单元(FTU)又是实现馈线自动化的重要设备,论文从配电网系统及馈线自动化系统的分析出发,分析研究基于多Agent系统(MAS)网络式
T-S模糊模型的提出与应用,极大地拓展了模糊控制研究的领域。而T-S模糊模型可以以任意精度逼近任意一个平滑的非线性系统这一特性使得利用T-S模糊模型控制分析非线性系统成为
饱和是控制系统中最为普遍的非线性现象之一,大多数执行器不可避免的会出现饱和。如果执行器的输入量达到一定限制,就进入了饱和状态,因为进一步增加输入不能对执行器的输出产生
在航空、航天及各个工业生产工程等领域中,存在大量结构化的一类不确定性系统,系统的参数变化是紧密依赖于系统的当前状态的。这类不确定参数对象可以是电路系统中的隧道二极管
TD-SCDMA是国际上公认的第三代移动通信技术标准之一,也是我国首个拥有自主知识产权的通信标准。目前,关于TD-SCDMA的各项研究在国内正如火如荼的展开着,其中一项很重要的研