基于生物序列模式提取技术的邮件过滤系统的研究与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:yst598
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,垃圾电子邮件的数量急剧增加,已经对全世界的网络和生产力造成巨大的损失。垃圾电子邮件的过滤也逐渐成为研究的热点。   在生物信息学研究中,特征模式提取对生物种群分类、遗传信息研究等有极其重要的作用。由于垃圾邮件具有内容重复的特点,而用于搜索生物序列相似性的模式提取算法如Teiresias算法可以从输入序列中找出重复出现的模式,所以可将这类算法应用于提取垃圾邮件的特征模式,从而对邮件进行分类并过滤。   本文将生物信息学领域的模式提取算法应用于中文邮件过滤系统。对生物序列模式提取算法在邮件过滤系统中的应用进行了详细的研究。针对中文邮件文本的特点,提出了Teiresias算法应用于中文邮件过滤的实现方法,并深入分析了算法参数对过滤效果的影响,开发实现一个垃圾邮件过滤系统BioMatrix。   BioMatrix系统通过MD5算法计算邮件内容特征,挑选内容不同的垃圾邮件,形成垃圾邮件训练集,作为Teiresias算法的输入,提取出大量垃圾邮件模式。然后利用DFSA多模式匹配算法来实现过滤器的模式匹配,使过滤速度只受待过滤邮件长度的影响,与垃圾邮件模式数据无关,因此显著提高了邮件过滤的速度。   BioMatrix系统结合垃圾邮件模式与邮件的匹配次数以及对邮件覆盖程度,对待过滤邮件评分,通过设定阈值对邮件分类过滤,并把超过反馈阈值的邮件添加入的垃圾邮件训练集,实现系统自学习,不断更新垃圾邮件知识库。   在系统实现方面,模式匹配模块采用共享内存的通信方式,以适应邮件过滤系统的效率和性能要求。系统还采用了缓存机制来提高邮件内容特征的查询速度。   最后,对系统的过滤效果和性能进行了分析评估,并与其他算法的过滤器进行比较。实验证明将生物信息技术应用于邮件过滤具有一定的研究和实用价值。DFSA多模式匹配算法在垃圾邮件模式匹配的性能优化方面发挥了很好的作用。
其他文献
无线多媒体传感器网络是在传统的无线传感器网络的基础上引入音频、视频、图像、声音等大容量信息,在智能家居、战场监控、交通监控等领域具有广阔的应用前景。然而无线多媒体
期刊
期刊
期刊
本文主要研究了正交频分复用(OFDM)系统中的预失真线性化技术。OFDM技术作为一种高速率信号传输技术具有很多突出的优点。但是由于OFDM信号具有高的峰平比,使得它对功率放大
期刊
期刊
开放网格服务体系(OpenGridServiceArchitecture:OGSA)是网格计算和Web服务技术互相融合的产物,它将网格资源共享的概念扩展为更具有普遍意义的服务的共享和协作,具有对异构资源
期刊
以太无源光网络(EPON)技术是基于以太网和光纤的宽带接入技术,它是一种点到多点的媒体访问机制。光线路终端(OLT)在其下行信道采用广播方式发送到各个光网络单元(ONU),在上行