论文部分内容阅读
近年来,垃圾电子邮件的数量急剧增加,已经对全世界的网络和生产力造成巨大的损失。垃圾电子邮件的过滤也逐渐成为研究的热点。
在生物信息学研究中,特征模式提取对生物种群分类、遗传信息研究等有极其重要的作用。由于垃圾邮件具有内容重复的特点,而用于搜索生物序列相似性的模式提取算法如Teiresias算法可以从输入序列中找出重复出现的模式,所以可将这类算法应用于提取垃圾邮件的特征模式,从而对邮件进行分类并过滤。
本文将生物信息学领域的模式提取算法应用于中文邮件过滤系统。对生物序列模式提取算法在邮件过滤系统中的应用进行了详细的研究。针对中文邮件文本的特点,提出了Teiresias算法应用于中文邮件过滤的实现方法,并深入分析了算法参数对过滤效果的影响,开发实现一个垃圾邮件过滤系统BioMatrix。
BioMatrix系统通过MD5算法计算邮件内容特征,挑选内容不同的垃圾邮件,形成垃圾邮件训练集,作为Teiresias算法的输入,提取出大量垃圾邮件模式。然后利用DFSA多模式匹配算法来实现过滤器的模式匹配,使过滤速度只受待过滤邮件长度的影响,与垃圾邮件模式数据无关,因此显著提高了邮件过滤的速度。
BioMatrix系统结合垃圾邮件模式与邮件的匹配次数以及对邮件覆盖程度,对待过滤邮件评分,通过设定阈值对邮件分类过滤,并把超过反馈阈值的邮件添加入的垃圾邮件训练集,实现系统自学习,不断更新垃圾邮件知识库。
在系统实现方面,模式匹配模块采用共享内存的通信方式,以适应邮件过滤系统的效率和性能要求。系统还采用了缓存机制来提高邮件内容特征的查询速度。
最后,对系统的过滤效果和性能进行了分析评估,并与其他算法的过滤器进行比较。实验证明将生物信息技术应用于邮件过滤具有一定的研究和实用价值。DFSA多模式匹配算法在垃圾邮件模式匹配的性能优化方面发挥了很好的作用。