反垃圾邮件技术新解：多层构建邮件免疫机能

来源 :中国计算机报 | 被引量 : 0次 | 上传用户：jeanstrouse

【摘要】

：

【作者】

：

阮光尘　朱元春

【出处】

：

中国计算机报

【发表日期】

：

2007年34期

【关键词】

：

垃圾邮件方法邮件免疫等人细胞

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　作者简介
　　阮光尘，北京大学信息科学技术学院硕士，主要研究方向为人工免疫系统、模式识别和机器学习。
　　朱元春，北京大学信息科学技术学院博士、中国计算机报博士撰稿团成员，主要研究方向为群体智能。
　　鉴于近年来垃圾邮件所引发的严重社会问题，学者们提出了众多的垃圾邮件检测和过滤方法。现有的垃圾邮件检测方法取得了一定的效果，但仍不理想。当今，研究学者从技术自身的特点提出了许多反垃圾邮件的技术和策略，诸如简单性、智能性、层次性等几个方面，我们可以得到如表1所示的分类结果。从技术部署的层级来说，我们可以得到表2所示的分类结果。由于智能型方法具有学习的能力和动态调整的功能，并且在实际的应用中展示出了良好的性能，受到了学者们的广泛关注并得到了深入研究。
　　
　　智能处理垃圾邮件四法
　　
　　智能型的垃圾郵件检测技术和传统方法相比体现出了更强的学习能力和调整特性。在智能型的邮件处理方法中，机器学习和人工神经网络的方法已得到了深入的研究。新兴的方法包括DNA计算、基于免疫的方法等，目前主要的垃圾邮件检测方法有如下四种。
　　1.朴素贝叶斯(Naive Bayes)。这是一种基于统计学的机器学习方法，也是垃圾邮件检测领域中的一种常见方法。Raju Shrestha等人利用不同位置出现的同一关键字的内部关联特性进行分类，计算关键字的协同权重(co-weighting)，并取得了性能上的提高。Li et al等人提出了基于用户反馈的改进的Naive Bayes方法，获得了相对低的丢失率和较好的性能。
　　2.支持向量机(SVM)。它以统计学习理论中的结构风险最小化原理作为理论基石，通过最大化margin得到最优的泛化性能。Drucker等人实现了一个基于SVM的过滤器。他们的研究表明，SVM过滤器在使用二元特征表示方法时达到了最优的性能。
　　3.人工神经网络(ANN)。它模拟了人脑中信息处理的工作过程，作为机器学习领域中的一个重要分支，在许多应用领域都取得了很好的效果。James Clark等人利用神经网络自动分类邮件，开发的系统Linger在Ling-Spam corpus获得了较高的正确率。
　　4.基于免疫的垃圾邮件过滤方法。借鉴了生物免疫系统的机理，将垃圾邮件抽象为免疫系统中的病原体，利用负选择算法、免疫克隆等算法进行垃圾邮件的检测和过滤。以下将对这种方法进行详细的介绍。
　　
　　基于免疫的处理技术
　　
　　Andrew Secker等人提出了基于免疫的邮件分类算法AISEC(Artifical Immune System for E-mail Classification)。该算法旨在区分出用户感兴趣的邮件和不感兴趣的邮件。
　　在AISEC中，主要通过控制两个不同集合中所包含的人工免疫细胞的数量，使算法具有动态调整的特性。这两个集合分别由平凡B细胞(naive B-cell)和记忆B细胞(memory B-cell)构成。B细胞由包含有邮件主题部分和发送者部分关键字的特征向量表示。当一封新邮件到来时，被看作为抗原(antigen)并被转换成和B细胞有相同表现形式的特征向量。接下来计算该抗原和集合中B细胞的相似度(affinity)，如果计算出的相似度超过了预先设定的某一阈值，那么认为B细胞识别出了该抗原并将其归类为用户不感兴趣的邮件。
　　Terri Oda等人将人工免疫模型应用于垃圾邮件处理，主要利用了免疫中自己/非己的检测原理和检测器的概念。在实现的邮件过滤系统中，首先从多样的来源中构建基因库。这些来源包括语言中的词汇、所收集的邮件中的词汇和词组等。在系统初始化的过程中，使用随机的方法从基因库中生成抗体及其关联的淋巴细胞。在构建的过程中，不允许相似抗体的重复产生。每个淋巴细胞除了具有抗体属性外，还有msg_matched和spam_matched两个属性与其关联，分别用于表示淋巴细胞所匹配的邮件的数目和垃圾邮件的数目。
　　在系统的运行过程中，使用了带权平均值的评价方法对邮件的类别进行判断。在这种评价方法下，匹配次数多的淋巴细胞在评分中具有较大的权重。为了适应正常邮件以及垃圾邮件内容的不断变化，系统引入了老化和死亡机制。
　　
　　多层处理策略成趋势
　　
　　随着信息与计算机技术的发展，机器逐渐将代替我们人类去做许多工作，迫切需要研究人类的各种智能行为，以实现具有某些人类智能行为的机器。人类自身具有很高的智能性，许多学者采用模拟生物机理的方式来获得较好的智能行为，如人工神经网络、人工免疫系统等。人工处理垃圾邮件方式效率低，难以处理指数性膨胀的垃圾邮件。而自动化垃圾邮件过滤方法虽处理速度快但效果却并不好。因此，如何在利用机器自动化处理的同时还保持人工处理方式的高度智能性，成为当前研究的热点和难点。
　　作为一种新的智能型的垃圾邮件处理策略，基于免疫的邮件过滤方法除了体现较好的自适应特性和动态调整特性，还能够及时的追踪用户喜好的变化。

其他文献

中国手机市场仍由洋品牌主导

赛迪顾问最近发布的《2007年1~6月手机市场研究报告》显示，今年上半年，中国手机市场仍由洋品牌主导，仅诺基亚、摩托罗拉、三星3家公司所占的市场份额就达到61.4%，比去年同期上升了8.9%。　　报告称，上半年国产手机销量达7147.8万台，销售额为845.8亿元，分别比去年同期增长25.5%和5.5%。随着手机价格持续走低和低端手机销量增大，手机市场的整体利润逐渐减少，国产手机利润下降。　　赛迪

期刊

三星手机市场摩托罗拉上半年份额诺基亚

变化中的交易所

在过去的10 年中，全球金融市场历经了很大的合并浪潮，通过合并，局部和地区性的交易所数量明显下降。比如说，中国香港证券交易所就是由三家独立的金融机构合并成立的一家交易机构，这三家公司分别从事不同的金融产品交易，其交易室布局和管理结构也是完全相同的。这方面的其它例子还有：Monep、Matif 和 Paris Borse 合并后成立 Euronext，印度的 22 家交易所合并成两家交易所——Bom

期刊

交易所业务模式证券交易所市场放在

网上卖耗材的新探索

当传统的IT渠道商，在销售打印机和耗材利润近乎与普通搬运工种时，探索新盈利模式就变得急迫和必然。而网络销售的低成本优势，或许正是解决问题的良方。在借鉴以往实体店面的物流体系经验后，网络技术与现代物流的成功嫁接，诞生出了高效的果实。来自浙江、北京等城市一线经销商的尝试，也大致勾勒出了未来打印办公耗材的新渠道模式蓝图。　　点点鼠标就能把耗材送来，过去是用户的愿望，现在已经变成了现实。　　　　案例介绍　

期刊

用户爱普生出了浙江远方墨盒

华立状告三星双模手机侵权

关键字：华立/三星/双模手机/专利侵权　　　　三星双模手机陷入了知识产权纠纷之中。三星电子就被起诉一事给本报发来声明称：“三星电子知悉浙江省某公司诉深圳三星科健移动通信技术有限公司(三星电子之子公司)双模手机使用了该公司的专利事宜。三星电子一贯尊重他人有效的专利权。对于不实诉求，我们将采取相应的法律措施，并通过法律途径证明该主张是没有根据的。”　　4月24日，在首届中国通信业知识产权保护与经营论

期刊

三星TD-SCDMA专利通信双模手机三星电子

１０Ｇ　Ｂａｓｅ－Ｔ万兆以太网的挑战与安普布线解决方案

早在2002年6月，IEEE802.3ae任务小组就颁布了一系列基于光纤的万兆以太网的标准,能够支持万兆传输的距离在300m(10GBase-SR,OM3多模光纤)到40km(10GBase-EW，OS1单模光纤)之间,该技术适用于距离较远的园区主干或数据传输速率要求较高的楼内垂直主干以及数据中心服务器集群。然而，万兆以太网光纤解决方案不论从网络设备成本、安装成本，还是维护成本各个方面都远远高于采

期刊

以太网屏蔽标准系统电缆测试

未来的ＰＣ什么样？

获得公众选择奖，来自江西省的独立设计师朱飞的作品——点亮你的生活，将无线连接和模块化结构这两点创意到了极致。　　5月16日，比尔盖茨在洛杉矶揭开了第16届Windows硬件工程大会(WinHEC)的序幕，并亲手颁出了“2007下一代PC设计大赛”(2007 Next-Gen PC Design Competition)的奖项。　　华人创意熠熠生辉　　国际性大赛—下一代PC设计大赛的宗旨是激发设计者

期刊

创意个人电脑的人未来电脑终端

联想战车进驻田间地头

农民朋友在店内体验联想天福电脑　　　　这是发生在身边的一个小故事。　　小原是北京某公司的网络管理员，而他父母是广东清远英德市某个村的村民。近年，随着清远致力于打造成为广州市的后花园，清远的旅游业发展很快。小原的老家山清水秀，很多人开起了“农家乐”家庭旅馆，游客可以在那钓鱼和摘果子以及享用农家特色的饭菜，小原家也开了一个。但由于开发得晚，即使交通比较便利，但整个村的生意都不怎么样。小原在北京工作，看

期刊

农村英德市农民广东省信息联想集团

安全至上，易用为先

中国计算机报IT实验室　　　　在PC市场的竞争日趋激烈的形势下，为了避免价格战带来的困境，各PC厂商都在做出自己的努力。　　据赛迪顾问统计，2006年，中国台式PC市场销量达到1865.2万台，同比增长13.3%。在销量增长的同时，由于竞争导致的价格持续快速下降，使得厂商利润水平并没有同步提升，整体市场销售额同期只增长了3.4%。　　严峻的形势表明，单纯地以快速推出产品和快速降低价格来扩大市场

期刊

用户价值这一市场需求备份

联想家用电脑１５年大事记

一、１９９２年～１９９９年使用时代　　特点：电脑的主要用途是文字处理、数据计算。　　● １９９２年，联想在世界上第一个提出家用电脑的概念，“联想１＋１”品牌诞生。　　● １９９４年，联想创造性地推出多媒体电脑。　　● １９９６年，联想推出多媒体“天蝎”电脑，家用电脑第一次有了图形化的操作界面和操作环境，第一次被设计成流线型。　　● １９９６年３月１８日，联想率先将奔腾级电脑降至万元。　　● １９

期刊

电脑天骄家用电脑时代主要用途提出了

ＩＢＭ院士王云：数据库的下一代技术一点也不炫

关键字：IBM/王云/清道夫　　　　他就像大学时代我们经常能够遇到的老师，无比亲切，精神十足。　　他有着老顽童一样的微笑，一直保持着一颗童稚的心，对未知有一种渴望，他还希望把野心的概念传播给每个人。　　他说他的工作就是“让别人看不到我的工作”。由此，他最佩服的一个行业就是清道夫。因为他们早起晚睡，默默工作，却作用重大。　　他就是IBM院士王云。　　在王云看来，应用将越来越主导IT趋势。　　王云认为

期刊

工作数据库清道夫价值明治记者

反垃圾邮件技术新解：多层构建邮件免疫机能

与本文相关的学术论文