垃圾邮件过滤的两种统计方法比较——Bayesian vs.Chi-square

来源 :2004年四川省博士专家论坛——信息化与新跨越 | 被引量 : 0次 | 上传用户:magicglf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
垃圾邮件是指那些你并不希望收到,并且你也没有订阅过,但却被人利用电子邮件的特点强行塞入你的邮箱的商业广告,产品介绍,反动迷信等内容的电子邮件。它不仅占用网络带宽而且带来严重的社会问题,所以越来越多的研究怎样制止垃圾邮件。 Bayesian过滤是一种智能反垃圾邮件技术,它通过学习大量的垃圾邮件和非垃圾邮件,收集邮件中的特征词生成垃圾词库和非垃圾词库,然后根据这些词库的统计频数计算邮件属于垃圾邮件的概率,以此判定邮件是否为垃圾邮件。 Chi-square过滤是一种很新的反垃圾邮件技术,它检验两个样本集-垃圾邮件和非垃圾邮件集,检验n-度单元的显著性,提取出差别显著的关键单元,然后根据这些关键单元判定邮件是否属于垃圾邮件。 利用OBrien定义的拒绝率、精确度和失误率处理实验结果数据,比较和分析两种方法的效率。结果表明,当采用不确定的分词作为token时,Bayesian过滤的性能降低,而且中文的分词精确性又很差,所以更造成实验结果数据不佳。然而,Chi-square检验过滤相对结果成绩要好点,但当样本更大时,将会更容易拒绝零假设而得到更多无用关键单元,也大大减慢了判定运算。不过,Kilgarriff建议,改良x2检验法—X/d.f.方法将会获得理想的结果,以后我们将作更进一步的研究。
其他文献
SDH传输设备从90年代中期推向市场,由于它的保护性、可维护性和可管理性等功能完善,因而得到了快速的发展.从传输速率从155M、622M一直到40G,基本达到了电荷速度的极限.另外,
本文就大力发展民营经济无线电管理怎么办这一主题探讨了三个方面的问题,依次是:1、深挖根源提高认识;2、中国无线电管理的现状及差距;3、应该怎么办。
会议
路由器作为网络的主要和关键设备,在当前和新一代高速信息网络的建设和应用中发挥着非常关键的作用。本文首先阐述了路由器的发展历史,路由器从第一代路由器的雏形即用一台计算
会议
智能手机的内涵,需要不断的挖掘与总结,才能了解设计者的理念,除了S60系统的拓展和软件功能深入研究,即便是诺基亚智能手机上几个常见的功能按键,也有着隐藏的应用“属性”。    常规按键的二次开发    开/关机键应该是我们接触频率最少的键位了,除了开关机之外,它好像并没有实际上的作用。其实不然,轻按开/关机键,便能使系统进入到切换情景模式的状态,无论是S40还是S60系统均可如此操作,这样不仅可以
本文从电信网络技术转变的四个主要战略发展趋势和中国电信信息化与企业可持续发展的企业经营管理要求,以及信息化发展战略五年IT规划,提出了中国电信实现信息化与通讯业的可持
会议
中国电信拥有一大批经验丰富的管理人才和技术专业人才,但由于运行机制相对滞后,人才的闲置和压制的状况有不同形式的存在,造成人才资源没有得到充分的发挥,随着中国加入WTO,国内
会议
飞机总体虚拟样机设计系统是飞机设计方法与信息技术相结合的新兴技术,在研究阶段已经初步展现了它对飞机设计工作的促进作用,已经逐渐被更多的研究人员所重视并投入其研究之中
会议
论文针对目前的信息安全技术的被动性、局限性,对信息系统进行了分析和抽象,明确地阐述了应用环境、应用区域边界及网络传输平台的概念,提出了应用区域边界的安全体系结构。
会议
文章分析了攀枝花矿山采选存在的问题,提出了今后努力的几个主攻方向,并介绍了开展技术创新改造攀枝花矿采选业的初步成绩和进一步的工作。
会议
本文就关于研制试飞资源管理系统这一主题探讨了三个方面的问题,分别是:1、研制试飞资源管理系统的必要性;2、国内外研制有关试飞资源管理系统的现状;3、试飞资源管理系统的系统
会议