垃圾邮件关键字过滤算法

来源 :城市建设理论研究 | 被引量 : 0次 | 上传用户:yongzhujushi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】本课题在对电子邮件原理和垃圾邮件的过滤方法进行分析研究的基础上,设计了一种垃圾邮件过滤算法,并实现了垃圾邮件过滤系统。
  本文主要介绍了关键字过滤算法的实现。关键字过滤是根据中文分词算法和关键字过滤的词典的实际情况改进而来。
  【关键词】垃圾邮件过滤;关键字过滤;
  中图分类号:F618.1 文献标识码:A 文章编号:
  引言
   随着Internet的普及,电子邮件由于方便、快捷、低成本的特点逐渐取代了传统的通信方式,成为现代社会主要的通讯方式之一。但是随之而来的垃圾邮件也给人们带来了许多的不便与烦恼,而且这个问题也日益的严重。
  邮件过滤技术就是根据邮件的信头、发送方、接收方、内容等信息,选择对自己有用或者排除对自己没用的信件的一种手段。对自己没用,甚至是有害的邮件就是垃圾邮件。垃圾邮件过滤技术就是最大程度上的把这类邮件拒绝在自己的邮箱之外。然而,垃圾邮件过滤技术也随着时间的推移不断的发展进步着。
  解决垃圾邮件关键字过滤的方法
  关键字过滤是基于规则过滤的一种,人工的设定关键字集合,通过对信件主题、内容等的匹配来过滤垃圾邮件的一种机械的过滤算法。
  1 中文分词算法
   说到关键字过滤,很容易就想到要对信件的内容的全文搜索。传统的做法是将一篇文章看作是字符串,然后利用string类所提供的indexOf()方法进行通配,看文章中是否有自己设定的关键字。如果有,则过滤。假设待过滤的内容的字数是L,关键字个数为N,那么过滤的全部耗时为O(LN)。
   在对传统算法研究和改进的基础上,有人提出了中文分词算法。这样就解决了传统算法在对全文通配时的浪费大量时间的问题。随着人们对中文分词的研究,特别是2003年7月首届国际中文分词评测活动Bakeo开展以来,中文自动分词技术有了一定的进步。目前。中文分词的方法主要分为三大类:基于字符串匹配的分词方法、基于统计的分词方法和基于理解的分词方法。
  国内学者在上述三类分词方法基础上,展开了中文分词算法较深入的研究。刍海山等提出了一种基于词典的正向最大匹配和逆向最大匹配相结合的中文分词方案。可以高效、准确地实现中文文档的主题词条的抽取和词频统计[14];应志伟等采用一种改进的最大匹配法,提出了一种基于统计模型的算法来处理其中的多交集歧义字段,可以切分出所有的交集歧义,解决多音字的异读问题以及中文姓名的自动识别问题,以达到文语转换的目的[15].这些中文分词算法的应用领域较广、范围较大。
  2 关键字过滤算法原理
   本系统使用的关键字过滤算法采用的就是中文分词算法中字符串匹配的分词方法的思路。不同的是,通常基于字符串匹配的分词方法是从文本中切出一定长度的字符串与词典中的词相匹配,若匹配成功则表明是一個词,若匹配不成功则改变切出的字符串长度再匹配。直到匹配成功,中文分词算法旨在分词。而本系统相对而言词库较小,而且不需要分出文本中的词,旨在匹配,所以本系统中的分词方法也有所改变。本系统中,遍历待查字符串,查询关键字首字串,当匹配时就遍历关键字表,每个关键字都与待查字符串匹配。如果匹配成功,则从成功词组的下一个字继续,如果不成功则,在原来字的下一个字继续。流程在下一节中将有详细的介绍。
  3 关键字过滤算法的数据结构
   首先,我们定义两个字符串str和pre_str,定义str = “一个广告的代理厂家”是待查询的字符串,pre_str = “好人广他免”是关键字首字的序列。其中,以“广”开头的关键字为“广告好代理”、“ 广场的”、“ 广告”。其它的关键字我们先不与考虑。本系统中采用的是最大长度匹配[19],长度长的词排在前边。
  接下来我们定义一个结构TableNode,这个结构存储对应的关键字首字以及指向以该字为首字的所有关键字数组的指针。定义如下:
  
  
  图1、本系统关键字过滤关键字结构示意图
  4 关键字过滤算法的实现
  关键匹配的过程,首先遍历待查询字符串,在遍历过程中,每一个字都与关键字首字序列匹配,如果匹配失败则继续下一个字;如果匹配成功,也就说存在着以当前字为首字的关键字,这时就要找到这些关键字,并把所有的关键字依次的与待查询字符串进行匹配,如果成功则继续查找待查字符串中改关键字的下一个字,如果匹配失败则继续查找当前字的下一个字。如此循环到待查询字符串结束。
  关键字过滤算法实验分析
   关键字过滤算法的实现过程在上文中已经有了详细的介绍,这里就不重复了。强调一点就是中文分词算法目的是分词,因此根据内容语义的不同可以分出不用的词,也就可能出现分词错误的情况,但是对于我们的关键字过滤算法来说就不存在“歧义”的问题,因为我们的目的是对字符串匹配,并不在意其是否有具体的意义。所以我们就不用讨论其错误率,只要考察其匹配的速度就可以了。
   这里我们设待查询字符串的长度为L,关键字首字序列的长度为N,关键字的个数为M,最后设我们调用的系统函数find()的执行时间为T。那么我们匹配过程最最糟糕的情况就是O(LNM)。
  对于查询函数find()的执行时间为T,在匹配一个关键字的时候,传入关键字的长度,这样在待查询字符串中,只匹配到关键字的长度处即可,这样节省了很大一部分时间。
  对于关键字的个数M,我们采用了最大长度匹配的原则,先匹配关键字长度长的,在依次比较长度短的,这样也可以节省匹配时间。
  结束语
   本文对垃圾邮件和反垃圾邮件技术做了简单的介绍,并在此基础上讲述了我们实现的这个系统的整个思路和系统工作流程。着重介绍了关键字过滤算法。通过实验的数据证明,我们的这个系统基本上达到了预期的目标,实现了较高效率的垃圾邮件过滤,相比其他的反垃圾邮件技术也有自己的优点。
其他文献
摘要:由于水利水电工程的防渗设施不仅关系到了工程建筑的安全性和耐久性,还对工程的运行体制有着重要的影响。在众多防渗中,由于混凝土防渗墙技术具有防渗效果好、成本低、适应地层能力强等优点,在现阶段的水利水电工程项目中得到了广泛的应用。然而,由于现阶段我国还没有制定出完善的质量控制方法和监测标准,使得混凝土防渗墙工程的建造过程中经常会出现一些问题。因此,本文在针对现有的混凝土防渗墙的质量控制方法和质量检
期刊
【摘要】:深圳地铁现有FAS系统气体保护区火灾模式由气体管道内压力开关动作后触发,此触发方式主要存在三大缺陷:1.由单一的非FAS系统设备为触发条件,可靠性低; 2.压力开关误动作造成火灾模式误执行,稳定性差;3.发生火灾时启动火灾模式缓慢,影响灭火效果。  本文通过精简FAS系统气体保护区火灾模式触发流程;将单一外部变量触发模式改由FAS系统内部变量触发火灾模式;利用硬件模块解决软件无法实现的功
期刊
摘要:110 kV变电所电气一次设计的实现能够对工程施工进行有效的供电,本文从电气主接线、主变压器、电气设备以及避雷装置等方面对110 kV变电所电气一次设计进行了具体阐述。  关键字:施工供电;110 kV;变电所;一次设计  中图分类号:U223 文献标识码:A 文章编号:    随着我国社会经济水平的不断发展,提高经济效益和促进科学进步已然成为电力管理过程中的关键问题。我国建筑工程的規模正在
期刊
摘要:随着国家对环保事业的日趋重视,炼焦废水限期的达标排放成为所有炼焦厂能否存活的一个硬性指标。本文就鞍山焦耐院设计、我单位施工的山西太兴焦化酚氰废水处理站的工艺及施工注意事项略作阐述。  关键词:炼焦酚氰废水处理工艺   中图分类号:TU74 文献标识码:A 文章编号:  随着国家对环保事业的日趋重视,国内炼焦规模在60t/y以上的焦化厂都相应的建成了或正在兴建自己的污水处理厂(炼焦废水限期的达
期刊
摘要:路基填料级配变化较大,用一个不变标准干密度来控制现场压实度波动较大,为了科学的控制压实度,更为了提高路基的质量。因此用变化的干密度即含石率曲线来检测压实度。  关键词:路基填料、击实、含石量、数理统计,含石率曲线,压实度  中图分类号:U213.1 文献标识码:A 文章编号:  1.前言:  京藏高速公路呼和浩特至包头段高速公路第三合同段,由中国路桥集团公司承建。该段高速公路处于山前区(阴山
期刊
摘要:我国市场经济的迅速发展,促进了我国建筑事业的蓬勃发展。作为现代建筑工程中的最重要的土建工程,人民对其的重视程度也在不断提高。土建工程中的人工挖孔桩施工技术,是土建工程的核心,其具有施工简便快捷、操作简单、节省费用投资以及能够有效的控制施工周期等优点,在土建工程中被广泛采用,因此,人工挖孔桩技术质量实施的好坏影响着土建工程的整体的施工质量。本文针对目前我国的土建工程中运用的人工挖孔桩施工相关问
期刊
摘要:RTU的职能是采集所在发电厂或变电站表征电力系统运行状态的模拟量和状态量,监视并向调度中心传送这些模拟量和状态量,执行调度中心发往所在发电厂或变电站的控制和调节命令。  关键词: 远程终端控制系统  中图分类号:TP84 文献标识码:A 文章编号:  远程终端控制系统RTU(英文全称 Remote Terminal Unit)。RTU (Remote Terminal Unit)就是电网监视
期刊
摘要:本文引用工程实例,对现浇箱梁支架地基处理的分析以及采用杂填土处地基处理施工技术进行一些探讨。  关键词:现浇连续箱梁 满堂支架 支架 地基处理 杂填土  中图分类号:TU47 文献标识码:A 文章编号:  1﹑工程概况  本工程为一座三层全互通涡轮式立交桥,底层为辅道系统,中间层为人民路,上层为东环路,立交主线均为双向6 车道,左转匝道为单向双车道,右转匝道为单向单车道。行人、非机动车及附近
期刊
摘要:本文对手持GPS定位仪做出了相关介绍,对于手持GPS地位仪使用应注意的事项做了相关论述,并对Trimble Geo RTK手持GPS定位仪的坐标转化实际应用做出了探讨,为GPS相关工作者提供一定的参考。  關键字:手持GPS;概述;注意事项;实际应用  中图分类号:D035.39 文献标识码:A 文章编号:  一、手持GPS的概述  手持GPS定位仪是业内GPS仪器中的一种,它的定位功能较强
期刊
摘要:在桥梁实际施工时容易出现预应力不足、梁体裂缝、支座破坏等问题,因此在施工过程中重视对预应力的质量控制非常关键。文章结合某桥梁施工工程实践,使用预应力混凝土连续箱梁预制的工程施工技术,并且提出加强桥梁外观质量的对策与措施,可供类似工程借鉴参考。  关键词:桥梁工程;连续箱梁;预应力张拉  中图分类号:K928.78 文献标识码:A 文章编号:  1 施工时控制危险的方法及措施  注桩桩基施工中
期刊