一种基于后缀数组聚类(SAC)的中文垃圾邮件过滤方法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:llt009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
贝叶斯算法在垃圾邮件过滤中应用广泛,但在中文垃圾邮件过滤中性能较低。本文通过聚类的思想,提出一种基于后缀数组聚类(SAC)的中文邮件特征项抽取方法,并给出了不同特征项抽取方法下贝叶斯算法的中文垃圾邮件过滤实验数据对比。实验表明,该方法显著提高了中文垃圾邮件的过滤性能。
其他文献
目的:研究唾液铅在铅吸收诊断中的价值.方法:采用双硫腙比色法测量空气中铅浓度,采用阳极溶出伏安法测定唾液铅和血铅含量.结果:作业现场空气中铅浓度超过国家最高容许浓度1.
移动Adhoe网络没有固定的网络基础设施、网络拓扑结构频繁动态变化、无线信道完全开放、网络缺乏自稳定性。在这样的网络中,节点之间的相互信任对网络的安全保障与可靠运行均
本文提出了一种新的文本分类方法。这种方法将一篇文本的一个句子看作一个事务,一个段落看作是一个序列,则一篇文本表示成一个序列的集合。我们从每篇训练文本中挖出最大频繁序
对网络系统的生存能力进行量化评估,有助于对不同系统以及同一系统在不同环境下的可生存性做出准确的评价和比较。本文提出了将不确定型AHP和模糊综合评估技术相结合的方法,建
IPV6以两种方式提供Anycast服务:一种是将Anycast组成员限制在共享一个地址前缀的特殊拓扑区内;另一个是将Anycast地址表示的共享某个特性的结点组分散在互联网的各个地方,这种
当前图形界面用户窗口(GUI)在软件开发中大规模地使用,对软件测试提出了挑战。如何能够对软件的窗口进行正确的功能测试,是软件测试面,临的一个重要问题。本文提出了窗口控件交互
K-means算法中的k值的确定和初始聚类中心的选择严重影响聚类效果.针对这一问题,本文提出使用BP神经网络改进K-means聚类效果的方法.通过对聚类结果进行反复训练,调整聚类数,
目的:研究包钢男性职工肺癌的诱发因素.方法:采用配对病例对照研究方法对有关暴露因素进行单因素和混杂因素分析.结果:在包钢的几种主要职业暴露因素中,焦炉逸散物与肺癌有显
在人们现实布局实践经验的启发下,对VLSI布局问题提出了一个启发式算法.该算法由定序规则和定位规则组成,定序规则用来确定布局物体放入布局空间的先后顺序,定位规则规定每一布
执行细粒度的进程级软件抗衰可以进一步降低抗衰成本,提高软件可靠性。本文针对软件系统中进程间交互频繁多变且交互关系难以判定的特点,分析进程间控制、调用及数据访问的关系