论文部分内容阅读
中文垃圾邮件的泛滥提出了极为迫切的技术诉求.本文使用了基于简单贝叶斯模型的过滤算法,同时使用N-gram对中文文本进行自动分词,并且组合多个N-gram来加快分类的收敛速度,这样分类是一种切实可行的垃圾邮件过滤方法.对于这种代价敏感性(cost sensitive)的分类,通过移动门限值的方法来处理;在评估结果时采用了TCR以及召回率(SR)和正确率(SP)等参数考察实验数据.实验表明:这种方法代价较小,而正确率较高.最后我们认为可以通过筛选训练邮件以及和其它措施相结合来满足ISP级别等应用场合的要求.