论文部分内容阅读
本文为了提高过滤模块性能,研究了垃圾邮件过滤系统所需的各种技术,包括中文分词技术、中文分词词典机制、自动文本分类技术等。通过对各种分词技术进行比较分析,本系统采用支持首字哈希和完全二分查找的分词算法。比较了各种特征提取函数,采用期望交叉熵进行特征提取,为提高分类精度打好基础。
在实时黑名单模块,调用了linux的系统命令,这样模块可以随时去国际互联网协会网站下载最新的黑名单,从而降低用户收到垃圾邮件的可能性。