论文部分内容阅读
随着互联网的迅猛发展,电子邮件已逐渐成为人们日常生活中不可缺少的通信方式之一。与此同时,垃圾邮件作为电子邮件的错误衍生品,也发展迅速。尤其是近几年电子商务和移动互联的迅猛发展,促使基于文本形式的企业邮件和手机邮件的增多。另外,中文的语言复杂度远大于英文,导致对中文垃圾邮件的处理不能照搬外国的方法。目前,文本垃圾邮件过滤的主流方法仍然是基于内容的垃圾邮件过滤技术,但大多数方法都是一些基于关键字的与语义无关的垃圾邮件过滤方法,如:贝叶斯方法、基于案例的方法和文本分类方法等,此类方法对垃圾邮件内容所表达的思想缺乏精准的描述。现在新型的文本垃圾邮件利用同义词、近义词等手段,伪装成正常邮件,使传统的方法难以把垃圾邮件和正常邮件进行区分。因此,论文在语义相似度的基础上,利用《知网》在语义分析方面的优势,提出一种基于语义体和文本聚类算法相结合的新型中文文本垃圾邮件过滤方法。本文的研究主要有以下两方面:1.从具有同义词或近义词的新型中文文本垃圾邮件中提取特征。本文对邮件文本进行分词、去除停用词后,对余下的词语集合进行词义消歧,得到每个词语在邮件中的唯一词义,便于邮件特征的提取;将词语集合中的每个词语作为一条词汇链,并将词义相同或相似的词汇链合并为一条词汇链,利用TFIDF方法从每条词汇链中选取唯一的词语作为该词汇链代表;最后,提取规定个数的词语作为该邮件的特征,即语义体。经仿真实验表明:该方法提取的邮件特征更加准确。2.针对得到的垃圾邮件的语义体,本文采用基于语义距离的文本聚类算法进行垃圾邮件过滤。该方法利用基于《知网》的文本相似度对邮件集合进行第一次文本聚类,为了避免邮件输入顺序对聚类结果的影响,对经过整理的第一次聚类结果进行第二次文本聚类,使得最终得到的聚类结果更加准确,利用得到的聚类结果完成对垃圾邮件的过滤。通过实验验证,本文方法对具有同义词或近义词的新型垃圾邮件有很好的过滤效果:论文所提方法与传统的邮件过滤方法相比,在对邮件内容的判断中更具客观性,对内容表意不明的垃圾邮件,其方法在邮件识别的召回率方面体现了较大的优势。