一种基于N-gram组合的中文垃圾邮件过滤方法

来源 :微电子学与计算机 | 被引量 : 0次 | 上传用户:ehvv5022
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文垃圾邮件的泛滥提出了极为迫切的技术诉求.本文使用了基于简单贝叶斯模型的过滤算法,同时使用N-gram对中文文本进行自动分词,并且组合多个N-gram来加快分类的收敛速度,这样分类是一种切实可行的垃圾邮件过滤方法.对于这种代价敏感性(cost sensitive)的分类,通过移动门限值的方法来处理;在评估结果时采用了TCR以及召回率(SR)和正确率(SP)等参数考察实验数据.实验表明:这种方法代价较小,而正确率较高.最后我们认为可以通过筛选训练邮件以及和其它措施相结合来满足ISP级别等应用场合的要求.
其他文献
随着我国高等教育的大众化,高校学生工作日益繁重,尤其在学风建设中,一线思想教育工作者常常苦于找不到突破口.面对当前困境,学习互助小组制度无疑是应对艰巨工作任务的一种
本文采用数值模拟的方法,通过模拟土壤源热泵井群不同的布置方式,比较相同孔间距时钻孔叉排和顺排布置时的区域热效率,得到在面积一定的条件下,相同的孔间距时,叉排布置更有
随着城乡规划学科的不断演进,城乡规划教育越来越趋于综合化,新的发展形势和背景对城乡规划专业的知识、能力、素质和创新性提出了更高的要求.本文主要以设计实践类课程为研
本文针对澳大利亚极端的地理气候条件,通过对不同历史时期典型的传统民居进行实例分析,总结了将地域性和气候适应性相融合的传统民居中的绿色特征,证明了人类的居住方式历来
【正】天安门是我国首都北京的中心。始建于明代永乐十五年(公元1417年),是皇城的正门。初称承天门,设计者是蒯祥。当时明成祖朱棣迁都北京,修建皇宫,他把天看作是至高无上、
本文首先分析了常用的实时性能的测试指标,然后深入分析了在Linux中有哪些因素影响了这些实时性能指标,介绍了常用的实时化方法以及测试方法,最后对这些的方法的实时性能进行了测试。
文章介绍了在实现公钥密码体系时改进性能的方法,并给出了使用这些方法实现后的性能测试数据.
本文提出了运用认证和授权方式来解决主动网络所面临的安全问题,利用X509证书、数字签名、java语言安全以及Java认证和授权服务等实现了一个主动网络的信包认证和代码授权机
介绍了多媒体数据网络传输的特点及发展状况,结合对RTP/RTCP协议结构原理的描述,提出了一种基于该协议的流媒体组播系统的实现方案,其中具体分析了数据处理流程、组播和数据
边界路由器通常为多个接入用户提供访问Intemet的共享上行链路,当所有用户的接入带宽大于上行链路带宽时,可能产生拥塞.在这种典型接入方式下,存在基于用户的公平性问题:一旦