一种基于N-gram组合的中文垃圾邮件过滤方法

来源 :微电子学与计算机 | 被引量 : 0次 | 上传用户：ehvv5022

【摘要】

：

中文垃圾邮件的泛滥提出了极为迫切的技术诉求.本文使用了基于简单贝叶斯模型的过滤算法,同时使用N-gram对中文文本进行自动分词,并且组合多个N-gram来加快分类的收敛速度,这

【作者】

：

刘新斌李俊

【机构】

：

中国科学院计算机网络信息中心

【出处】

：

微电子学与计算机

【发表日期】

：

2004年12期

【关键词】

：

垃圾邮件过滤 N-GRAM 中文文本自动分词 ISP 算法贝叶斯模型 TCR 正确率召回 Anti-spam Chinese email Naive

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

中文垃圾邮件的泛滥提出了极为迫切的技术诉求.本文使用了基于简单贝叶斯模型的过滤算法,同时使用N-gram对中文文本进行自动分词,并且组合多个N-gram来加快分类的收敛速度,这样分类是一种切实可行的垃圾邮件过滤方法.对于这种代价敏感性(cost sensitive)的分类,通过移动门限值的方法来处理;在评估结果时采用了TCR以及召回率(SR)和正确率(SP)等参数考察实验数据.实验表明:这种方法代价较小,而正确率较高.最后我们认为可以通过筛选训练邮件以及和其它措施相结合来满足ISP级别等应用场合的要求.

其他文献

学风建设中学习互助小组制度的创新应用

随着我国高等教育的大众化,高校学生工作日益繁重,尤其在学风建设中,一线思想教育工作者常常苦于找不到突破口.面对当前困境,学习互助小组制度无疑是应对艰巨工作任务的一种

期刊

学风建设学习互助小组创新应用learning style building learning support group innovative app

地源热泵钻孔布置形式对土壤温度场的模拟研究

本文采用数值模拟的方法,通过模拟土壤源热泵井群不同的布置方式,比较相同孔间距时钻孔叉排和顺排布置时的区域热效率,得到在面积一定的条件下,相同的孔间距时,叉排布置更有

期刊

地源热泵井群叉排顺排区域热效率the ground source heat pump well group fork row in-line th

“注重空间认知能力培养”的教学方法研究

随着城乡规划学科的不断演进,城乡规划教育越来越趋于综合化,新的发展形势和背景对城乡规划专业的知识、能力、素质和创新性提出了更高的要求.本文主要以设计实践类课程为研

期刊

人居环境空间认知开放教学城乡规划living environmentspace cognitiveopen teachingurban and r

澳大利亚传统民居的绿色特征研究

本文针对澳大利亚极端的地理气候条件,通过对不同历史时期典型的传统民居进行实例分析,总结了将地域性和气候适应性相融合的传统民居中的绿色特征,证明了人类的居住方式历来

期刊

澳大利亚传统民居绿色建筑气候适应性Australia traditional dwellings green architectures clim

天安门消防轶闻(上)

【正】天安门是我国首都北京的中心。始建于明代永乐十五年(公元1417年),是皇城的正门。初称承天门,设计者是蒯祥。当时明成祖朱棣迁都北京,修建皇宫,他把天看作是至高无上、

期刊

天安门消防毛主席纪念堂天门真龙天子金水河中山公园七月七日首都北京设计者

Linux的实时性能测试

本文首先分析了常用的实时性能的测试指标,然后深入分析了在Linux中有哪些因素影响了这些实时性能指标,介绍了常用的实时化方法以及测试方法,最后对这些的方法的实时性能进行了测试。

期刊

实时实时系统实时操作系统LINUXReal-time Real-time systems RTOS Linux.

公钥密码算法的软件优化实现

文章介绍了在实现公钥密码体系时改进性能的方法,并给出了使用这些方法实现后的性能测试数据.

期刊

公钥密码算法软件优化汇编语言程序编译器计算机Public key cryp tosystemImplementationPerfor-mance

主动网络信包验证和代码授权机制研究

本文提出了运用认证和授权方式来解决主动网络所面临的安全问题,利用X509证书、数字签名、java语言安全以及Java认证和授权服务等实现了一个主动网络的信包认证和代码授权机

期刊

主动网络安全主动信包验证授权JAAS策略证书签名Active network Secure active packet Authentica

基于IP组播的流媒体服务器软件设计

介绍了多媒体数据网络传输的特点及发展状况,结合对RTP/RTCP协议结构原理的描述,提出了一种基于该协议的流媒体组播系统的实现方案,其中具体分析了数据处理流程、组播和数据

期刊

多媒体实时传输协议实时传输控制协议组播MultimediaRTP RTCPMulticast

基于用户公平的随机早期检测算法改进

边界路由器通常为多个接入用户提供访问Intemet的共享上行链路,当所有用户的接入带宽大于上行链路带宽时,可能产生拥塞.在这种典型接入方式下,存在基于用户的公平性问题:一旦

期刊

边界路由器用户公平性随机早期检测Edge router fairness for users random early detection

一种基于N-gram组合的中文垃圾邮件过滤方法

与本文相关的学术论文