基于贝叶斯分类算法的中文垃圾邮件过滤技术的研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:xbzss123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,电子邮件得到极大的推广和应用,成为人们通信和交流的主要工具和手段。然而,垃圾邮件严重干扰和影响了邮件系统的正常使用,阻碍了互联网的发展。现行的邮件过滤技术在准确率、性能、中文支持等方面存在着一些问题,本文针对这些问题进行了研究。本文首先分析了邮件系统的缺陷和垃圾邮件泛滥的原因;介绍了垃圾邮件的研究现状和反击垃圾邮件的技术;分析和比较了各种邮件过滤算法,重点研究了基于贝叶斯理论的邮件过滤算法。本文对邮件分类器的通用框架进行深入研究,分析了中、英文邮件在分类处理上的差异,提出了使用N-gram算法进行中文分词处理。针对朴素贝叶斯算法在邮件分类上的潜在问题:独立性假设问题和共有特征词的区分度问题,提出相应改进方法。通过对邮件语料的分析,提出了一个基于邮件长度的双分类器结构,设计了一个基于改进贝叶斯算法的中文邮件分类器,并通过实验进行验证。最后,本文提出了一个基于规则和统计相结合的二层垃圾邮件过滤方案,实现了该方案的原型系统。实验表明该系统能体现不同用户在邮件分类上的个性差异。
其他文献
本文通过对广东南华工商职业学院为主体的高职院校学生党员教育管理现状进行调查,在调研分析的基础上,提出利用互联网搭建教育管理平台和建立长效联系机制,同时加速打造线上
自然语言处理(NLP)是语言学和人工智能的一个交叉域,它研究人类自然语言的自动化产生和理解的问题,对于汉语来说,它涉及自动分词、词法分析、语法分析和语义分析等。其中,自
网络教育作为一个新兴的教育模式,现在已经成为了除统招本科教育外最重要的教育模式之一。网络教育从产生到现在短短6年发展时间,从事网络教育的大学从4所发展为67所,已开设9
以《那年那兔那些事儿》系列动画为代表的红色动漫很好地诠释了中国近现代重大历史内容,将其融入高校思想政治理论课程教学中有利于激发学生的主流价值认同和爱国情怀.提高学
成功的灾难报道应从对受众、受难者和人性的关注这三个方面让人们感受到灾难事件中的人性美,从而鼓舞人们直面悲剧事件、增强抗灾信心,以推动事件的妥善处理、维护社会稳定大
无线传感器网络是一种应用型的无线网络系统。当无线传感器网络正在运行时,传感器节点会将感知到的信息以多跳的形式源源不断地传输给汇聚节点,此时,汇聚节点周围会形成巨大
貌似90后们都有乐于分享、忠于自我的生活态度,在赛场上,我有绝对不服输的倔强;而在生活中,我又乐于享受那些轻奢的悠闲时光。我喜欢笑得放肆,那是因为我也曾经哭得悲伤。我
AIM: To examine whether muscle training with an oral IQoroR screen(IQS) improves esophageal dysphagia and reflux symptoms.METHODS: A total of 43 adult patients(
普适计算模式的发展带来的上下文感知计算已经逐渐延伸到SOA架构下的Web服务及服务组合领域。现有的Web服务组合引擎一方面多属于人工合成的模式,灵活性不高;另一方面都没有
随着集成电路技术、计算机技术的迅速发展,嵌入式系统逐渐应用于科学研究、工程设计、日常应用等各个领域。 本文以国家“863”计划支持的项目“家庭用保安机器人”中央控