中文邮件分类系统的研究及其实现

来源 :苏州大学 | 被引量 : 0次 | 上传用户:cheqiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着办公自动化的快速发展,越来越多的人喜欢用电子邮件进行交流。由于人们每天需要处理越来越多的邮件,所以迫切需要对邮件进行分类处理。与此同时,随着机器学习和数据挖掘的研究与发展,基于内容的文本分类技术也获得了空前的发展。目前为止,研究人员在邮件过滤上投入了很多的精力,做出了不少的贡献。但是由于邮件分类中存在分类标准的动态变化、传统的文本分类算法效率不高或者分类的准确度偏低等问题,所以实用的邮件分类系统的研究还未多见。本文借鉴邮件过滤算法,通过对中文邮件语料的研究,提出了建设一个基于平凡算法和规则相结合的、具有自适应能力的、实用的邮件分类系统。首先,本文分析了英文邮件语料库的特点,结合实际提出了构建中文邮件语料库的方法,并建立了一个实用的、尽量规范的中文邮件语料库。然后,面对众多可选的文本分类算法,文章分析、比较了几种具有代表性的文本分类算法,选择了一种时空复杂度低的、适合在线学习的、名叫Winnow 的邮件过滤算法作为研究对象,改进了Winnow 标准算法,并通过实验证明了该算法也可以用于邮件的分类,并具有效率高、准确度较好等特点。最后,文章对邮件分类系统中普遍存在的自适应问题进行分析与讨论,提出了一种建立在触发器基础上的增量学习方法,有效地解决了邮件分类系统的自适应问题,并通过实现一个ZHHZ 邮件分类系统,测试了系统的自适应能力。实验证明,通过建立规则、增加Winnow 分类的自适应能力,采用Winnow 算法能够实现一个高效的、可靠的、能够适应用户分类标准变化的邮件分类系统。
其他文献
  随着电子商务的发展,企业信息系统比以往任何时候更加依赖分布式计算架构。专用防火墙、Web服务、认证服务和负载平衡成了传统应用程序和数据库服务的前端,这时企业需要一
本文讨论的“基于DSP的智能化仪表—LVDT传感器监测仪研究与设计”研究了使用新一代数字信号处理器开发智能化数据采集处理系统面临的问题。  本文采用TI公司TMS320LF2
智能规划是人工智能一个重要的领域。近年来,有关智能规划的研究在问题的描述和问题求解两方面得到了新的突破,使得智能规划已成为现在一个热门的人工智能研究领域。随着智能
高维索引技术是研究通过建立索引结构来提高高维数据库上检索效率的一门科学。图像数据库作为高维数据库的重要组成部分,其检索离不开高维索引技术的支持,近年来备受研究人员
当前科学技术正进入多学科相互交叉、相互渗透、相互影响的时代,生命科学与工程科学的交叉、渗透和相互促进是其中一个典型例子,也是近代科学技术发展的一个显著特点。进化算
在当今以数据为中心的时代,越来越多的应用需要访问各种异构数据源,特别是对于企业应用来说,这既是企业内部发展的需要,也是企业适应外部环境的需要。XML因其具有自描述性、
实时协同编辑系统是一类重要的CSCW 应用系统,具有实时性、分布性和无约束性三个特点。一致性维护是设计和实现此类系统最具挑战性的一个世界级难题。传统的令牌、加锁、串行
随着微电子技术和移动通讯技术的发展,嵌入式设备和移动终端具有越来越强大的处理能力。这引发了人们要把嵌入式移动终端作为下一代个人工作平台和轻便的移动办公载体的遐想
和传统本地存储相比,云存储因为价格低廉,和管理方便,吸引了越来越多的企业和个人用户倾向将数据外包存储到第三方云中。但是目前云中数据的安全和隐私问题成为阻碍云服务进一步
随着因特网和电子商务的快速发展,引发了企业应用程序可用信息数量和类型的急剧增长,信息集成已经成为当前企业面临的巨大挑战。本文在企业信息集成发展现状研究基础上,将模