论文部分内容阅读
随着信息技术的不断发展,特别是Internet应用的普及,网上信息成指数级增长,如何自动处理这些海量的信息,有效的保留大的文本集合成为了目前重要的研究课题。对文本进行有效管理方法之一就是将它们进行系统的分类,即文本数据分类。 文本数据分类是一项重要的智能信息处理技术,是文本检索技术的基础,在新闻机构分类、电子会议、电子邮件自动分类和信息过滤等方面极具应用价值。文本数据分类在传统的情报检索、网站索引体系结构的建立和WEB信息检索等方面也占有重要地位。文本数据分类以文本挖掘技术为基础与核心,是近年来数据挖掘和网络挖掘领域当中的一个研究热点。 本论文介绍了中文文本数据分类的信息处理基础、向量空间模型,探讨了自动分词技术,详细分析多种文本特征选择算法和贝叶斯文本数据分类模型,本论文通过大量实验深入研究了多种文本特征选择算法:互信息MI(Mutual Information),信息增益(Information Gain),X~2估计,文本证据权,并对互信息进行了改进。鉴于朴素贝叶斯的分类效果不佳,本论文又提出将机器学习中的Boosting思想结合到朴素贝叶斯的分类模型中,对朴素贝叶斯模型进行提升,实验证明,改进的互信息和给合了Boosting思想的朴素贝叶斯分类模型均产生良好的分类效果—分准率、分全率及F1值。