基于Bayes方法的文本分类器的研究与实现

来源 :重庆大学 | 被引量 : 0次 | 上传用户:yaleqd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从大量的数据中挖掘出有用的信息是数据挖掘的任务。随着互联网的迅速发展,web已经发展成为拥有上亿页面的分布式信息空间。在信息急剧丰富的同时经过加工的知识信息却相对匮乏,文本是互联网上主要的信息载体,因此文本挖掘就成为数据挖掘中日益流行而重要的研究课题。文本分类技术是文本挖掘的基础和核心。20世纪90年代以后,基于机器学习的文本自动分类方法越来越成为主流,它具有周期短,效率高,节省人力资源,分类结果一致性高等优点。但文本自动分类研究自开展以来,准确率一直不能达到令人满意的效果。目前,Internet信息急剧膨胀,文本分类有了广阔的发展空间,文本自动分类面临前所未有的机遇和挑战,如何提高分类准确率成为研究热点。朴素贝叶斯(Naive Bayes)分类器是当前使用比较广泛的一种文本分类方法,它应用统计理论进行文本分类。在朴素贝叶斯分类方法中,有一个“独立性假设”:给定一个实例的类标签,实例中的每个属性的出现都独立于实例中其他属性的出现,而在实际应用中这种条件并不易满足,另外由于文本的特殊性,相关的特征项可能会产生新的语义信息,而在用传统的向量空间模型表示文本时该信息极有可能丢失。本文首先对文本分类系统以及贝叶斯分类模型作了分析和探讨,包括文本信息的表示、提取,文本分类的方法以及贝叶斯方法用于文本分类的模型和算法。然后针对上述朴素贝叶斯文本分类方法的不足之处,在训练文本时,对特征选择后产生的特征项集用互信息方法考察它们相互之间的相关性,然后对相关程度较高的特征进行适当的合并处理。在本文提出并实现的文本分类系统上,我们进行了一系列的测试工作,并得到了严格的实验数据,这些实验数据都表明:这个改进的文本分类系统可以获得更好的分类效果。
其他文献
篮球运动很受学生的欢迎,从学生的兴趣出发搞好篮球教学能够有效促进学生的身心健康发展,本文从篮球教学的现状出发,从技术和体能两个方面进行探讨。 Basketball is very po
杂草的生长对农作物的生长很不利,要做到对杂草适当的防除首先要对杂草进行正确的识别。我国是一个农业大国,但是基层农业技术人员缺乏。因此,研制农田杂草识别专家系统,使之
学生的学习水平存在差异,而班级授课制难以做到因材施教,本文作者结合自己十多年来开展语文分层成功教学研究的经验,阐述这个课题实验在语文常态课堂教学中实施的重要性和基
“自主、合作、创新”学习是富有创意和实效性的教育理论,也是新课程改革所倡导的新的学习方式。在英语课堂中践行上述教学方法,是新课程改革中学英语课程改革的主导方向,也
“知识+能力+品行”三位一体综合考核机制不仅把知识目标考核与能力目标考核统一了起来,而且把思想认同与行为表现纳入到考核内容中来,充分发挥了考核对政治理论课教学的引导
根据中国文联统一部署,中国电视艺术家协会精心筹备的2008年“送欢乐、下基层”慰问演出,于1月15日在唐山展开。慰问团由中国视协分党组书记、驻会副主席黎鸣,中国视协分党组
为了进一步推进素质教育,推进高效课堂教学改革,全面提高信息技术的教育教学质量。本文主要从信息技术高效课堂的基本教学环节、基本教学流程和操作过程应注意的几个问题三方
电子政务办公应用支撑平台是一个能够支持海关电子政务办公应用系统开发的组件库,为应用系统开发提供通用功能的基于平台的实现。   本文根据政务办公业务的特点,遵从软件工
物理实验教学从开设实验到物理实验教学研究,对中学物理老师提出了更高的要求。本文从演试实验,分组实验以及课外小实验三个方面,有针对性的对中学物理实验进行了研究。 Phy
要落实数学思想方法的教学目标,要求初中数学教师:必须真正认识到数学思想方法是数学发展的内在驱动力;正确认识“思想与方法”“思想方法与知识技能”的关系;把握好“了解”