利用非广延最大熵模型进行文本分类

被引量 : 0次 | 上传用户:a471839794
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在线资源的迅速增长、互联网信息量的急剧增加使得人们从信息匮乏的时代过渡到了信息极为丰富的时代。面对日益膨胀的、异构的信息资源,如何快速、准确地从海量信息中寻找到所需的相关内容变得十分棘手。因此,研究利用计算机进行自动文本分类成为自然语言处理和人工智能领域中一项具有重要应用价值的课题。目前文本分类领域中已经存在多种具有良好分类效果的理论技术,本文主要介绍如何利用非广延熵模型进行文本分类。非广延熵模型建立在最大熵模型的基础上,最大熵模型是一项概率分布估计技术,它的基本思想是拟合所有已知事实,保持未知事件的未知状态,已被广泛应用于语言建模、词性标注、文本分割等自然语言处理领域。本文在最大熵模型的基础上提出了两个用于文本分类的扩展模型。第一个模型利用非广延熵代替香农熵作为最大熵模型中的目标函数,以期简化分类器的表达形式,称之为非广延熵模型;第二个模型在非广延熵模型的基础上引入实体间的高阶约束,试图通过增加文本中单词间的共现关系约束提高文本分类的正确率,称为带有高阶约束的非广延熵模型。成功建模后利用拉格朗日乘子法求解模型,得到分类器的表达形式并进行参数估计,最终得到文本分类器。本文选用20_Newsgroups作为语料库进行文本分类,并进行了两组分类器性能评价对比实验。第一组对比实验比较基于本文提出的两个扩展模型的文本分类器,实验结果表明在非广延熵模型中添加高阶约束后文本分类的正确率有一定程度的提高;第二组对比实验比较两个非广延熵模型和最大熵模型,实验结果表明本文提出的两个扩展模型均具有更高的分类正确率。以上两组对比实验证实了非广延熵模型和带有高阶约束的非广延熵模型的有效性。
其他文献
随着人类文明和经济的发展,管道流体输送系统越来越多,如何保证整个系统的运行安全则是人们所必须要面临的首要任务。因此水锤过程分析及安全设计越来越被人们所认识和重视。
专业民族乐队建制,在中国大陆已经生存和发展了半个多世纪,在海外华人地区也有较广泛的影响。与此同时,有关这一乐队模式的文化属性与本体价值,长期困扰和制约着这一器乐形式
本文以某钢铁公司棒材生产线上引进的“达涅利”450 T双偏心摆式飞剪机为研究对象,针对其在生产过程中经常出现的电机轴扭断事故,进行多参数实验研究及详细的理论分析,找出了
近年来,乡村旅游持续升温。然而,随着随着游客的日益增多和旅游需求的日渐加大,乡村旅游出现很多不曾被预料到的问题。例如乡村原有的良好环境遭受破坏、优良的文化传统受到
我国现在正处在计划经济向市场经济转型的关键时期,政府应该成为怎样的角色,与企业维持怎样的关系,如何引导企业自力更生、自我发展,如何健全和完善我国的政企关系模式已经被
为了改善精炼设备使用状况,在现有设备基础上提高生产效率,本文针对鞍钢二炼钢北区200t LF炉精炼周期过长的问题,开发了Al-CaO-CaC2渣系的钢包渣预脱硫改质剂和CaCO3-MgCO3-C
针对力学实验中常用的等强度悬臂梁设备,对其横向振动的基频进行了分析;采用瑞利法给出了解析解,利用AN—SYS/LS—DYNA软件建立数值模型计算了数值解,并通过实验对两种方法的计算
五猖神,作为发源于古徽州、流传于江南、波及全国的民间信仰,在经历了几度沉浮之后,又在江南的部分民间开始复苏。对于这类民间信仰再度复苏的原因,学者们已作过各类可能性的
教师质量是影响教育质量主要因素。近年来,随着对教育事业的越来重视,各国开始不断加快对教师教育的改革。英国师范教育的历史悠久,改革经验丰富。20世纪以来,英国师范教育经
本文针对宁夏电信在建设项目投资分析方面存在的主要问题进行研究。首先,说明了为什么要对电信建设项目进行分析研究,研究的背景和意义是什么。其次,对电信建设项目的特点进