基于信息熵的中文文本分类算法研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:wangligang987123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的快速发展,Web已成为全球性的、巨大的、分布和共享的信息空间,它为人们搜索信息提供了一种新的手段。但随着Internet上信息量的爆炸式增加,信息搜索时,与特定用户要求不大相关的信息大量涌现,甚至掩盖了对用户真正有用的信息。在这繁杂的信息中,如何快速地找到用户需要的信息以及有效地利用这些信息,文本分类起着非常重要的作用,它可以有效地组织和管理这些信息,从而提高信息搜索的效率。本文首先介绍了文本自动分类在国内外的研究现状;其次对文本自动分类所涉及的关键技术,包括文本表示模型、中文分词方法、特征选择以及关键的分类算法,分别进行了研究和探索;重点针对中文分词技术,再次提出了关键词集抽取算法,实验表明,我们的抽取系统基本上能将命名实体切出来;接下来介绍了基于信息熵的文本分类系统的总体框架,应用信息熵理论,提出了一种文本分类的新方法。该方法利用熵来度量新文本对于已分类文本集合的贡献大小,并以此熵值来判断文本归属的类,最后设计并验证了基于信息熵的文本分类模型。实验结果表明基于信息熵的文本分类模型是一种比较稳定的算法,证明了算法的有效性。
其他文献
目的探讨数据包络分析法(DEA)模型应用于医院感染的护理管理效率。方法选取我院自2018年10月至2019年10月收治的160例住院患者为研究观察对象,将2018年10月至2019年4月收治的
预算管理是一种先进的管理模式,但是由于人们观念上的误区,预算管理在我国的实施运作效果不明显。为了有效的运行这种管理模式,就需要从观念上纠正人们的认识编差,这也正是本
目的:探究妇产科采取持续质量改进管理的效果。方法根据该院自2013年1月—2014年12月收治的486例妇产科患者为研究对象,其中2013年收治238例患者采取普通医疗管理方法,2014年1
改革开放后我国的中小企业如雨后春笋般诞生,而内部控制作为中小企业建设和发展的关键元素,自然也是企业关注的重点。然而受认识不足等多因素的影响,使得目前企业的内部控制
目的 探讨教师模拟标准化病人对神经外科带教的影响。方法 神经外科临床本科实习生随机分为两组:教师标准化病人组和传统带教组。比较两组学生在出科时的理论、问诊、查体实践
目的:探讨医院感染控制信息化管理策略。方法利用医院内部的信息化平台,建立医院感染信息控制系统,抗菌药物监测管理、病原菌及药敏信息监测、目标性监控、信息反馈功能为一体医
去年秋冬,冬枣的市场价格波动,给栽培冬枣的果农提了醒——冬枣的栽培面积不要扩大了。
目的探讨规范化术前访视对腹腔镜结直肠癌根治术患者心理、生理应激反应的影响。方法选择2018年1—10月接受腹腔镜结直肠癌根治术的患者85例为研究对象,依据随机数字表法分为
2008年2月18日胡锦涛总书记在与全国组织工作会议代表座谈时强调:“要在党内特别是干部队伍中大力营造鼓励探索、支持创新、宽容失误的环境和氛围”,这其中“宽容失误”一词特别引人关注。上世纪80年代,这一提法曾激励了无数改革者;如今重提,正是鉴于改革已进入不同以往的攻坚阶段,没有大胆探索的精神和宽松的环境、宽容的政策,改革者就容易陷入困境,改革事业就会停滞不前。    对待失误应有平常心    “宽
政治本来就应该是开放透明的,而不是藏藏掖掖遮遮掩掩的。对天灾人祸的开放透明,是公民社会的正当诉求和必然要求。人民有权要求在不损害国家利益的前提下公开透明各种事件真相。今日中国不仅要将天灾的开放透明进行到底,也要将人祸的开放透明进行到底。    开放透明,是汶川抗震救灾一个大亮点。无论对这次抗灾进行述评还是回顾总结,人们都对开放透明投出赞誉的一票。然而,这次之所以能够开放透明,一个重要因素也许是天灾