基于互信息的加权朴素贝叶斯文本分类算法

来源 :计算机系统应用 | 被引量 : 0次 | 上传用户:qq462283910
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是信息检索和文本挖掘的重要基础,朴素贝叶斯是一种简单而高效的分类算法,可以应用于文本分类.但是其属性独立性和属性重要性相等的假设并不符合客观实际,这也影响了它的分类效果.如何克服这种假设,进一步提高其分类效果是朴素贝叶斯文本分类算法的一个难题.根据文本分类的特点,基于文本互信息的相关理论,提出了基于互信息的特征项加权朴素贝叶斯文本分类方法,该方法使用互信息对不同类别中的特征项进行分别赋权,部分消除了假设对分类效果的影响.通过在UCIKDD数据集上的仿真实验,验证了该方法的有效性.
其他文献
"智慧停车"是美国USGBC最新推出的绿色停车设施评价标准。它包含管理、功能、结构及技术设计以及创新四个部分,依据评价指标体系的内容及分值对停车设施进行绿色认证及评级。
<正>随着社会的进步和人们生活水平的提高,糖尿病的发病率也逐年升高,糖尿病的并发症严重危害人们的健康。糖尿病主要是由胰岛素分泌绝对或相对不足而引发的脂肪、糖类及蛋白
数控加工技术是工业制造的核心,随着制造业自动化水平逐步提高,加工资源管理需求增大,数据库管理技术应用越来越广泛。现有切削数据库在实际应用中发挥的作用并未达到预期效果,数控编程人员使用时操作繁琐,限制了加工效率的提高。当前制造业竞争激烈,进一步缩短加工辅助时间,提高效率,对提高企业经济效益有重要意义。因此,本文开发基于加工特征的典型零件加工数据库系统,将切削数据库与CAM软件相结合,旨在充分发挥两者
本文确定了用于乙烷、丙烷、n-丁烷和n-戊烷的Bender状态方程的20个常数。Bender状态方程和在此所列出的常数能在广阔的温度和密度范围内对上述四种物质的热力学性质及相平衡
开发仿真软件是仿真技术的重点.为了提高效率,用户期望能有一个适用的仿真软件开发集成环境.因此,当前开发仿真软件的热点与难点就集中在一体化建模与仿真环境、可共享的软件
本文通过对石油设备管理现状的分析,对石油设备润滑的管理信息化技术进行了可行性的分析与探索,构建石油设备的润滑信息管理平台,实现润滑管理的信息的集成化、实时化、自动
本文简单介绍了国内外有轨电车的发展概况,论述了建设有轨电车的必要性,并对城市轨道交通的三种运输模式的技术特性进行了比较,对有轨电车在我国的发展前景进行了论述。
目的:利用分子生物学、细胞生物学方法,在体外系统观察新型mTOR激酶抑制剂CZ415的抗OS作用;明确CZ415抗OS作用的分子机制;在此基础上,建立裸鼠荷瘤模型,观察口服CZ415在体抗O
结合湟源县农村土地经营权流转现状,分析了当地土地规模流转表现出的积极作用及存在的问题,提出了相应的对策建议:强化认识,转变观念;转移农村剩余劳动力,扩大非农就业空间;继
<正>伴随着时代的发展,课堂教学改革也在持续。我国教育经历了几千年的师本课堂,在师本课堂里,教师是绝对的中心。后来,伴随着素质教育的兴起,生本课堂的教学理念开始出现,并