基于区分类别能力的高性能特征选择方法

来源 :软件学报 | 被引量 : 0次 | 上传用户:xunitt1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择在文本分类中起着重要作用.文档频率(document frequency,简称DF)、信息增益(informationgain,简称IG)和互信息(mutualin formation,简称MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之一,DF稍差,而MI效果相对较差.在文本分类中,现有的特征选择函数性能的评估均是通过实验验证的方法,即完全是基于经验的方法.特征选择是选择部分最有区分类别能力的特征,为此,给出了两个特征选择函数需满足的基本约束条件,并提出了一种构造高性能特征选择的通用方法.依此方法构造了一个新的特征选择函数KG(knowledge gain).分析发现,IG和KG完全满足该构造方法,在Reuters-21578,OHSUMED和News Group这3个语料集上的实验表明,IG和KG性能最好,在两个语料集上,KG甚至超过了IG.验证了提出的构造高性能特征选择函数方法的有效性,同时也在理论上给出了一个评价高性能特征选择算法的标准.
其他文献
信息化战争以前所未有的冲击力震撼着人们在以往战争中形成的武装冲突法理念,动摇了武装冲突法体系,弱化了武装冲突法的效力,并使得现行武装冲突法对战争和武装冲突缺乏有效
目的 观察宁泌泰胶囊对精液不液化症的临床治疗效果.方法 对我科采用宁泌泰胶囊治疗的156例精液不液化症患者在治疗前后的精液液化时间、精子密度、精子活力、精子活率及NIH
在企业中,产品质量的保证与技术基础是计量,同时,计量也是企业提高经济效益的途径。本文从计量工作和质量管理体系的关系,质量体系对计量工作的要求,围绕质量体系文件内容应
本文首先总结了语篇中衔接模式前景化的五个方面,然后,通过对两个语篇中的衔接模式在非结构性衔接,及物性结构衔接、语气结构衔接、主位结构衔接等方面的对比分析,发现各自的
本文总结分析了朱光潜美学思想的贡献和影响。朱光潜以科学精神为指导创立的融合中西、贯通古今的美学体系已经成为现代中国美学的一道亮丽风景线。
介绍了蜀、蜀锦、蜀江的含义并对其源流进行了探讨和考析,指出日本收藏的蜀江锦即是来自中国四川成都的蜀锦。
<正>策划是一种谋划行为,即,个人、集体以及各种经济实体在行使职能、谋求利益的过程中有所计划,其目的在于协调、拓展、理顺各种社会关系和经济关系。策划书则是将谋划的内
旅游产业与文化产业的融合发展是产业发展的必然趋势。旅游产业与文化产业有着天然耦合性、互补共赢性及内外因素驱动诱导等产业融合基础条件。基于对产业发展实践和以往研究
<正>牛经常会患各种疾病,如果治疗及时,容易痊愈,如果治疗方法不对,容易造成损失。牛患黏液性痢疾,过去许多兽医用痢特灵、大蒜梗煎水灌服,当时有效,但效果难以巩固。笔者在
在现代处理器或计算机系统设计中,体系结构软件模拟技术已成为一个不可缺少的环节.与不使用模拟技术的计算机系统或处理器设计方法相比,软件模拟技术可以极大地降低设计成本