知识增益:文本分类中一种新的特征选择方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:ck101newguy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择在文本分类中起重要的作用。文档频率(DF)、信息增益(IG)和互信息(MI)等特征选择方法在文本分类中广泛应用。已有的实验结果表明,IG是最有效的特征选择算法之一,该方法基于申农提出的信息论。本文基于粗糙集理论,提出了一种新的特征选择方法(KG算法),该方法依据粗糙集理论关于知识的观点,即知识是分类事物的能力.将知识进行量化,提出知识增益的概念,得到基于知识增益的特征选择方法。在两个通用的语料集OHSUMED和NewsGroup上进行分类实验发现:KG算法均超过IG的性能,特别是在特征空间的维数降
其他文献
2010年,拿什么奉献给你的顾客?拿什么套牢你的顾客?JDA透明质酸是你不二的选择。新年换新颜。时下正值美容行业的消费旺季,广州暨大美塑生物科技有限公司产品销售空前火爆,尤其
<正> 我厂年产两万吨标准二级酱油新车间投产后,存在着严重的开工不足问题。为综合利用闲置厂房、设备,经论证,我们决定利用车间二楼一部分闲置未用的酱油发酵池做制醋发酵容
国务院新闻办2011年9月6日发表《中国的和平发展》白皮书,全面阐释了中国和平发展道路的开辟、中国和平发展的总体目标、中国和平发展的对外方针政策、中国和平发展是历史的必然选择、中国和平发展的世界意义等内容。白皮书庄严重申,中国将坚定不移沿着和平发展道路走下去。   白皮书详细列出了中国的六大“核心利益”:“国家主权,国家安全,领土完整,国家统一,中国宪法确立的国家政治制度和社会大局稳定,经济社会
美女们怕胖又不想错过美食,还在犹豫什么,现在就让你的美容院烹饪出肌肤不可不吃的美味大餐,让顾客去感受美丽与美味在身边环绕吧!
近年来,由于消费者健康意识和新潮观念的不断增强,新口味、新成分、新效用的保健糖食品日益受到青睐,由此带动了世界甜味剂生产开发的新进展,甜味新品层出不穷。 用于食品的
【正】 又到了朔风劲吹的季节,大街小巷林林总总的饭店餐馆,纷纷打出日本料理、韩国烧烤的招牌,以香、鲜、嫩、脆的烧烤风味,吸引了众多喜好尝鲜的食客。然而,对于餐馆、饭店
羡慕别人的连锁店开了一家又一家?想知道别人连锁经营成功的秘诀?连锁美容院开店宝典就像是一个魔方,神秘却又有章可循。
天津石化烯烃部自主研发的新产品——聚乙烯包装膜专用料实现工业化生产。由中国石化天津分公司研究院与中沙(天津)石化联合研发生产的国内首创食品级低气味小中空专用料HD6007
指代消解是自然语言处理中的一个重要问题,包括专有名词、普通名词、代词的指代识别。本文实现了一个基于机器学习的英语名词短语的指代消解平台,通过对原始语料进行命名实体识别和名词短语识别等一系列预处理,选取了多个有效特征及其组合,分别采用最大熵和SVM两种分类算法对名词短语进行分类,在此基础上着重研究了距离特征对指代消解的影响。在传统的基于机器学习的指代消解研究方法中,候选词和先行语的距离被定义为特征,
<正> 天然香辛调味料是一种具有香、辛、麻、辣、苦、甜等易挥发出气味的天然植物型调味品。广泛地应用在食物调味和食品加工业,尽管香辛调料中的许多品种,如蒜、葱、辣椒也