基于偏斜数据集的文本分类特征选择方法研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:rylqy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于不同类别样本数量差别很大的偏斜文本数据集,使用传统的特征选择方法所选出的特征绝大多数来自于大类,会使得分类器偏重大类而忽略小类,直接影响分类效果.该文首先针对偏斜文本数据集的数据特点,分析发现偏斜数据集中影响特征选择的两个重要因素,即特征项的类别分布和类间差异,其中类别分布因素反映的是特征项在整个数据集中的类别频率差异;而类别差异因素反映的是特征项在不同类别之间的相对文档频率差异.然后基于这两个重要因素构造形成一个新的尤其适用于偏斜文本分类的特征选择函数 相对类别差异(Rel-ative Catego
其他文献
本文从元器件制造工艺可靠性保障角度分析了元器件的质量与可靠性增长方法和技术.元器件的可靠性是设计进去制造出来的,在设计定型的情况下,工艺制造过程对其质量和可靠性的
汉语树库是汉语信息处理的宝贵资源,其中包含了丰富的句子结构及成分组合信息,对树库中的词性串组合进行考察,是有效利用树库信息的基础工作。该文对汉语树库中的歧义组合进
在色彩缤纷的世界里,粉红色并不是最亮丽的色彩,却最能突显女性特有的气质——温婉、坚毅、自信。在古代埃及,粉红丝带代表着女性乳房,柔和的粉红色有力地召唤着公众尤其是女性为
社会化标签提供了网页信息的额外描述,直观上对搜索具有重要价值。该文提出一种新颖的利用社会化标签的分类属性进行检索的方法。该方法通过将群体的标注信息建模为高层类别来
如果一个十年未曾谋面的同学,突然对你说他其实十年中都在想着你。你会如何感想呢?震动还是感叹?我要有点不够纯情的说,其实我第一反应是不相信,不知道是出于这些年在上海生活学会
本文介绍下一代网络(NGN)各个层面的新技术及基于下一代网络(NGN)的语音、数据,多媒体等多种新业的发展.
基于多传感器算术平均值与分批估计的数据融合方法在火灾模拟实验炉上温度数据采集中的应用,用VB6.0开发了相应的实际应用系统。