基于类别分布的特征选择框架

来源 :第四届全国信息检索与内容安全学术会议 | 被引量 : 0次 | 上传用户：andytong0123

【摘要】

：

【作者】

：

靖红芳王斌杨雅辉

【机构】

：

中国科学院计算技术研究所北京 100190 北京大学软件与微电予学院北京 102600

【出处】

：

第四届全国信息检索与内容安全学术会议

【发表日期】

：

2008年4期

【关键词】

：

特征选择非平衡语料类别分布文本分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

极高的特征维数使文本分类变得复杂和费时,为此非常需要有效的特征降维方法.目前已有很多种特征选择方法,但据我们所知,没有一种独立的特征选择方法能够在非平衡语料上取得很好的效果.本文依据特征在类别间的分布特点提出了基于类别分布的特征选择框架.该框架能够利用特征的分布信息选出具有较强区分能力的特征,同时可以给类别灵活地分配权重,分配较大的权重给稀有类别则提高稀有类别的分类效果,所以它适合于非平衡语料,也具有很好的扩展性.另外,文中解释说明了OCFS和基于类别分布差异的特征过滤方法是该框架的特例.基于该框架文中给出了具体的特征选择方法,Retuers-21578语料及复旦大学语料等两个非平衡语料上的实验表明,它们的宏平均和微平均F1效果都好于IG, CHI和OCFS.

其他文献

中国橡胶助剂飞速发展及与全球市场的相互影响

中国的橡胶助剂行业近些年获得长足发展,取得了举世瞩目的成就,并已经对全球橡胶助剂的生产与供应领域带来了深刻影响,成为市场定价与供应能力的重要影响因素.本文就中国橡胶助剂飞速发展及与全球市场的相互影响进行了论述.

会议

橡胶助剂行业企业规模国际市场

我国叔丁胺的供需现状及发展前景展望

叔丁胺作为国内一个环保的精细化工产品,经过几年的发展后,已逐渐成熟.本文就我国叔丁胺的供需现状、发展中存在的问题及发展前景进行了论述.

会议

化工工业叔丁胺橡胶助剂

创新型橡胶化学品应对汽车工业发展与欧盟Reach环保法规

本文就创新型橡胶化学品应对汽车工业发展与欧盟Reach环保法规进行了论述，文章围绕中国汽车工业现状与发展、几种关键汽车配件对原材料的新要求、环保趋势、法规和法律、创新产品满足环保规则需求及其在汽车工业和轮胎工业应用和莱茵化学技术解决方案等内容展开。

会议

橡胶化学品汽车工业欧盟Reach环保法规

欧盟REACH法案相关情况及影响

欧盟关于化学品注册、评估、许可和限制(REACH)的法规草案于2006年12月18日被欧洲议会通过,于2007年6月1日正式实施.本文简要介绍了REACH法案的一些核心内容和适应范围,及对国内橡胶化学品界的影响和应对措施.

会议

REACH法案橡胶化学品化学工业欧盟标准

维、哈、柯全文搜索引擎中查询处理研究与实现

本文研究了基于web的维、哈、柯多文种全文搜索引擎中一系列查询处理难题:用户查询请求的快速响应、对查询短语必要的预处理、基于词根的索引及查询、查询结果的有效组织、网页摘要的动态生成,以及以本民族风格显示搜索结果等.在设计中,以Visual Basic.net作为开发工具,充分发挥.net技术优势,结合维、哈、柯文语言文字的不同特征、解决了上述查询处理难题,并明显提高了系统搜索效率.

会议

多文种搜索引擎查询短语倒排索引查询处理全文搜索搜索效率

基于Web链接的主题爬行虫初始URL的研究

主题爬虫根据用户查询确定主题信息,通过网页间的超链接,有选择性的在Web上遍历,获取与主题相关网页.它遍历的是整个Web中特定的部分区域.因此为了在较短时间内获取更多的主题信息,起始地址的选择显得异常重要.超链接,作为整个Web网络的连接者,隐含着大量的主题信息.本文使用一个关于网页链接的文本集来模拟Web结构,通过实验结果分析主题区域在Web上的分布规律,验证根据查询主题选择初始URL对主题爬行

会议

主题区域主题信息地址选择Web网络主题爬行虫超链接

基于内容的服装图像检索技术研究

近年基于内容的图像检索技术是一个深受关注的研究热点,但是通用意义的基于内容的图像检索技术并未取得很好的效果.本文将基于内容的图像检索技术应用于电子购物领域,用于支持用户检索服装图像.提出基于分割算法的图像背景去除技术,用于减少背景对提取特征的干扰;用颜色直方图、LBP算法来提取图像的颜色与纹理特征.最后验证了图像背景去除技术对检索效果的影响以及颜色直方图、基于颜色或者纹理特征时的检索效果.

会议

图像检索LBP算法服装图像分割算法提取特征背景去除技术纹理特征颜色直方图

基于能量弹性网格的汉字手写体文档检索方法

手写体文档的检索方法既与手写体文字的识别有相似之处,同时也有重要区别,主要体现在这种检索需要在开放的集合上执行,而文字识别通常可以看成是在一个事先建立的固定样本集合中查找与匹配,显然前者面临的情况会更复杂.为有效解决这一问题.本文充分利用时间与空间信息,首先建立基于模糊语法模式的笔画识别方法,在此基础上建立手写体文字的能量弹性网格及基于弹性网格坐标的文字表示,然后利用惩罚因子提高检索信息的冗余度,

会议

文档检索模糊语法模式能量弹性网格汉字手写体文字识别笔画识别文字表示容错能力

基于最大熵分类器的谓词识别与词义消歧

谓词是语句的中心元素,其词义在分析语句含义时起着关键作用.谓词识别与词义消歧就是根据词语所处的上下文环境对谓词进行准确识别并标注谓词词义,其结果可被广泛应用到信息检索、文本分类、机器翻译等自然语言处理领域中,有着重要的研究意义.本文基于最大熵机器学习方法建立谓词的识别与词义消歧系统,并使用CoNLL 2008 share task提供的语料数据进行评测.最后系统在wsj+brown语料上谓词识别与

会议

谓词识别词义消歧熵分类器信息检索文本分类机器翻译

中图分类法体系下的自动分类研究

本文研究的目的是对学术文献进行自动分类.其分类体系为中国图书馆图书分类法(以下简称中图分类法).中图分类法下分类号数量共计近5万类,如此多的类别,使本文的研究又不同于一般的文本分类,主要难点在于:类别众多,且类别交叉大,区分难度大.本文的目的是自动赋予一篇文献中图分类号.首先我们利用CNKI海量的已经经过人工标注的期刊语料,对近200万的短语词汇进行训练,为每一个短语赋予相应的一个或多个中图分类号

会议

自动分类特征短语词典中图分类法短语词汇

基于类别分布的特征选择框架

与本文相关的学术论文