不均衡数据集上文本分类的特征选择研究

来源 :第二届中国分类技术及应用学术会议 | 被引量 : 0次 | 上传用户：kuvincent

【摘要】

：

文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术.文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题.如何在不影响整体分类性能的基础上,提高稀有

【作者】

：

徐燕李锦涛王斌孙春明张森

【机构】

：

中国科学院计算技术研究所,北京,100080;华北电力大学,北京,102206中国科学院计算技术研究所,北京,100080中国科学院计算技术研究所,北京,100080华北电力大学,北京,102206

【出处】

：

第二届中国分类技术及应用学术会议

【发表日期】

：

2007年5期

【关键词】

：

不均衡数据集特征选择文本自动分类信息检索数据挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术.文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题.如何在不影响整体分类性能的基础上,提高稀有类别的分类效果是解决不均衡数据集问题的基本要求.从特征选择的角度出发,提出选择具有较强类别信息的词条是提高稀有类别分类性能的关键.一般而言,具有较强类别信息的词条不是高频词,甚至有倾向于稀有词的趋势.提出了解决不均衡数据集问题的一个途径--构造形如DFICF的特征选择方法.在Reuters语料上进行实验,实验结果表明该特征选择方法的效果比IG,DF都要好,特别是在微平均指标上.从而表明该方法对稀有类别的分类效果有明显的改进。

其他文献

呼和浩特市重大科技专项暨奶牛性控繁育技术示范项目启动

呼和浩特市重大科技专项正式启动了，这是市委、市政府加大科技投入。建设创新型首府的又一重大举措。根据今年财政预算安排，科技经费预算占预算内一般预算财力的1.52％，达到了国家

期刊

科技投入呼和浩特市示范项目繁育技术奶牛财政预算经费预算科技进步

从烟气中清除二氧化硫—美国的概况

美国环境保护署正从事于在1975年达到美国国家大气质量标准的污染控制工作。虽然此项工作尚未完成,但工艺要求的趋势是清楚的。在要求的期限内及今后十年,从烟气中脱硫是控制

期刊

基于粒子群优化算法的边坡安全系数估计

粒子群优化算法具有全局性能好、搜索效率高、容易实现等优点。文章在极大似然估计模型的基础上,采用粒子群优化算法,提出一种基于实例的边坡安全系数估计模型。工程实例研究

期刊

粒子群算法边坡安全系数极大似然估计Particle swarm algorithm Slope safety coefficient The maxi

武汉：发展总部经济促进产业升级

武汉市武昌区滨江商务区的核心战略是发展总部经济。早在2003年，武昌区委、区政府在全面分析区位优势、资源禀赋和产业结构的基础上．率先提出了“建设公司总部区，发展总部经济”

期刊

武汉市经济产业升级区位优势产业结构商务区武昌区政府

浅谈企业库存管理系统的设计

库存管理系统能够实现用户对于库存基本信息及出入库信息的增、删、改、查等各种常规类操作。本系统采用双重加密技术来保证信息的安全保密性：密码加密。以及给不同的用户以不

期刊

库存管理密码存储日志预警查询

甜瓜高产优质栽培技术

期刊

甜瓜高产优质栽培

美国提出基因测序数据分类新标准

美国洛斯阿拉莫斯国家实验室（LANL）的一个遗传学小组和一国际财团联合提出了一套旨在阐明可公开获取的基因测序数据信息的质量标准。新标准最终可使遗传研究人员开发出更有效的

期刊

质量标准基因测序数据分类美国公共卫生突发事件洛斯阿拉莫斯遗传学家国家实验室

土壤坑蚀性实验研究

对采自内蒙东胜、河北张家口、山西离石和湖北通城、秭归等不同自然地理环境区的９２个土壤样，分别进行了其各项物理、化学特性的测定，和崩解、溅蚀、贯入试验，发现不同土类的试验结

期刊

土壤抗蚀性崩解溅蚀贯入实验研究土壤侵蚀Resistivity of Soils Broken-down Splash Erosion Penet

中学地理教学实施素质教育势在必行

通过社会发展和地理学科特点分析 ,面对地理学科不参加高考、中考及社会对人的地理素质需求实际 ,以中学地理教材素质内容论述了中学地理教学中的素质教育。只有具备良好的地理素质 ,人类才能规范行为 ,指导实践 ,保护资源、保护生态环境 ,并使之成为自觉行动

期刊

地理素质教育中学教育

呼和浩特市科技局开展事业单位专业技术及管理人员竞聘上岗工作

呼和浩特市科技局事业单位工作人员竞聘上岗工作目前正稳步开展。12月10日。根据《呼市科技局事业单位人员聘用实施方案》，按照聘用程序，呼市科技局组织了事业单位工作人员竞聘

期刊

专业技术人员事业单位呼和浩特市竞聘上岗管理人员科技局工作人员现场监督

不均衡数据集上文本分类的特征选择研究

与本文相关的学术论文