不均衡数据集上文本分类的特征选择研究

来源 :第二届中国分类技术及应用学术会议 | 被引量 : 0次 | 上传用户:kuvincent
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术.文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题.如何在不影响整体分类性能的基础上,提高稀有类别的分类效果是解决不均衡数据集问题的基本要求.从特征选择的角度出发,提出选择具有较强类别信息的词条是提高稀有类别分类性能的关键.一般而言,具有较强类别信息的词条不是高频词,甚至有倾向于稀有词的趋势.提出了解决不均衡数据集问题的一个途径--构造形如DFICF的特征选择方法.在Reuters语料上进行实验,实验结果表明该特征选择方法的效果比IG,DF都要好,特别是在微平均指标上.从而表明该方法对稀有类别的分类效果有明显的改进。
其他文献
呼和浩特市重大科技专项正式启动了,这是市委、市政府加大科技投入。建设创新型首府的又一重大举措。根据今年财政预算安排,科技经费预算占预算内一般预算财力的1.52%,达到了国家
美国环境保护署正从事于在1975年达到美国国家大气质量标准的污染控制工作。虽然此项工作尚未完成,但工艺要求的趋势是清楚的。在要求的期限内及今后十年,从烟气中脱硫是控制
期刊
粒子群优化算法具有全局性能好、搜索效率高、容易实现等优点。文章在极大似然估计模型的基础上,采用粒子群优化算法,提出一种基于实例的边坡安全系数估计模型。工程实例研究
武汉市武昌区滨江商务区的核心战略是发展总部经济。早在2003年,武昌区委、区政府在全面分析区位优势、资源禀赋和产业结构的基础上.率先提出了“建设公司总部区,发展总部经济”
库存管理系统能够实现用户对于库存基本信息及出入库信息的增、删、改、查等各种常规类操作。本系统采用双重加密技术来保证信息的安全保密性:密码加密。以及给不同的用户以不
美国洛斯阿拉莫斯国家实验室(LANL)的一个遗传学小组和一国际财团联合提出了一套旨在阐明可公开获取的基因测序数据信息的质量标准。新标准最终可使遗传研究人员开发出更有效的
对采自内蒙东胜、河北张家口、山西离石和湖北通城、秭归等不同自然地理环境区的92个土壤样,分别进行了其各项物理、化学特性的测定,和崩解、溅蚀、贯入试验,发现不同土类的试验结
通过社会发展和地理学科特点分析 ,面对地理学科不参加高考、中考及社会对人的地理素质需求实际 ,以中学地理教材素质内容论述了中学地理教学中的素质教育。只有具备良好的地理素质 ,人类才能规范行为 ,指导实践 ,保护资源、保护生态环境 ,并使之成为自觉行动
呼和浩特市科技局事业单位工作人员竞聘上岗工作目前正稳步开展。12月10日。根据《呼市科技局事业单位人员聘用实施方案》,按照聘用程序,呼市科技局组织了事业单位工作人员竞聘