【摘 要】
:
特征选择是文本分类技术中重要的处理步骤,特征词选择的优劣直接关系到后续文本分类结果的准确率。使用传统特征选择方法如互信息(MI)、信息增益(IG)、χ2统计量(CHI)等提取的特征
【基金项目】
:
国家自然科学基金(61172018);陕西教育厅科技计划(15JS077);西安市科技计划(CXY1439(8))资助
论文部分内容阅读
特征选择是文本分类技术中重要的处理步骤,特征词选择的优劣直接关系到后续文本分类结果的准确率。使用传统特征选择方法如互信息(MI)、信息增益(IG)、χ2统计量(CHI)等提取的特征词仍存在冗余。针对这一问题,通过结合词频-逆文档率(TF_IDF)和最大相关最小冗余标准(MRMR),提出了一种基于MRMR的特征词二次选取方法 TFIDF_MRMR。实验结果表明,该方法可以较好地减少特征词之间的冗余,提高文本分类的准确率。
其他文献
迪莉娅在《档案学通讯》2009年第3期上撰文介绍了欧盟电子政务政策制定与实施的机制。
为了改善与优化我国现存的能源消费结构,需要开展我国能源消费和能源消费CO2排放等方面的研究。使用1980--2007年期间逐年发电量、单位发电煤耗等统计数据,计算了不同时期我国
标准:技术标准和管理标准,打造质量网的第一环节“做事情都要有标准,管好标准是蒙牛的核心。”在王艳松看来,标准是“织网”的第一个环节,因为质量的核心理念是持续改进,只有先标准
<正>2017年,全国共出版图书、期刊、报纸、音像制品和电子出版物485.23亿册(份、盒、张),较上年降低5.43%。其中,出版图书92.44亿册(张),增长2.29%,占全部数量的19.05%;期刊2
有关“痛苦”的教育理念及剖析痛苦是深深扎根于教育场域中的一种教育观念乃至教育哲学。类似“刻苦学习”“吃得苦中苦,方为人上人”“书山有路勤为径,学海无涯苦作舟”“囊
本文借鉴资源基础理论和组织学习理论探索了创业导向对资源整合的影响,从组织学习视角来分析创业导向的作用过程。基于北京、广州和长春三地的281个样本进行实证分析,结果显
随着防火墙、入侵防御系统等网络安全规则数目的快速增长,规则匹配效率成为影响网络安全设备性能的一个瓶颈。基于密码杂凑算法的随机性、低碰撞性等良好特性,设计了一种用于
阳春三月,暖意浓浓。在温和的阳光下,我们来到余干县东塘乡新村黄鳝养殖基地,见到了黄鳝养殖大户徐青娇。在一处池塘边,徐青娇正往水塘里投放鱼饲料。“投放的是什么饲料?”
学科核心素养是学科课程教育的价值体现。学生能否积极地参与课堂教学,参与的广度和深度,不仅直接影响课堂教学的效果,还影响着学生学科核心素养的养成。文章介绍了初中地理
在明代乡约形成制度之前的一百多年间,明代乡约经历了“鲜人问津”与“引起注意”两个阶段。此后在弘治、正德、嘉靖三朝,乡约终于能够融入当时的乡治体系。令人遗憾的是,大