kNN文本分类器类偏斜问题的一种处理对策

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:youluxihua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
类偏斜问题(class i mbalance problem)是数据挖掘领域的常见问题之一,人们提出了各种策略来处理这个问题.当训练样本存在类偏斜问题时,kNN分类器会将小类中的样本错分到大类,导致分类的宏F1指标下降.针对kNN存在的这个缺陷,提出了文本训练集的临界点(critical point,CP)的概念并对其性质进行了探讨,给出了求CP,CP的下近似值LA、上近似值UA的算法.之后,根据LA或UA及训练样本数对传统的kNN决策函数进行修改,这就是自适应的加权kNN文本分类.为了验证自适应的加权kNN文本分类的有效性,设计了2组实验进行对比:一组为不同的收缩因子间进行对比,可看做是与Tan的工作进行对比,同时用来证实在LA或UA上分类器的宏F1较好;另一组则是与随机重取样进行实验对比,其中,传统kNN方法作为对比的基线.实验表明,所提的自适应加权kNN文本分类优于随机重取样,使得宏F1指标明显上升.该方法有点类似于代价相关学习.
其他文献
文章通过交通工程施工前、交通工程施工中及竣工后工程质量监督管理的论述,分析了我国工程质量监督管理存在的问题,并介绍了具体的质量监督工作主要内容,提出了相应的质量监
近年来,合成生物学飞速发展,为生命科学研究带来了新思维、新方法,不仅极大提升了人类对生命本质的理解,由此催生科学与技术、文化与产业的革命,也引发了合成生物学领域在研
注册会计师作为企业财务信息的鉴证者,其审计行为若无法发现企业的财务舞弊,便无法向资本市场传递真实可靠的信息,从而也使公众投资者因无法进行理性决策而遭到经济利益损失
员工是酒店经营之本,控制专业人才流失是酒店立身之基、发展之本。适当比例的人员流动,能够增强酒店活力,然而过高的流动率对酒店的影响却是弊大于利。建立员工激励体制,重视
在信息交互的互联网时代,网络舆论事件的规模和影响在不断扩大,这是人民群众参政议政新的表现方式。随着司法透明化和公众参与对司法行为讨论的热情高涨,司法网络舆论事件频
随着社会经济的发展,多元文化的交融,国人的服装消费已进入个性化和品牌化的时代,大众的服装品位越来越高,要求服饰兼具合体、舒适、独特等诸多特性。数码印花技术的诞生开启
随着我国经济社会的发展,我国家庭小型化、人口老龄化的趋势已经日益凸显,随之而来的就是我国城市居民日益增长的家政服务需求,他们共同的家政服务需求又进一步催生并带动了
20世纪以来,世界经济高速发展,科学技术已成为决定一国经济水平和政治地位的关键因素。增强自主创新能力和建设创新型国家,是我国面向现代化目标发展的重大战略选择。政策支
针对关键业务应用的开发离不开工作流技术的支持 ,通过对关键业务的实际开发需求的分析 ,在传统的关系数据库基础上 ,提出了一个适用于关键业务开发的基于关系结构的轻量级工
<正>现金管理必须涵盖个人现金交易,这样才能把个人现金活动统一纳入法律规范,堵塞管理漏洞,有效减少现金使用和降低利用现金洗钱的风险。对反洗钱工作而言,大额现金交易一直