类偏斜相关论文
经典KNN算法和以住的基于密度的改进KNN算法都缺乏对训练样本数据分布的有效性描述,因此会间接影响到分类结果。提出一种基于测试样......
KNN算法是经典的文本分类算法.训练样本的数量和类别密度是影响算法性能的主要瓶颈,合理的样本剪裁可以提高分类器效率.文中提出了一......
KNN算法是文本分类中广泛应用的算法。作为一种基于实例的算法,训练样本的数量和分布位置影响KNN分类器分类性能。合理的样本剪裁以......
在当今大数据时代下,随着互联网的快速发展,在线文档信息迅速增加。Web是当下最为主要的信息库,而文本又是在Web中占有最大份额的......
特征选择是文本自动分类的核心技术。针对经典的CHI模型不足之处,本文首先从特征项与类别之间的正负相关性角度对特征项进行删减;......
互联网上充斥着各种信息,其中有一些信息,如恐怖组织等通过互联网散布的消息,直接影响着国家安全与稳定。传统的按IP地址、主题进......