基于粗糙集和分布密度理论的KNN分类样本选取方法

来源 :2006年全国信息、电子与控制技术学术会议(IECT'2006) | 被引量 : 0次 | 上传用户：haidi99

【摘要】

：

KNN算法对错误标识的训练样本和那些处在各类样本边界处的新文本的分类比较敏感，往往会导致难以得到理想的分类效果。所以说训练样本集选取的好坏是KNN算法进行文本分类的关键

【作者】

：

刘毅杨燕

【机构】

：

西南交通大学信息科学与技术学院四川成都610031

【出处】

：

2006年全国信息、电子与控制技术学术会议(IECT'2006)

【发表日期】

：

2006年9期

【关键词】

：

KNN算法粗糙集样本选取文本分类分布密度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

KNN算法对错误标识的训练样本和那些处在各类样本边界处的新文本的分类比较敏感，往往会导致难以得到理想的分类效果。所以说训练样本集选取的好坏是KNN算法进行文本分类的关键。为此，本文提出一种基于粗糙集和分布密度理论相结合的KNN分类样本选择方法，先利用粗糙集理论的下近似集从训练文本中选取出典型的文本类别样本，同时消除那些被错误标识的样本，然后再用基于密度的KNN分类训练样本选取方法，使训练样本分布尽量均匀，从而保证了KNN分类器的准确率。实验结果表明，该分类样本选取方法能改进KNN文本分类系统的性能。

其他文献

高阳铁矿和北洺河铁矿尾矿实验室脱水效果对比

对高阳铁矿、北洺河铁矿尾矿的粒度组成进行了对比,并根据其尾矿的粒度特性，用不同工艺流程对其进行脱水。对各工艺流程的脱水效果进行对比，得出了最佳脱水流程：φ150mm旋流器一

会议

旋流器浓密机铁矿尾矿脱水效果

针织物的前处理和染色新工艺

由于人们生活方式的改变，针织产品的品种和市场都发生了很大的变化，所以，寻找一种新的高效、节能、环保、低成本的前处理和染色方法就成为针织产品加工的当务之急。活性染料一直

会议

针织物染色工艺针织产品前处理工艺

羽毛纤维的结构、性能及其应用

羽毛的主要成分为角蛋白,具有良好的生物相容性,是一种具有潜在和巨大利用价值的绿色纤维材料。本研究采用偏光显微镜和扫描电镜观察了羽毛纤维的截面和表面形态结构,采用重

会议

羽毛纤维纺织材料角蛋白溶液吸附性能

国际市场生态新要求暨Intertek生态产品认证

国际市场对生态纺织品的认识正在不断地加深和完善,世界一些著名买家对纺织品的生态安全要求日趋严格。面对市场不断严格的生态要求,Intertek天祥集团提供了产品生态问题的有

会议

生态纺织品产品认证生态安全

27CrMo(C90)水淬钢热处理工艺的研究

本文在不同热处理工艺条件下，测定了27CrMo管材的性能和组织，并进行了全壁厚硬度环检测试验。研究结果表明，回火温度提高，回火保温时间延长，强度指标下降，塑性和韧性指标上升；而淬火

会议

水淬钢热处理工艺油套管材力学性能

27CrMo(C90)水淬钢热处理基本特性的研究

本文采用热膨胀法，并结合金相法和硬度法测定了27CrMo钢的CCT曲线图，获得了各组织转变的临界冷速及转变温度。同时按照国标GB225-88的要求，测定了该钢种的淬透性指数曲线图。在

会议

水淬钢CCT曲线淬透性热处理工艺力学性能热膨胀法

AKD、ASA中性施胶机理及影响中性施胶的主要因素

结合目前AKD和ASA应用过程中存在的重要问题，本文介绍了中性施胶的机理和影响中性施胶的主要因素。主要内容包括：中性施胶的基本情况、中性施胶机理、中性施胶的逆转、中性施胶

会议

中性施胶二次纤维施胶过程施胶机理

造纸化学品是发展造纸行业的有力支柱

从目前的现状来看，国内造纸业使用的化学品的量和使用技术远低于发达国家水平,国内生产的造纸化学品的品种与质量稳定性仍与发达国家存在不少差距。两个行业要清醒地认识到这

会议

造纸化学品造纸行业产品质量技术服务

基于蜂窝网的车载定位导航系统设计

通过对车辆定位导航系统的现状和需求分析，本文结合蜂窝网定位技术和地理信息系统，提出了一种基于蜂窝网的定位导航系统框架，设计了系统结构和系统功能模块，指出并分析了系统开发

会议

车载定位导航系统设计场强定位路径规划功能模块

一种快速提取关系数据库中关联规则算法

本文提出了一种基于粒计算从关系数据集中快速提取关联规则方法，按照属性利用等价类对实体进行分类，利用分类后的属性值来构建粒，提出了基于粒计算提取关系数据库的关联规则算法

会议

粒计算关联规则关系数据库数据挖掘性能分析

基于粗糙集和分布密度理论的KNN分类样本选取方法

与本文相关的学术论文