基于密度的样本裁剪算法的改进及在kNN中的应用研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:eric2751
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展和迅速普及,人们可以方便快捷地获得大量的信息。然而,在浩瀚的信息海洋里,如何快速准确地找到所需要的信息已经成为人们不得不面对的现实问题。因此,海量信息的组织管理和高效利用已经成为急需解决的问题。目前,大多数信息表现为文本形式,为了有效利用这些文本信息,对它们进行高效、合理的分类是非常必要的。所以,文本分类已经成为处理大量文本信息的关键技术,并已成为数据挖掘领域中一个重要的研究方向。本文对文本分类及其相关技术进行了研究。首先介绍了文本分类的发展概况和文本分类过程中的相关技术,重点介绍了文本预处理、文本的表示、文本特征向量的提取、特征向量的加权、文本分类的经典算法kNN( k nearest neighbor)、训练样本裁剪算法以及文本分类效果评估等;其次,分析了kNN算法和训练样本裁剪算法的不足并对其做出了改进。本文研究内容和创新工作主要包括以下两大方面:第一,对训练样本裁剪算法进行改进。在文本分类中,训练集的分布状态会直接影响kNN分类器的效率和准确率。通过分析基于密度的kNN文本分类器训练样本的裁剪方法,发现它存在两大不足:一是裁减之后的均匀状态只是以ε为半径的球形区域意义上的均匀状态,而非最理想的均匀状态即两两样本之间的距离相等;二是未对低密度区域的样本做任何处理,裁减之后仍存在大量不均匀的区域。针对这两处不足,提出了以下两点改进:一是优化了裁减策略,使裁减之后的训练集更趋于理想的均匀状态;二是实现了对低密度区域样本的补充。通过实验表明,改进后的算法在稳定性和准确率方面都有明显提高。第二,对kNN算法进行改进。原始kNN算法中最佳k值的确定目前还没有很好的方法,一般采用先设定一个初始值(一般为几百到几千之间),然后根据实验测试的结果来不断的调整k值。这不利于kNN算法在实际中的推广应用。针对这种不足,本文在基于密度的训练样本裁剪算法的基础上提出一种改进算法。改进算法的基本思路是:在给定新文本后,考虑训练文本集中,属于该新文本的ε邻域的k篇文本,根据这k篇文本所属的类别判定新文本所属的类别。通过实验表明,改进算法较好的解决了kNN算法中参数k取值的问题,同时,在时间效率上也要优于原始kNN算法。在分类效果上,改进算法跟原始kNN算法基本一致。
其他文献
在当前的各类视频编码标准中,运动估计和运动补偿一直都是视频编码的核心技术。一方面,运动估计的准确性是衡量图像是否失真的关键,准确性越高,图像的失真率就越低,视频图像
随车起重机作为综合起重和运输为一体的新型高效起重运输设备,已经逐渐受到大量用户的认可和接纳。由于液压系统是随车起重机工作系统中非常重要的部分,同时支腿机构在工作中用以支撑起重机的全部重量,它的稳定性关系到起吊物体过程的安全可靠,因此本文重点对支腿液压回路进行研究与优化。本文以某SQ5型随车起重机为研究对象,对起重机起升回路、伸缩回路、回转回路和支腿回路进行简单的研究分析,并通过计算确定其主要元件参
随着图形处理器(GPU,Graphics Processing Unit)计算能力不断提升,图形学中的仿真算法成为研究热点。基于牛顿力学的仿真算法被广泛应用于各类仿真系统中,包括游戏、电影、医疗
带时间约束条件的弧路径问题属于带容量限制弧路径优化问题(CARP)的一个扩展,在CARP的基础上对某些关键路径做出了时间限制,这种扩展有着实际的应用意义,比如在某些城市主干道中只
人脸识别技术在电子商务、日常生活等领域得到非常广泛的应用,也是几十年来模式识别和计算机视觉中的研究热点之一。但是在实际应用中,人脸图像是在不受控环境下获取的,而且
随着Internet的迅速发展,很多问题已经出现,比如说IPv4地址的短缺,严重阻碍了IP网络的发展,成为了这些问题中急切需要解决的一个问题。为了解决这一问题,出现了NAT服务和IPv6
电力调度自动化系统是在线为调度机构生产运行人员提供电力系统运行信息、分析决策和控制的综合系统。目前调度自动化系统的数据分析系统一直是弱项,大量数据没有得到充分利用。本文在充分分析了数据挖掘的理论和关联规则挖掘算法,在研究了传统了时态关联规则和周期性关联规则挖掘的基础之上,结合蚁群算法改进了原有的周期性挖掘算法,使之在运算速度上有了很大提高,并将之应用到了电力调度自动化系统的数据分析子系统中,设计完
在火灾安全领域,为了使群众的利益远离火灾威胁,现在已经出现了很多火灾检测手段。目前,市场主流的火灾检测产品是基于传感器式的,在私人住宅、大型商场、工厂车间等场所中,
分层强化学习,如Option、MAXQ等,通过引入抽象机制来解决大规模系统的“维数灾”问题,并具有加速策略学习的功能。Option算法是运用比较广泛的一种分层强化学习算法,它通过引
对等网络P2P(Peer-to-Peer)是当前流行于计算机网络技术研究领域的一种新兴网络模型。具有搜索效率高、可扩展性好等优点,有效地解决了C/S模式单点故障的问题。因此,P2P的各