K-近邻中文文本分类方法的研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:gaolch012
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在浩瀚的数据资源中,为了实现对特定主题的搜索或提取,文本自动分类技术已经成为目前研究的热点。K-近邻(KNN)是一种重要的文本自动分类方法,能够处理大规模数据,且具有较高的稳定性。本文在全面概述中文文本分类的基础上,对KNN中文文本分类进行了研究。全文的主要内容如下:(1)概述了文本分类的研究背景和发展现状,详细介绍了中文文本分类的一般过程和关键技术以及文本分类的质量评估的标准和方法。(2)针对KNN文本分类处理大规模数据,存在的分类速度慢的问题,提出了基于中心文档的K-KNN算法,在KNN方法的基础上,引入特征项间的语义关系,并根据语义关系进行聚类生成中心文档,减少了KNN要搜索的文档数,提高了分类速度。仿真实验表明,该算法在不损失分类精度的情况下,显著提高了分类的速度。(3)为了减小训练集中各类别资源分布不均衡对分类性能造成的影响,提出了一种处理方法,在K-KNN的基础上,利用较小的K值对训练集中的边界文本的进行多次测试,将其分到权重最大的类别中。这种方法降低了在类边界区域训练样本分布的不均匀性可能造成的测试样本误判的问题,仿真实验显示,这种方法具有很好的分类性能。
其他文献
Android智能手机已经成为人们日常生活中不可或缺的部分,但是其本身开源性的特点,使Android系统受到更多的恶意行为的威胁,其中获取用户隐私的恶意行为占了大多数,也越来越受
随着计算机技术和信息技术的飞速发展,医疗信息系统间的互联互通和信息共享也变得越来越重要。在医疗卫生服务过程中,大家迫切希望通过建立适用共享的卫生信息系统,使医疗服务人
学位
随着汽车行业的迅速发展,车标识别在智能交通,道路监管,安全追踪以及车辆服务等领域的应用价值日益凸显。针对目前车标识别的方法中存在的定位精度低、识别效率低等问题,本文
伴随着智能手机的快速普及,智能手机恶意APP的数量也与日俱增。恶意行为代码的二次复用开发、恶意APP的自动生成技术使得具有恶意行为的APP开发效率大大提高,恶意程序的数量
现代化科技的飞速发展,使人脸识别技术受到越来越多的重视。作为人脸识别的第一步——人脸检测,已成为计算机视觉和模式识别领域中最活跃的研究课题之一。本文详细介绍了人脸
随着互联网的发展,P2P作为一种重要的分布式技术已经在共享文件、对等计算、协同工作等多个领域中得到了越来越多的应用。P2P网络越来越受到人们的重视,而安全问题是影响P2P
随着SSH2框架越来越受到程序员的青睐,并且已经成为当今大型应用软件的首选WEB技术。日志记录功能是应用系统不可缺少的一部分,但现有的日志插件不仅与应用程序处于紧耦合状
目前,传统互联网络IP地址匮乏、地址二义性等问题日益凸显,为解决这种现象提出了 “未来网络”的概念。命名数据网络(Nameddatanetwork, NDN)作为未来网络最有潜力的候选方案
无线传感器网络作为一种新的信息获取和处理技术,在军事、安全监视、生态环境监测、医疗等领域具有广泛的应用前景。覆盖是衡量无线传感器网络服务质量的重要指标。覆盖问题
最近虚拟化技术经历了一个快速发展的时期,他们为用户节省了大量的硬件资源的开销。这项技术为提供数据中心、网站服务器等需要大量硬件服务器的企业提高了硬件资源的利用率,并