一种优化的k-NN文本分类算法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:mnbvcxzxzh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
k-NN是经典的文本分类算法之一,在解决概念漂移问题上尤其具有优势,但其运行速度低下的缺点也非常严重,为此它通常借助特征选择降维方法来避免维度灾难、提高运行效率。但特征选择又会引起信息丢失等问题,不利于分类系统整体性能的提高。从文本向量的稀疏性特点出发,对传统的k-NN算法进行了诸多优化。优化算法简化了欧氏距离分类模型,大大降低了系统的运算开销,使运行效率有了质的提高。此外,优化算法还舍弃了特征选择预处理过程,从而可以完全避免因特征选择而引起的诸多不利问题,其分类性能也远远超出了普通k—NN。实验显示,优
其他文献
现有的概念格模型无法处理既包含以布尔值表示的信息,又包含以标量、模糊数及区间数表示的信息。因此,针对包含所有这些信息类型的扩展的形式背景提出它的处理方法,在此基础上,生
目的:探讨小儿全身麻醉后梨状隐窝压闭法置入胃管在临床医疗中的应用效果,提高置入胃管的一次成功率。方法:将35例择期腹部手术患儿随机分为两组,在全身麻醉气管插管后分别采用
目的:观察急性冠脉综合征(ACS),即不稳定心绞痛(uA)、sT段抬高型或非sT段抬高型心梗(STEMI或NSTEM!)中B型尿钠肽(BNP)的变化特点。方法:研究对象为150例ACS患者及100例健康体检者,并参照A
链路利用率是网络运行状态的重要指标。目前基于NT技术的链路性能推断一般是采用单个源节点,但多源NT具有更多优点。研究了多源NT的链路利用率估计技术;提出汇合测量方法,并证明
本文基于新的WTLS证书和ECC加密算法,使用WAP中的WTLS协议来提供MN和CN之间通信的保密性、数据整合以及鉴权,保证了MN和CN之间绑定更新的安全,从而较好地解决了移动IPv6环境下的
基于移动Agent的网络管理模型利用移动Agent对网络进行灵活的管理,但该模型中网络管理站、被管理节点和移动Agent存在的安全问题阻碍了其进一步的发展和应用。研究这些安全问
随着电子邮件的广泛应用,泛滥成灾的垃圾邮件对人们的生活和网络安全带来了严重的威胁,反垃圾邮件问题已成为全球性的具有现实意义的问题。本文提出了一种基于动态特征词典的SV
压阻式微机械陀螺是MEMS研究的重要方向之一,有效的接口电路是发挥陀螺性能的重要保证。用数学方法完整地推导了陀螺驱动和信号检测的内在机理,并据此设计了一种简单的压阻式陀螺接口电路。接口电路的最小分辨力为0.33°/s。测量结果证明了数学推导的正确性。
平移、旋转和缩放等仿射变换参数的计算是计算机视觉、目标检测和模式识别领域的关键问题。对3类典型的基于图像特征点的仿射参数计算方案进行了研究与探讨,它们分别是利用SUSAN角检测器、Harris角点检测器和尺度不变特征变换(SIFT)提取图像特征点。针对传统算法对SUSAN和Harris角点进行匹配精度过低的问题,提出了一种新的基于Zernike矩的特征点匹配算法,对匹配的特征点对利用四参数仿射模型
提出了一种基于视觉模型的DCT域公开水印算法。算法在充分考虑人类视觉系统屏蔽特性的基础上,通过改变DCT分块内DC分量与低频AC分量之间的大小关系以自适应嵌入水印,水印提取不需要原图像。实验结果表明,算法保证水印不可见的同时,对有损压缩和一些通常的图像处理操作是鲁棒的。