加权K-近邻研究及其在文本分类中的应用

来源 :河北大学 | 被引量 : 0次 | 上传用户:looksky1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了一种学习权值算法以改进K-NN(K-NearestNeighbor)分类算法的分类准确率。从数学意义上讲,这种权值学习相当于欧氏空间中对一组点进行了一个线性变换。同时,不同近邻样本本身的权重影响不同,则直接改变测试样本的最终类别。我们不仅对每个属性学习权值,而且可以对每一个测试样本点的近邻基于它们到测试点的距离进行加权,使得那些距离较近的近邻获得的权值较高,从而提高了K-NN算法分类准确性。 针对K-近邻算法中K值的学习,本文总结了一种聚类有效性函数,数值实验证实了其有效性,旨在指导应用于K-近邻分类中。 基于以上的研究思想,本文提出了加权近邻算法在文本分类中的应用,对英文数据库Reuters-21578实现了分词以及分类的过程,并将特征权值的学习思想应用在文本分类中,同时对中文文本的分词做了初步分析与实验。
其他文献
本文主要研究了一类具有幂等元代数上的Lien-重导子的结构。我们的结果部分推广了最近Benkovifi关于Lie3-重导子的结果。同时作为获得结果的推论,我们得到全矩阵代数上Lien-重
五表示出发于零点的δ(≥0)-维Bessel过程的平方。本文主要研究Xt和它的局部时过程()t、它的重随机积分过程In(t,δ),t≥0以及这些过程的极大值函数问的不等式的性质,得到的
学位
近年来,在模式识别、机器学习等领域,信息融合技术得到了迅速发展和广泛应用。考虑到分类器之间存在着交互影响,本文使用Choquet模糊积分这个融合算子,将已训练好的神经网络作为
随着现代科学技术的迅猛发展,新的数学理论日趋成熟,新的数学方法层出不穷,在解决科技生产中的重大实际问题中愈亦显示出它勃勃生机.矩阵是数学上的一个重要概念,由于它描述问题
本文主要讨论了几类微分系统的极限环分支与一类生态系统的反周期解的存在性和全局指数稳定性.全文主要内容共分四章,具体如下:  第一章主要介绍有关极限环分支与反周期解问
本文主要研究粘性方程当£趋近于零时的粘性极限.这里主要考虑非特征边界情况。主要结构是首先利用匹配渐近展开的方法构造粘性方程的三阶近似解,其次由粘性守恒率证明强边界层
如何利用单幅图像的明暗重构物体三维表面(shape from shading SFS),是计算机视觉当中有关单目视觉的主要研究内容之一,已经在工程领域中显示出越来越不可忽视的地位和作用。
江苏省东海县对领导干部实施“夹缝问责”,在对法律与党纪政纪“夹缝”之间出问题的干部予以责任追究。对干部的问责,历来是以法律、党纪政纪为依据。于是,少数干部便把这个
非线性泛函分析是现代分析数学的一个重要分支学科.二十世纪五十年代,非线性泛函分析已初步形成了完整的理论体系。近年来,随着物理学、航空航天技术!生物技术等分支领域中实际
本文对亏基摄动对偶Ⅰ阶段算法进行了探讨。本研究将摄动算法和亏基单纯形算法相结合,以充分发挥这两种算法的优势,从而为亏基对偶单纯形算法提供一个新的 I 阶段算法,以使其进