论文部分内容阅读
本文提出了一种学习权值算法以改进K-NN(K-NearestNeighbor)分类算法的分类准确率。从数学意义上讲,这种权值学习相当于欧氏空间中对一组点进行了一个线性变换。同时,不同近邻样本本身的权重影响不同,则直接改变测试样本的最终类别。我们不仅对每个属性学习权值,而且可以对每一个测试样本点的近邻基于它们到测试点的距离进行加权,使得那些距离较近的近邻获得的权值较高,从而提高了K-NN算法分类准确性。
针对K-近邻算法中K值的学习,本文总结了一种聚类有效性函数,数值实验证实了其有效性,旨在指导应用于K-近邻分类中。
基于以上的研究思想,本文提出了加权近邻算法在文本分类中的应用,对英文数据库Reuters-21578实现了分词以及分类的过程,并将特征权值的学习思想应用在文本分类中,同时对中文文本的分词做了初步分析与实验。