KNN算法的相似度研究

被引量 : 17次 | 上传用户:hua1kai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会,信息就是财富,就是生成力,但是如果我们想把所有的信息量都掌握,这显然不太现实。所以如何从庞大的信息库中获取我们所需要的有价值的信息就显得尤其重要。传统的信息检索技术已经不能满足我们对文本进行分门别类合理管理的要求。随着对信息应用需求的加大,文本挖掘就产生了。文本分类技术是文本挖掘研究中最基本的工作,用于帮助我们查询信息、检索网页、过滤文本信息,从而提高信息的可利用率和使用价值。文本分类的任务是将自然文本根据文本信息量分到预先定义的几个类别中。很多领域都有此类问题,包括网页搜索、办公自动化、新闻网页搜索和主题索引的分类。它应用于信息过滤和提取、网页搜索、数字化图书馆,作为一种关键技术,应用前景非常广阔。KNN算法是一种非参数的文本分类方法,因其简单、有效的特点,被广泛应用于机器学习领域。本文的研究内容是相似度的不同对于KNN算法在文本分类中的影响。同时对于各种不同的距离函数在KNN分类算法中的效果进行了比较。传统的KNN算法中,一方面相似度公式中并没有考虑每一个测试样本点与每一类训练集中心的距离;另一方面也并没有考虑到特征项在分类时对不同类别所起的作用,也就是没有考虑到样本点之间共同拥有或者共同出现的特征项数目。基于以上两点不足,本文提出了新的相似度计算方法,实验二的结果表明,新的相似度计算公式确实提高了文本分类的正确率。
其他文献
本文所说的文化的生态特征是指那些遵循自然规律的,明显具备生态优势的观念和行为方式。游牧民直接面对的是牲畜或草木等自然生态物。因此,对生态的认识和理解成为蒙古人世界
人是单位发展的关键因素,一支作风过硬、技术一流、保障有力的人才队伍对单位的发展起着不可或缺的重要作用。济南市房产测绘研究院历来高度重视人才队伍建设,持续开展了人力
从薪酬体系的全面价值感知出发,遴选了薪酬的4种意义(即绝对意义、相对意义、控制意义、匹配意义)范畴下的前因,并提出基于“外向-内向”、“内容-过程”与“个体-体系”的分析框
以硫酸法钛白粉生产工艺的中间体偏钛酸为原料,采用水热法制备了纳米TiO2粉体。研究了磷酸、硫酸、反应温度及反应时间对TiO2粉体的晶型、粒径及形貌的影响,考察了其在水相介质
近年来,随着我国公路网络建设的不断推进,公路基础设施不断完善,大规模公路建设高潮即将过去,今后很长一段时间内交通领域研究的重点问题将是网络资源的优化与整合。然而,传统的公
中国—老挝铁路作为泛亚铁路中线中必不可少的一部分,是"一带一路"倡议中,中国通向中南半岛经济走廊重要国际大通道的连接线。它的建设与通车不仅有助于推动"中国—东盟自贸
武汉杨泗港长江大桥主桥为主跨1700m的单跨双层公路悬索桥,该桥采用一种新的阻尼约束体系--变参数粘滞阻尼体系。为研究变参数粘滞阻尼体系在振动控制方面的优势,基于变参数
作为常见的链式工程结构,梁、管都具有重大的研究价值。许多实际工程问题都可以简化为梁模型来处理,因而梁尤其是更贴合实际工况下的梁稳定性研究的意义就不言而喻了。管道在水
近年来随着“国际能源争夺战”的日益升温,非洲在未来世界占有越来越重要的位置。从经济上来说,约有8亿人口的非洲被西方经济学家称为“唯一尚待开发的大市场”;在政治上,非洲的5
本文试图探讨不同面子观消费者(“想要面子”和“怕掉面子”)对营销信息框架(促进信息和预防信息)的反应。在研究一中采用问卷调查法探讨不同面子观消费者的特质性调节定向,研究二