改进的K近邻算法及其在文本分析中的应用

来源 :南京邮电大学 | 被引量 : 4次 | 上传用户:sjk29001431
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,实体经济与互联网的结合越来越紧密,人们由线下消费向线上消费转移。互联网上积累了大量人们参与的实体消费的评论信息。这些评论信息是顾客线上消费的重要参考依据,同时也是经营实体经营决策的重要参考,因此合理有效的挖掘评论数据,提取顾客消费评论中的关注点和情感因素对实体经济发展具有重要作用。k近邻算法因其理论简单,易于实施等优点在机器学习和数据挖掘领域得到广泛应用。但是针对文本分析中特征维度高、文本数值化后语意解释等问题,传统k近邻算法无法很好的处理。对传统k近邻算法进行改进优化,使其更加适用于文本分析处理场景是本文的研究重点。本文主要创新点如下:(1)针对文本分词后得到的词向量忽略了上下文语意关系,导致算法准确率较低的缺点,引入组合特征,将前后相连的实体词与情感修饰词相结合形成组合特征,使词向量保持基本的语意关系,提高算法的准确率。实验证明,在不同算法模型下,引入组合特征可以得到更高的拟合准确率。(2)基于TF-IDF和基尼不纯度构造特征筛选综合指标(TF-GINI)进行特征选择,在弥补TF-IDF在有监督学习样本中忽略类别变量的缺陷的同时降低特征维度,提高算法效率,并以TF-GINI值为权重,进行加权k近邻算法,提高算法的拟合程度。通过实验仿真,经特征筛选后的加权k近邻算法准确率高,拟合速度快。(3)k近邻算法在训练阶段仅存储训练样本,当数据集较大时,k近邻算法存储成本高,在预测阶段利用整体样本搜索近邻样本,未考虑数据集本身的离散特性,导致近邻样本搜索速度慢且近邻样本质量不高。针对这一问题,提出基于k均值聚类的k近邻算法,利用k均值聚类算法将数据集分割为多个紧密度高的子集,在子集中拟合k近邻算法,提高近邻样本质量和近邻样本搜索速度,从而提高算法性能。同时多子集独立训练预测模型,有利于分布式存储与计算。实验证明,基于k均值聚类的k近邻算法可以得到最优的拟合效果。
其他文献
随着全球经济一体化步伐的加快,“一带一路”的开展和“人类命运共同体”的构建,社会对国际化人才的需求日益增多,我国国民经济实力的不断提高和人均可支配收入的提升,国际游
本文综述了形状记忆合金的发现历史、相变晶体学和热力学特性及当前的应用与研究的若干热点。
义务教育物理课程是自然科学领域的一门基础课程,中考则是阶段终结必不可少的评价方式,中考物理试题究竟是否能够在课程标准给定的框架和结构下准确考查学生对内容的掌握程度
在旅游活动几乎成为全民性行为的今天,旅游企业对导游的需求更为强烈。在从业的人员当中,拥有高素质高技能的导游比较缺乏。针对于此,在以辽宁对外经贸学院为范例的前提下,针
我国高等教育正进入由重量向重质发展的新阶段,思想政治教育专业也必须自觉思考如何实现从规模扩张向内涵发展转变,找准本科人才培养过程中的短板和软肋,切实解决人才培养目
分析了As型地铁车辆的技术难点, 介绍了车辆主要技术参数及结构, 同时对车辆应用进行了探讨.
茶从古至今都是世界上最畅销的健康饮料之一,茶叶中含有茶多酚、生物碱、维生素、氨基酸等多种物质,对人体健康至关重要。随着农业的快速发展,化学农药在种植业中大肆使用,导
磁悬浮隔振器利用磁场之间的相互作用力支撑被隔振对象,从而减小地面振动对被隔振对象的干扰,因此磁悬浮隔振器在光刻机系统、精密加工与测量、光学镜片的加工与装配等行业具有很大的实用价值,近年来受到了广泛的关注与研究。本课题提出了一种改进型解析模型,可以作为磁悬浮隔振器的设计工具,保证设计质量的同时缩短设计周期。本课题基于改进型解析模型设计了一种低刚度、大承载的十字交叉型磁悬浮隔振器,使被隔振物体处于无机
文章对证券资格会计师事务所的品牌建设的政策背景、重大意义及现状进行了分析与研究,并对证券资格会计师事务所今后的品牌建设提出了相关建议。
改革开放以来,在党和国家的高度重视和坚强领导下,我国体育事业蓬勃发展,竞技体育整体水平跃居世界前列,这与我国“举国体制”下对于竞技体育的巨大投入是密不可分的,尤其是