改进的K近邻算法及其在文本分析中的应用

来源 :南京邮电大学 | 被引量 : 4次 | 上传用户：sjk29001431

【摘要】

：

随着互联网的发展,实体经济与互联网的结合越来越紧密,人们由线下消费向线上消费转移。互联网上积累了大量人们参与的实体消费的评论信息。这些评论信息是顾客线上消费的重要

【作者】

：

孙傲

【出处】

：

南京邮电大学

【发表日期】

：

2020年01期

【关键词】

：

数据挖掘 k-means聚类 k近邻算法特征选择基尼不纯度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的发展,实体经济与互联网的结合越来越紧密,人们由线下消费向线上消费转移。互联网上积累了大量人们参与的实体消费的评论信息。这些评论信息是顾客线上消费的重要参考依据,同时也是经营实体经营决策的重要参考,因此合理有效的挖掘评论数据,提取顾客消费评论中的关注点和情感因素对实体经济发展具有重要作用。k近邻算法因其理论简单,易于实施等优点在机器学习和数据挖掘领域得到广泛应用。但是针对文本分析中特征维度高、文本数值化后语意解释等问题,传统k近邻算法无法很好的处理。对传统k近邻算法进行改进优化,使其更加适用于文本分析处理场景是本文的研究重点。本文主要创新点如下:(1)针对文本分词后得到的词向量忽略了上下文语意关系,导致算法准确率较低的缺点,引入组合特征,将前后相连的实体词与情感修饰词相结合形成组合特征,使词向量保持基本的语意关系,提高算法的准确率。实验证明,在不同算法模型下,引入组合特征可以得到更高的拟合准确率。(2)基于TF-IDF和基尼不纯度构造特征筛选综合指标(TF-GINI)进行特征选择,在弥补TF-IDF在有监督学习样本中忽略类别变量的缺陷的同时降低特征维度,提高算法效率,并以TF-GINI值为权重,进行加权k近邻算法,提高算法的拟合程度。通过实验仿真,经特征筛选后的加权k近邻算法准确率高,拟合速度快。(3)k近邻算法在训练阶段仅存储训练样本,当数据集较大时,k近邻算法存储成本高,在预测阶段利用整体样本搜索近邻样本,未考虑数据集本身的离散特性,导致近邻样本搜索速度慢且近邻样本质量不高。针对这一问题,提出基于k均值聚类的k近邻算法,利用k均值聚类算法将数据集分割为多个紧密度高的子集,在子集中拟合k近邻算法,提高近邻样本质量和近邻样本搜索速度,从而提高算法性能。同时多子集独立训练预测模型,有利于分布式存储与计算。实验证明,基于k均值聚类的k近邻算法可以得到最优的拟合效果。

其他文献

加拿大TCDSB项目国际游学市场开发研究

随着全球经济一体化步伐的加快,“一带一路”的开展和“人类命运共同体”的构建,社会对国际化人才的需求日益增多,我国国民经济实力的不断提高和人均可支配收入的提升,国际游

学位

加拿大TCDSB国际游学市场开发

形状记忆合金的研究与应用

本文综述了形状记忆合金的发现历史、相变晶体学和热力学特性及当前的应用与研究的若干热点。

期刊

形状记忆合金(SMA)形状记忆效应(SME)

内蒙古自治区四盟市2017-2019年中考物理试题与课程标准的一致性研究

义务教育物理课程是自然科学领域的一门基础课程,中考则是阶段终结必不可少的评价方式,中考物理试题究竟是否能够在课程标准给定的框架和结构下准确考查学生对内容的掌握程度

学位

中考物理课程标准一致性

导游学课程教学方法改革与创新研究——以辽宁对外经贸学院为例

在旅游活动几乎成为全民性行为的今天,旅游企业对导游的需求更为强烈。在从业的人员当中,拥有高素质高技能的导游比较缺乏。针对于此,在以辽宁对外经贸学院为范例的前提下,针

期刊

导游学教学方法改革与创新

论思想政治教育专业本科人才培养目标及规格

我国高等教育正进入由重量向重质发展的新阶段,思想政治教育专业也必须自觉思考如何实现从规模扩张向内涵发展转变,找准本科人才培养过程中的短板和软肋,切实解决人才培养目

期刊

思想政治教育专业培养目标培养规格卓越青年马克思主义者

As型地铁车辆的研制与应用探讨

分析了As型地铁车辆的技术难点, 介绍了车辆主要技术参数及结构, 同时对车辆应用进行了探讨.

期刊

As型地铁车辆技术参数结构应用

亚临界丁烷去除茶叶中农药残留的研究

茶从古至今都是世界上最畅销的健康饮料之一,茶叶中含有茶多酚、生物碱、维生素、氨基酸等多种物质,对人体健康至关重要。随着农业的快速发展,化学农药在种植业中大肆使用,导

学位

亚临界萃取丁烷茶叶农药残留

基于等效磁荷法的磁悬浮隔振器结构设计

磁悬浮隔振器利用磁场之间的相互作用力支撑被隔振对象,从而减小地面振动对被隔振对象的干扰,因此磁悬浮隔振器在光刻机系统、精密加工与测量、光学镜片的加工与装配等行业具有很大的实用价值,近年来受到了广泛的关注与研究。本课题提出了一种改进型解析模型,可以作为磁悬浮隔振器的设计工具,保证设计质量的同时缩短设计周期。本课题基于改进型解析模型设计了一种低刚度、大承载的十字交叉型磁悬浮隔振器,使被隔振物体处于无机

学位

磁悬浮隔振器低刚度永磁体阵列解析模型等效磁荷法

证券资格会计师事务所品牌建设情况研究

文章对证券资格会计师事务所的品牌建设的政策背景、重大意义及现状进行了分析与研究,并对证券资格会计师事务所今后的品牌建设提出了相关建议。

期刊

会计师事务所证券资格品牌建设

基于SNA的体育训练基地工程建设项目风险管理研究

改革开放以来,在党和国家的高度重视和坚强领导下,我国体育事业蓬勃发展,竞技体育整体水平跃居世界前列,这与我国“举国体制”下对于竞技体育的巨大投入是密不可分的,尤其是

学位

体育训练基地风险管理社会网络分析法效果检验

改进的K近邻算法及其在文本分析中的应用

与本文相关的学术论文