论文部分内容阅读
随着互联网的发展,实体经济与互联网的结合越来越紧密,人们由线下消费向线上消费转移。互联网上积累了大量人们参与的实体消费的评论信息。这些评论信息是顾客线上消费的重要参考依据,同时也是经营实体经营决策的重要参考,因此合理有效的挖掘评论数据,提取顾客消费评论中的关注点和情感因素对实体经济发展具有重要作用。k近邻算法因其理论简单,易于实施等优点在机器学习和数据挖掘领域得到广泛应用。但是针对文本分析中特征维度高、文本数值化后语意解释等问题,传统k近邻算法无法很好的处理。对传统k近邻算法进行改进优化,使其更加适用于文本分析处理场景是本文的研究重点。本文主要创新点如下:(1)针对文本分词后得到的词向量忽略了上下文语意关系,导致算法准确率较低的缺点,引入组合特征,将前后相连的实体词与情感修饰词相结合形成组合特征,使词向量保持基本的语意关系,提高算法的准确率。实验证明,在不同算法模型下,引入组合特征可以得到更高的拟合准确率。(2)基于TF-IDF和基尼不纯度构造特征筛选综合指标(TF-GINI)进行特征选择,在弥补TF-IDF在有监督学习样本中忽略类别变量的缺陷的同时降低特征维度,提高算法效率,并以TF-GINI值为权重,进行加权k近邻算法,提高算法的拟合程度。通过实验仿真,经特征筛选后的加权k近邻算法准确率高,拟合速度快。(3)k近邻算法在训练阶段仅存储训练样本,当数据集较大时,k近邻算法存储成本高,在预测阶段利用整体样本搜索近邻样本,未考虑数据集本身的离散特性,导致近邻样本搜索速度慢且近邻样本质量不高。针对这一问题,提出基于k均值聚类的k近邻算法,利用k均值聚类算法将数据集分割为多个紧密度高的子集,在子集中拟合k近邻算法,提高近邻样本质量和近邻样本搜索速度,从而提高算法性能。同时多子集独立训练预测模型,有利于分布式存储与计算。实验证明,基于k均值聚类的k近邻算法可以得到最优的拟合效果。