基于差分进化粒子群算法的电商评论数据挖掘研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:officerkaka
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国互联网技术的进步和飞速发展,线上购物已然逐渐成为当下一种最主流的购物方式,给现代社会人们的日常生活和工作方式都带来巨大的改变,同时也使得现代社会人们的日常生活和工作都更加的方便快捷。但线上商品的品种样式繁多,令人眼花缭乱,且不能切身去感受和体验商品,致使消费者难以做出购买抉择。电商平台中的用户评论信息,是已购买商品的消费者亲自体验后对商品的主观感受,能够为潜在用户提供一定的参考。然而,电商用户群体越发庞大,商品评论信息量骤增且平台评论信息显示策略不合理及其他一些原因,使得用户很难从中提取到对自己有利用价值的信息。本文主要研究内容如下:第一,数据采集及预处理。这一部分介绍了现阶段常用的爬虫技术,利用这种技术收集电商平台中故宫文创产品的评论文本数据,并经过数据清洗、主观句子提取、中文分词、去除停用词等一系列技术对评论文本执行了相关的预处理操作,提高了数据的有效性,为后面的聚类分析工作做了充分的准备。第二,利用Word2Vec模型获取词向量。短文本数据因其含有的词项较少导致了特征提取难度大等问题。应用传统文本聚类模型对短文本进行聚类分析,常常得不到理想的簇类结构,不利于后续的应用研究。Word2Vec词向量模型通过中心词项的上下文内容可以将中心词项转换为一个词空间中的词向量,它在训练词向量时相较于传统的向量空间模型考虑了语义环境对训练结果的影响,具有一定的优势。Word2Vec词向量模型的思想是,上下文相似的词的语义也应该相似,这样语义相似的词空间中对应的词向量就更接近了。第三,利用特征词聚类结果以及情感标签实现商品特征及情感维度的构建,从特征和情感两个角度挖掘消费者所关注的商品的特点以及自身的主观感受,该维度体系为用户做出购买决策提供了客观有效地参考标准,并通过实验验证了本文方法的可行性及有效性。实验结果表明,本文基于个体间聚类中心向量相似度矩阵的自适应调整聚类中心向量排列顺序的方法来改进的算法,对短文本数据的处理上提高了准确率,并在特征词聚类方面加以应用,比传统的聚类算法更具优势。与传统算法相对比本文通过改进后的算法聚类效果更佳,同时算法的收敛速度也是更快的。
其他文献
量子色动力学(QCD)作为描述强相互作用的规范理论,预言了在能量足够高且能量密度足够大时,强子中的夸克和胶子会解除禁闭,形成夸克胶子等离子体(QGP)这一新的物质形态。各种理论模型也预测了在低温高重子化学势区域,强子物质相与QGP相之间的转变属于一级相变,一级相变线的终结点称为QCD临界点,该点处发生的相变为二级相变。目前实验上想通过重离子加速器完成相对论重离子碰撞实验,在极短时间内产生高温高密的
在信息社会,图像是常用的隐写载体之一,非法组织也常用隐写技术来传递消息,这为国家安全与社会安全埋下了隐患。为维护国家安全,很多学者致力于隐写分析技术研究。图像隐写分析是通过分析样本图像的特性,寻求图像特征被修改的可能性,进而判别样本是否携带秘密信息。而为了提高隐写分析的准确性,借用深度学习来设计隐写分析算法已经成为当下的研究热点之一。传统隐写分析方法是通过人工设计图像特征的提取方法,最终通过训练特
几千年来,人类文明在源源不断地进步,发展到如今,社会经济也在日益增进,尤其是科学技术日新月异的发展,使得人类进入了一个全新的信息时代。在此背景下,人类生活生产已经越来越离不科学技术和信息技术,而这些高新技术,也广泛运用于各个领域之中。农业是一个国家能够强盛的基础,因此,需要大力发展。现阶段我国农业信息的传播途径还较为传统单一,在基础设施方面也比较缺乏,以至于农业信息不能得到及时有效地传播,从而造成
随着经济社会的快速持续发展以及人们经济收入、休憩时间的增加,居民对休闲游憩的需求也越来越大,城市周边旅游逐渐成为了居民休闲游憩的最佳场所。近年来第三产业及旅游业的快速发展更是为城市周边旅游业的蓬勃发展创造了良好的发展环境,大型城市的环城游憩带得到了进一步的发展。武汉是我国中部地区的特大中心城市,是我国重要的工业基地、科教基地和综合交通枢纽,拥有1300多万的常住人口。武汉两江交汇、三镇鼎立,拥有悠
学位
学位
学位
学位
随着互联网的蓬勃发展,网络数据井喷式增长,人们被各种各样的网络信息包围着。这些网络信息中混杂着大量的不良语言,不仅干扰信息传递与知识共享,而且阻碍网络文化健康发展,严重污染网络空间环境,危害国家精神文明建设。为给网民提供友好的网络空间环境。针对网络不良文本短小,上下文信息缺失,且缺少专用数据等问题,本文采用半监督学习模型挖掘网络文本中的不良语言信息。主要研究工作如下:(1)网络不良词汇挖掘数据集和