【摘 要】
:
通过利用大数据爬虫技术在电商网店中爬取某个商品的好评或差评大数据后,预处理爬取的评论使非结构化的数据去掉重复数据和无效数据,对处理后的数据进行分词、词性标注,去标点符号、去停用词处理,把非结构化数据转变为结构化数据,对评论数据采用算法构建模型并分析。采用基于决策树情感分析、情感词库分析、LDA模型的主题分析,综合3种方法对评论数据进行处理,得到一份最终的情感分析,从而得到消费者偏好的产品方向,以便
【基金项目】
:
广东省普通高校特色创新类项目(自然科学)“基于大数据的用户画像与用户行为分析平台研究”(2019KTSCX258);
论文部分内容阅读
通过利用大数据爬虫技术在电商网店中爬取某个商品的好评或差评大数据后,预处理爬取的评论使非结构化的数据去掉重复数据和无效数据,对处理后的数据进行分词、词性标注,去标点符号、去停用词处理,把非结构化数据转变为结构化数据,对评论数据采用算法构建模型并分析。采用基于决策树情感分析、情感词库分析、LDA模型的主题分析,综合3种方法对评论数据进行处理,得到一份最终的情感分析,从而得到消费者偏好的产品方向,以便商家能够获取进一步提升的方法。
其他文献
激光产生温稠密物质是当前极端条件物态物性研究的重点,其产生过程将带来诸如电子电离等非平衡状态。基于有限温度密度泛函理论的第一原理计算是当前研究温稠密物质的主要方法之一,但其对激发态、空洞态无能为力。本文发展了考虑电子内壳层空洞态的密度泛函理论计算模型,对温稠密金属锂、铝、铜和金被激光激发后产生的非平衡瞬态电子结构进行了研究。根据光子能量的不同,处于内壳层或价带的电子将被激光激发,引起材料的等容加热
开源软件在现代社会的各个领域得到了广泛的应用,取得了令人瞩目的成就。随着开源模式的飞速发展,群体化的开源创作范式和众多企业级的软件生产技术深度融合,使开源模式迸发出强大的生产力,孕育了一大批开源开发生态。在开源开发生态的形成和生长过程中,离不开丰富多样的企业级软件生产工具、服务和平台的支持,其中最突出的软件生产范式就是Dev Ops开发运维一体化,它旨在帮助开发者用更快的速度开发和交付高质量的软件
恶性肿瘤是严重危害人类健康的疾病之一。在肿瘤疾病的临床检查治疗过程中会产生大量检查报告,如X射线影像报告、超声影像报告、CT检查报告等医疗文本数据。它们是医生对疾病的客观记录,也是对疾病诊断的重要依据。对肿瘤疾病进行事件抽取,从海量的文本报告中提取出医生感兴趣的内容并以结构化的形式呈现出来,对辅助医生的诊断治疗显得尤为重要。针对上述问题,本文以肿瘤疾病检查报告为研究对象,提出了一种基于机器阅读理解
在第五代移动通信中,随着极化码在增强移动宽带、高可靠低时延通信、海量机器通信这三大业务中的广泛应用,其理论研究和实际应用中的诸多问题受到广泛关注。本文首先对极化码的信道极化原理、信道可靠性估计进行了介绍与分析,之后重点围绕极化码从理论到实际应用,从以下几个方面开展研究。(1)在非合作通信条件下,利用截取到的比特流进行码字重构,利用码字矩阵秩特性的差异、极化码码字汉明重量、极化码编码中引入冻结位等特
碰撞检测是计算几何、计算机动画、2D/3D游戏和物理仿真等领域不可或缺的环节,它的复杂度高计算量大,尤其是在高精度的模型中。由于它的应用广泛,多年来吸引了许多研究者的目光,成为计算机图形学中的热门研究话题。本文系统性地研究了碰撞检测,出于碰撞检测精度的考虑选择连续碰撞检测算法作为基础,对其进行改进。本文采用两级碰撞检测算法框架,期望通过对碰撞对的两层剔除,快速减少需要精确碰撞检测的碰撞对数量。由于
大规模智能集群是一个巨大的复杂系统,由大量异构的、相互作用的作战要素构成。针对集群对抗下的军事网络的多重性、耦合性等特征,如何对智能集群进行建模和分析成为了亟待解决的关键问题。一是针对集群对抗下的军事网络具有多重性、耦合性等特征,多层复杂网络模型考虑了不同网络层结构的差异以及网络层间的相互影响,因此成为了解决此类复杂系统建模问题的一个有效框架。二是针对如何通过攻击敌方网络中一定数量的关键节点或连边
随着社会进步和科技的发展,各类应用的不断出现以及海量增长的数据,人们对用户体验提出了更高的要求。这就迫使人们寻找更加有效的方法探索数据的内在价值并对数据进行合理的优化放置。云计算和边缘计算的出现为满足社会需求提供了更多的可能。然而,云计算和边缘计算服务与资源种类繁多,其计算和存储能力也千差万别。因此,面对日益复杂的网络环境和应用需求,云计算和边缘计算融合协同发展成为趋势。并且,由于现实世界中大部分
随着航天产业与信息化的发展,国防安全领域以及社会经济领域对成像卫星的依赖程度越来越高,军事侦察、气象预报、环境监测、城市规划等大量成像需求日益凸显。卫星数量和成像需求的快速增长,带来调度问题规模的增加,使得成像卫星的调度管理与任务规划更加复杂。本文面向大规模成像卫星调度问题,设计了启发式规则智能演化方法,演化设计出一组高效的调度规则或启发式策略对大规模卫星调度问题进行快速构造求解。本文的主要贡献包
岩溶峰丛洼地地区石漠化、饮水困难和水污染等环境问题高发,生态环境十分脆弱。低影响开发概念的引入有助于规范开发行为,促进水资源的高效利用,降低石漠化和地下河污染风险。根据水文条件和开发方式岩溶洼地空间分为坡耕地水土流失敏感区、表层岩溶泉水源地敏感区和落水洞污染输入敏感区。低影响开发模式总体是在3类敏感区实现5个管理目标。坡耕地敏感区的低影响开发目标设置为降低农田耗水量和减少水土流失,开发途径是减少蒸
金属3D打印技术强大的加工制造能力,及快速、轻量化的特点为武器装备的维修保障提供了新的思路,这项技术的推广应用将大大提高装备维修保障的效率。金属3D打印由于加工原理的制约,目前很难达到较高的加工精度,本质上得到的是相当于精密铸造的毛坯件,为了保证零件精度要求,3D打印件往往需要进行车、铣、磨等机加工后处理过程,这也是3D打印技术融入工业制造领域的一个重要技术环节。由于金属3D打印精度受多种因素制约