基于Spark的海量文本评论情感分析

来源 :苏州科技大学学报(自然科学版) | 被引量 : 0次 | 上传用户:yiqikeren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为实现对批量评论的情感分析,高效挖掘评论价值,该文设计并实现了基于Spark的文本评论情感分析工具。首先,该文对数据进行预处理,使各类训练数据保持平衡,并使用结巴分词对文本进行切分;其次,利用Wor2Vec模型对分词后的评论进行词向量转换;最后,将转化得到的句子向量作为分类器的输入,训练分类模型。同时,该文还基于C/S架构设计了相关应用程序,实现了批量数据的提交以及结果的快速获取。在利用Wor2Vec模型对文本进行特征提取的情况下,该文比较了几种常见分类器的性能差异,结果表明多层感知器在几种算法的比较中取
其他文献
“DSP 原理与应用”是一门以应用为中心,以计算机技术为基础,综合性、实践性和工程性都很强的课程。在教学过程中,既要让学生掌握基本的课程内容,又要让学生能将所学的理论知识应
为提高电网规划与运维决策的科学性,提出了一种以全寿命周期年平均成本最小为依据的输电线路最佳经济寿命区间评估方法。该方法在计算输电线路故障率时,不仅考虑了线路役龄,
采用正交试验法,以总黄酮含量为考察指标,对麻竹叶的总黄酮提取条件进行优选。结果表明,乙醇体积分数80%、提取时间为2 h、料液比为1∶25(g/m L),提取效率较好。最佳工艺条件下
提要$$近2万亿元减税降费清单,传递给企业、市场的是新的信心,是推进高质量发展的新希望。中国的经济发展将会开辟出更为广阔的空间。$$正在召开的十三届全国人大二次会议引人
报纸
“可以”在《春秋左传》中宜分为两种情况 :助动词“可以 1”和结构松散的两个词“可以 2”。本文通过比较分析认为 ,助动词“可以 1”在《春秋左传》中处于绝对优势 ,“可以
结合作者多年的生产经验和科研成果,简要介绍了家兔的消化系统解剖和消化特点,家兔的营养需要特点和饲养标准,以及家兔饲料配方的设计技巧。以期对从事兔业的同行在家兔生产
武汉大学图书馆建立有效的推广策略,系统策划推广内容;设计吉祥物“小布”作为图书馆代言人与读者互动,引导读者积极参与图书馆活动,形成图书馆和读者之间的双赢格局。
2003年10月,东盟提出建立东盟共同体的构想。它包括"东盟经济共同体"(AEC)、"政治安全共同体"(APSC)和"东盟社会文化共同体"(ASCC)三大支柱。虽然东盟社会文化共同体建设起步
科幻类型电影始终是电影中重要的一支,它在票房上往往最具有号召力,其中美国好莱坞的科幻影片一枝独秀。本文将从技术性、艺术性、文化内涵、审美心理四个层面来解读科幻类型