基于Keras框架下的网络电影数据分析

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:hydhyd112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:情感分析的商业价值在于可以通过文字分析可提早得知用户对公司或产品的观感,以调整销售策略的方向。为了实现对电影数据的情感分析,本文基于Keras框架设计并建立了多层感知器模型(Multi-Layer Perceptron,MLP)、递归神经网络(Recursive Neural Network,RNN)和长短时记忆(Long Short Term Memory,LSTM)三种深度学习模型并进行训练评估和预测,通过对lMDb数据集的影评文字进行分析,最终可以较好地预测出影评文字褒贬的情感倾向。
  关键词:神经网络;Keras框架;网络电影数据集lMDb;情感分析
  中图分类号:TP393 文献标识码:A
  文章编号:1009-3044(2019)34-0014-03
  开放科学(资源服务)标识码(OSID):
  情感分析是近年来自然语言处理和文本挖掘领域的热门话题,尤其以文本形式的互联网信息的情感分析已经引起了学术界的广泛关注[1]。情感分析(sentiment analysis)[2]c3]又称评论挖掘或意见挖掘(opinion mining),是使用自然语言处理、文字分析等方法找出人们对某些话题或产品的观点、态度、喜好或评价,经过自动判别可以挖掘出用户的情感倾向分布。情感分析的商业价值在于,可提早得知顾客对公司或产品的观感,进而调整销售策略的方向,最大程度提高营销成功率赢得竞争优势。
  近年来,随着深度学习的快速发展已经在多个应用领域得到了广泛的应用[4],尤其在利用神经网络进行语言模型建立、文本特征学习和文本情感分析方面得到了重大进展[4],已经成为自然语言处理领域研究的热点之一。
  本文主要采用Keras框架建立神经网络模型来实现电影数据的情感分析。Kerasc5]是一个开放源码的高级深度学习程序库,是由python编写而成的高级神经网络API,能够更加高效快捷的建立深度学习模型并进行训练评估和预测。通过Keras框架设计并建立了基于tensorflow的神经网络模型,并用建立的神经网络模型来实现对电影数据IMDb的情感分析。
  1 模型介绍
  1.1 多层感知机原理
  多层感知机[7](Multi_Layer Perceptron,MLP)通常也称为人工神经网络,是一种误差反向传播的多层前馈神经网络算法,主要用来解决多类别非线性数据分类问题。通过对样本进行训练,MLP能够使自身网络学习目标模型输入与输出之间的映射能力,并具有较好的泛化能力。
  多层感知机层与层之间是全连接的,包括输入层、隐藏层和输出层。图1为一个最常用的三层MLP模型,只含有一个隐藏层也称为单隐层网络。
  MLP算法的核心是依据梯度下降法,计算输出层误差并通过反向传播来不断调整输入层和隐含层,隐含层和输出层之间的权值和阈值,使网络的均方根误差收敛到最小。
  1.2 RNN模型原理
  递归神经网络(Recursive Neural Network)是具有树状阶层结构且网络节点按其连接顺序对输入信息进行递归的人工神经网络,已经广泛地应用于语音识别和手写字体识别等领域。RNN模式的原理是将神经元的输出再传回神经元的输入,这样循环的设计使神经网络具备保存信息的能力,以时间点展开RNN网络结构如图2所示。
  图2共有三个时间点,在t时间点处,X是t时间点的输入;0.是t时间点的输出;(U,V,W)都是神经网络的参数,W参数是t—1时间点的输出,但是作為t时间点的输入。St是隐藏状态,代表着神经网络的“记忆”,是经过当前时间点的输入Xt,再加上前一个时间点的状态St-1,和U、W的参数共同评估的结果,其公式为:其中,函数是非线性函数。
  RNN的关键点之一就是隐含层每个时刻的输出都依赖于以往时刻的信息,但当时间间隔不断增大时,RNN在训练时会存在长期依赖的问题,这是由于RNN模型在训练时会遇到梯度消失或爆炸的问题,从而导致RNN难以保存较长时间的记忆[6]。
  1.3 LSTM模型原理
  长短期记忆(Long Short Term Memory,LSTM)是一种时间递归神经网络,已广泛地应用在语音识别、图像识别、数据分析等领域。LSTM是由深度学习专家Hochreiter
其他文献
摘要:社区戒毒康复治疗加强了对戒毒康复人员的监督和管理,对降低复吸率有积极的作用,但现今社区戒毒康复治疗模式是由人工管制,工作效率低,信息传递慢,信息时效性差,不利于社区戒毒康复治疗的健康、快速、规模化发展。因此建立一個以社区为纽带的系统化戒毒康复平台,将政府、公安、街道、社区机构、社工、吸毒人员都纳入系统当中,各方共享戒毒康复信息,保持即时沟通联系,实现资源整合运用,使各项工作无缝衔接。通过戒毒
摘要:评述了《计算机导论》课程在计算机科学与技术专业的重要性,提出从导思想、导知识、导方式、导能力、导就业五个方面来探讨民办高校计算机专业《计算机导论》课程的教学内容及教学方法,为后续课程打好基础。导思想主要是针对大一新生从专业学习兴趣方面来进行;导知识主要介绍这门课程所包含的主要内容;导方式就是对学生学习方式的引导;导能力主要引导学生各方面能力的发展;导就业主要是通过这门课让学生了解将来就业的方
摘要:捆绑销售是商家惯用的销售策略,在电子商务领域,可以根据每个用户个性化数据,可以进行个性化的捆绑方案。该文设计并实现了一个基于用户和商品两方面的个性化捆绑销售系统,并通过对用户购买力分类,计算顾客对推荐出的商品的购买欲望,从而得出优惠的捆绑价格。经过实验验证,该系统提高了商品销售量并获得了更多利润。  关键词:个性化;捆绑销售;电子商务  中图分类号:TP311 文献标识码:A  文章编号:1
本文首先分析高职计算物联网专业机网络技术教学的现状,再以Packet Tracer 7为学习背景,搭建了一个网络拓扑图,并对其进行任务分析和配置。借助虚拟仿真的高级功能设计项目的评价工具,从而大大地提高了课堂教学效果。
摘要:翻转课堂教学法是在信息技术的支持下让学生在课外学习基础知识,课堂中教师在以学生为中心的教学活动中引导学生达到高阶思维的认知过程。随着FPGA应用领域不断扩大彳艮多院校都在加强FPGA课程的建设。这门课程要求学生在FPGA器件上进行应用和开发,既需要理论基础,又需要实践能力。本文分析了翻转课堂的目标以及理想的话语环境,叙述了作者在FPGA课堂上的教学实践。说明翻转课堂的话语使用方式会影响学习效
摘要:服务型数字化校园是目前高职院校数字化校园建设的主流趋势并取得了丰富的建设成果。设计科学合理、便于实施的评价指标体系是对服务型高职院校数字化校园建设质量进行评价的前提。文章从评价指标体系构建的步骤入手,详细阐述了指标体系构建的过程,并对高职院校数字化校园建设质量评价的实施提出了建议。  关键词:服务;数字化校园;质量评价;指标体系  中图分类号:TP393 文献标识码:A  文章编号:1009
创新创业能力是高素质高层次人才的重要特征,实践创新能力培养是高等院校研究生教育的核心,也是研究生教育的灵魂和标准。文中详细阐述了研究生培养的发展历程与研究意义,介
摘要:近几年,国家机构数据库被入侵,大型网站被黑客攻击的案例时有发生,这给企事业单位网络数据信息安全和财产带来巨大的威胁,造成巨大的损失。因此,要采取科学的手段提高计算机网络安全水平,运用先进技术实现网络安全保障体系的构建。虚拟技术应用于计算机网络中,可以促进计算机网络安全工作的顺利开展。计算机网络安全关系到企事业单位的重要机密,关系到社会的正常运转,探讨虚拟技术在计算机网络安全中应用的实际作用。
摘要:结合教学实践,归纳和整理了软件测试课程中与判定表法相关的典型教学案例。这些教学案例能够很好地适用于判定表法的教学工作,有助于深入浅出地向学生展示判定表法的使用方法。此外,提出在教学中应当充分利用被测程序输入条件之间存在的约束关系,简化初始判定表的构造。  关键词:软件测试;黑盒测试;功能测试;判定表  中图分类号:G642 文献标识码:A  文章编号:1009-3044(2019)31-01
在我们身边安全事故,时有发生,很多人因为安全意识淡薄,出现了这种或者那种的意外,给自己或者其他人带来伤害的同时给家庭和社会带来不可扭转的危害,这样的事情在我们身边屡