IMDb电影影评之单类神经网络与改良型CNN模型准确率差异性研究

来源 :电影评介 | 被引量 : 0次 | 上传用户:pf2858888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  文字探勘(Text Mining)是自然语言处理(Natural Language Progressing,简称NLP)领域的研究重点,也是AI人工智能与语言学的学习分支。伴随着网络时代的来临,越来越多的人在网络上发表自己的观影意见,有许多学者运用文字探勘方法,搜集网络上的影评数据,进行文本情感分析。
  配合网络与社交平台的快速发展,电影的评分网站也成为在线参考电影信息和表达影评意见的重要平台,电影评分网站中,又以IMDb(Internet Movie Database)在全球最具代表性与影响力。IMDb成立于1990年,囊括了全球几乎所有电影及演员、导演、剧情、影评等讯息,共计约四百多万条作品数据。
  文本情感分析的方法众多,主要途径可分为两种[1],一种是“词汇法”[2][3],另一种是“机器学习法”(machine learning method)[4],“词汇法”从语言学的角度出发,以专家分类的情绪词为基础,分析文本情感倾向[5];“机器学习法”则将大量人为判断的训练数据,进行特征选取与模型的建立,利用机器自动判断数据意见倾向。在多年的发展下,两类研究方法不断地互相影响,累积了诸多的资源、模型与数据库。
  配合深度学习技术的演变,学术界也开始使用神经网络的概念进行文本分析,并大量运用在电影影评分析领域。本研究以IMDb的影评评论为文本对象,提出一种改良型卷积神经网络(Convolutional Neural Network,CNN)的模型架构,比较不同神经网络架构、层数以及参数是否会影响到模型的准确率。
  一、相关研究
  (一)应用WEKA于电影评论之机器学习演算
  2014年学者藉由数据探勘工具WEKA进行数据探勘,进行电影评论分类准确性实验[6],考虑算法及各自参数均会大幅影响最后成效,各个不同算法与参数的组合数量让人难以选择,WEKA工具利用贝氏优化(Bayesian optimization)的创新做法,为一种完全自动化的方案,实验结果发现,其模型准确率约为80%,如图1所示。
  (二)类神经网络原理
  类神经网络(Artificial Neural Network, ANN)为基于脑以及神经网络基础而发展的信息处理技术,为人工智能的延伸应用。类神经网络因为具有推理、记忆、容错等特性,也可以说是一种特殊技术的统计应用,它不需要关于数据的分布假设,具有建构复杂非线性与连续函数映对问题能力等特色[7],能处理许多过去统计方法无法处理的非规则性问题,不局限在影像、文字、语音等领域,在商业领域也有很大的作用。[8]
  类神经网络是模仿人类神经元结构之概念,其神经元反应的基本逻辑,包含输入层(a1~ai)、权重(w1~wi),输入乘上权重之后加总(∑w*a),便可得到神经元的刺激强度,接着经过函数(f)转换以及调节刺激强度的阀值(b),即可得到输出的神经元刺激强度,数学公式如图2。研究者基于神经元操作模式,发展出单层神经网络,模型概念如图3。[9]
  多层模型中如图4,隐藏层的神经元个数和层数可以由研究者自行决定,一般而言,当隐藏层及神经元越多,处理非线性的问题能力越强。[10]
  (三)类神经网络在电影预测之应用
  过去类神经网络模型在电影产业的应用很多,Ramesh and Dursun[11]曾运用统计方法与类神经网络,创建电影票房预测的模型并进行比较,发现类神经网络的模型较佳;郑坚等人[12]提出一种基于回馈神经网络的电影票房预测模型。发现针对神经网络波动性的特点,对预测模型的输出结果进行改进之后,输出结果既能更可靠地反映电影在上映期间的票房收入,又能指出电影票房的波动范围;陈增艳[13]为了缓解卷积神经网络在计算和网络训练过程中出现的“过拟合”现象,寻找合适的Dropout值降低过拟合问题,在一定程度上参照了协同过滤算法中的相似度计算,发现研究评分预测的准确度被大大提高;王锭等人[14]提出一种基于卷积神经网络的电影评论情感分类模型,将卷积神经网络与词向量相结合,并与SVM等传统机器学习方法进行对比实验。实验结果表明,基于卷积神经网络的文本情感分析模型有较高的准确率。
  综观以上研究方法,目前相关研究中,多数基于神经网络模型结构进行微调改进后,进而以改良模型预测电影票房及评论;本研究将借由建构改良型CNN模型,建构IMDb影评分析系统,和以往研究不同的是,本研究考虑模型结构全连接层层数以及神经元多寡对准确性的影响,经由各种神经网络组合实验,找到准确性优化研究,提升模型应用之效益。
  二、研究设计
  (一)卷积神经网络之模型概念
  卷积神经网络(Convolutional Neural Networks,CNN)为神经网络的分支之一,核心为沿用了多层感知器(Multilayer Perceptron,MLP)的结构,由输入层(Input)、卷积层(Convolutional Layer)、池化层(pooling)、全连接层(Fully-connected Layer)组成。由Kim[15]提出的CNN短文本分類模型结构如图5所示。
  本研究将建立TensorFlow的训练环境,使用Keras作为架设模块的基础,以Keras建立神经网络进行深度学习训练。
  (二)研究数据与步骤
  本研究采用IMDb电影评论情感分类数据库中共25000份电影评论作为分析数据[16],本研究实验分为两个部分,第一部分为多层模型实验,第二部分为神经元数实验。其中多层模型实验主要目的为比较全连阶层数对单一类神经网络与改良型神经网络准确性差异分析,而神经元数实验目的为了解模型参数的改变对准确度的影响,针对模型参数,如卷积层、滤波器、卷积核大小等,了解不同模型参数设定对准确度的影响。研究步骤如图6所示。   (三)研究参数
  研究参数直接影响最后的模型结果,表1表2列出本研究单类神经网络模型与改良型CNN模型中,欲研究之参数与对应的参数值。
  三、研究结果
  为了了解本研究提出之单类神经网络与CNN改良型模型的准确率与模型性能,分别将进行两模型之对比实验。
  本研究首先针对多层模型实验的准确率进行比较,两模型准确率变化如图7所示。改良型CNN模型中,整体模型稳定性较单类神经网络模型高,而卷积层数的改变则对模型准确率的改变不明显。
  另外针对神经元实验的两类模型准确率,不同神经元数对模型准确率变化比较如图8。改良型CNN模型中,滤波器数的改变对准确率有明显变化,而改良型CNN模型中,其卷积核大小的改变则对准确率的改变不明显。
  结语
  本研究以IMDb电影评论为数据,基于过去WEKA对电影评论算法的模型准确度评估,提出以类神经网络为基础的单类神经网络与改良型CNN模型,由此实验了解如何改变关键参数,找到可信赖模型的准确度区间,避免未来研究者在选择参数时造成过高或过低的准确率。研究发现,单类神经网络在参数较少时,其模型准确率较高,而改良型CNN模型层与层之间为局部连接的特性,模型可承受较多的参数设定,如多神经元数与多层数,其模型稳定性及准确性均较高,且基于文字探勘的特性,可发现CNN之滤波器并不需要过多的滤波器数,即可达到不错的准确率。
  自然语言学习中的文字情感分析的研究仍存在许多问题,需进一步讨论,但本研究发现,文字情感分析可用不同的类神经网络模型进行评估,可提高可信赖度的准确率,后续将再透过不同的类神经网络模型进行模型架构之适用性比较。
  参考文献:
  [1]Serrano-Guerrero,J.,Olivas,J.A.,Romero,F.P.,
其他文献
[摘 要] 近年来,我国经济由高速发展逐步转为高质量发展,产业升级转型迫在眉睫,高校也在不断扩招,毕业生数量快速增加,又受到公共卫生事件等多种因素叠加的影响,就业形势严峻,毕业生就业方向较多转向公务员、教师等稳定性相对更高的职业。高职院校师范生就业难度进一步加大,大学生创新创业可能成为严峻的就业形势下的可行之路,但是对于初出茅庐的大学生来说,在激烈的商业竞争中脱颖而出是不容易的,主要在对高
力学作为一门历史悠久而又充满青春活力的课程,在实施课程思政方面有着得天独厚的优势,充分挖掘思政素材,依据学科特点有效实施课程思政势在必行.结合力学课程特点,对其课程
[摘 要] Linux操作系统具有丰富的思政资源,在电子信息、计算机等信息类专业中拥有广泛的授课对象,Linux课程思政研究有利于理工类高校进行课程思政教育。以Linux操作系统为课程载体,积极开发课程中的思政元素,优化教学设计,研究并探索信息类专业课程思政教育,在课程中潜移默化引导学生践行社会主义核心价值观,为社会主义事业培养合格的建设者和可靠的接班人。  [关 键 词] 课程思政;L
国产动画电影《罗小黑战记》2019年9月在国内上映时,获得了较高的口碑和3亿元的票房收入,国内几家电影评分网站都给出了8-9的高分.作品于2020年10月在日本上映后,原声版和配
期刊
自20世纪80年代末起,伴随着社会政治、经济、文化领域的全面转型,中国影坛发生了令人瞩目的变化,一批风格独特的年轻导演另辟蹊径,独树一帜,学术界称其为“新生代”或曰“第六代”。新生代导演在影片中不断用自叙的方式表达长大成人的渴望、焦虑和想象,同时也怀着一种对真实还原的冲动,开始尝试将摄影机的镜头直接对准当前日常生活中的生命个体以及他们的内心世界。在这一群体个性鲜明、风格各异的电影实践中,贾樟柯电影以其特立独行的美学风格脱颖而出。
[摘 要] 教育改革的过程中,双高建设已经成为我国重要的发展战略,成为各大高校前进的方向。虽然现有高校教育模式培养了一批又一批高素质和高能力的社会人才,但是由于社会对人才的能力要求具有动态变化的特征,原有的教育模式培养的学生,已慢慢与社会需求不匹配,进而导致部分高校学生难以找到专业对口的岗位,难以将所学知识转化为生产力。从实际学习的角度出发,无法直接或间接作用于生产活动的知识,实用价值较低
[摘 要] 模拟电子技术课程是电子类专业的一门重要的专业必修课,其知识点复杂且抽象难懂,教师授课难度大。为了激发学生的学习兴趣,提高教学效果,分析了传统模拟电子技术教学模式中存在的问题及不足,并尝试将计算机虚拟仿真技术引入到课堂教学和实验教学环节中。通过探讨基于虚拟仿真的模拟电子技术教学模式设计架构,寻找改善教学方法的手段,并提出了具体的实施路径。虚拟仿真技术能够将理论授课与实验操作进行有
[摘 要] 民国时期四川大学是国立大学,华西协合大学是私立教会大学,也是当时四川省最具代表性的两所大学,民国时期四川大学和华西协合大学有诸多招生方面的差异:他们秉持不同的招生理念,实施不同的招生政策,开设各具特色的招生专业,采用适合自己的招生考试方式方法,建立符合自身需求的招生体系。  [关 键 词] 民国;招生;比较  [中图分类号] G647 [文献标志码] A
电影《赵氏孤儿》是2010年陈凯歌导演执导的一部历史题材的影视作品。赵氏孤儿故事肇源于《春秋》《左传》,《史记·赵世家》将其丰富化,勾勒出搜孤救孤的故事雏形[1]。元代纪君祥《赵氏孤儿大报仇》将故事戏剧化,荣列元杂剧四大悲剧之一。十八世纪中叶法国文学家伏尔泰将《赵氏孤儿》改编为《中国孤儿》而登上了欧洲舞台,赵氏孤儿故事遂成为一种国际现象。  电影版《赵氏孤儿》源于改编的历史史实、戏剧及传说,然而进
[摘 要] 随着我国高等教育课程教学改革的不断探索和深入,多样化的信息化教学手段更是进入课堂,让线上线下混合教学由试金石发展为风向舵,使得线上线下混合教学成为一种趋势。以数控机床PMC控制与调试课程为例,围绕学情与课程特点、教学设计、教学实施、课程考核等方面,以“导→析→练→施→检→优“的教学活动,形成课前—课中—课后等环节,阐述了具体的教学设计和实施过程,激发了学生学习的积极性,取得了良