论文部分内容阅读
电影一直是广大人民群众喜闻乐见的娱乐方式,是社会主义文化市场的重要组成部分,随着近些年国家对电影市场的大力支持和各界资本的涌入,中国的电影市场这些年的发展可谓日新月异。无论是从观影人数,电影上映数量,影院数量或是银幕数量的角度来看,我国的电影市场都正经历着高速增长。同时,中国电影行业正处在从关注数量到关注质量的转型期,在这种背景下,电影行业要想取得长足进步,很重要的一点就是要充分了解观众的需求,这就需要我们多种渠道搜集观众对电影的评价及反馈的相关数据,经过对这些数据的处理和分析,以期更好地了解观众的需求和情感表达,从而制作出更受欢迎的电影佳作。随着互联网+技术发展,出现了大量的有影响力的电影资讯相关网站,如时光网、豆瓣网和中国票房网等。在这些网站上积累了有关电影的大量的基础数据和评论数据,为我们对电影行业进行分析提供了基本的数据来源。本文通过从互联网相关网站采集部分电影评论数据,开展了对数据的聚类分析与可视化方法研究。本文首先使用网络爬虫技术从“时光网”网站抓取了自2011-2016年期间在中国内地上映的3000多部电影中的年票房TOP25的电影共计150部的基本信息和3万多条电影长篇评论(以下简称长影评)数据组成的文本数据集。然后根据该数据集,先使用自然语言处理方法对所有获得的长影评文本进行分词及转换成词向量操作,并提取可以表征“剧情”、“画面”、“音效”、“影人”等四个电影关键要素的关键词,创建了影评关键词表,并通过对上述文本数据集使用TF-IDF(Term Frequency-Inverse Document Frequency)方法,完善了影评关键词表;使用k-means聚类算法,对长影评数据集中的星级评分数据按5个星级维度进行聚类,并对聚类结果进行相关性分析,分别找出每个聚类类别中5个星级评分维度与电影总评分相关性最强的维度,对比和不同聚类类别之间的差异。在对150部电影的全部共计38000多条长影评文本数据进行线性回归之后,细致研究了导致离群点产生的电影关键要素。而后运用主成分分析法,对电影长影评的该要素进行了细分维度分析,找出了其中最重要的细分维度,获得评论者对该部电影的关注倾向。最后,提出了一种长影评情感分析的方法,并设计了一个基于桑基图和平行坐标结合的可视化方案。通过对获取的电影长影评数据的分析和可视化,能够让我们更加充分的了解观众体验和感受,对电影行业发展进步提供了一定的支持。