论文部分内容阅读
随着在线视频行业用户规模的不断增长,海量的在线视频用户产生了海量的评论。弹幕是一种近年来较为流行的在线视频评论方式,因其内容连续容易产生对话感,且活跃气氛能力强,受到了各大在线视频网站的推崇。弹幕中往往包含有大量个人观点,相比视频下方的传统评论能更准确、具体地反映用户在观看视频时的即时情感。本文旨在爬取视频弹幕,利用情感分析技术分析弹幕情感极性,并将分析结果应用于个性化视频推荐和在线视频舆情分析领域。本文首先基于Python2.7以网络爬虫的方式爬取了2018年腾讯视频网站热播选秀综艺节目《创造101》的弹幕作为语料库。随机选取其中的20000条弹幕进行预处理操作,按照9:1的比例构建训练集和测试集。然后,结合弹幕语言精简和碎片化的特点,本文提出了一种基于TF-IDF(Term Frequency–Inverse Document Frequency)与SVM(Support Vector Machine)的弹幕情感极性分析模型。利用TF-IDF算法提取弹幕文本的特征词,将训练集和测试集中的非结构化文本转化为结构化的TF-IDF值,并映射为向量以VSM(Vector Space Model)的形式表示;运用SVM算法对数据进行情感极性分析,通过调整各项参数,以优化模型的性能、提高模型准确度。为了验证模型的有效性,本文从准确度、精确率、召回率和宏观F1测度四个方面对比分析了基于词典和基于朴素贝叶斯的情感极性分析方法。最后,本文将弹幕情感极性分析模型应用于个性化视频推荐和在线视频舆情分析方面。在个性化视频推荐方面,文本采用基于内容推荐的算法思路,提出基于弹幕情感极性的个性化视频推荐方法。分析用户发送的弹幕,了解用户的关注点以及关注程度;分析视频总体弹幕,获得视频内容特征的语料库。通过匹配视频特征和用户关注点,计算视频的推荐指数,并结合弹幕实时性的特点,以60秒为一个时间单位,将视频推荐精确到准确的时间节点,让用户能够快速、有效的观看自己喜欢的视频,从而帮助网站提高访问量和用户粘度。在在线视频舆情分析方面,本文以选秀综艺视频为例,收集演员表演时间点的弹幕,利用弹幕情感极性分析模型计算表演得分,获得演员的人气和热度,从而为在线视频平台后期制作节目、传媒公司签约艺人、广告商选定角色等商业决策提供数据支持。