基于弹幕文本挖掘的情感极性分析研究

来源 :武汉理工大学 | 被引量 : 4次 | 上传用户:civili
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着在线视频行业用户规模的不断增长,海量的在线视频用户产生了海量的评论。弹幕是一种近年来较为流行的在线视频评论方式,因其内容连续容易产生对话感,且活跃气氛能力强,受到了各大在线视频网站的推崇。弹幕中往往包含有大量个人观点,相比视频下方的传统评论能更准确、具体地反映用户在观看视频时的即时情感。本文旨在爬取视频弹幕,利用情感分析技术分析弹幕情感极性,并将分析结果应用于个性化视频推荐和在线视频舆情分析领域。本文首先基于Python2.7以网络爬虫的方式爬取了2018年腾讯视频网站热播选秀综艺节目《创造101》的弹幕作为语料库。随机选取其中的20000条弹幕进行预处理操作,按照9:1的比例构建训练集和测试集。然后,结合弹幕语言精简和碎片化的特点,本文提出了一种基于TF-IDF(Term Frequency–Inverse Document Frequency)与SVM(Support Vector Machine)的弹幕情感极性分析模型。利用TF-IDF算法提取弹幕文本的特征词,将训练集和测试集中的非结构化文本转化为结构化的TF-IDF值,并映射为向量以VSM(Vector Space Model)的形式表示;运用SVM算法对数据进行情感极性分析,通过调整各项参数,以优化模型的性能、提高模型准确度。为了验证模型的有效性,本文从准确度、精确率、召回率和宏观F1测度四个方面对比分析了基于词典和基于朴素贝叶斯的情感极性分析方法。最后,本文将弹幕情感极性分析模型应用于个性化视频推荐和在线视频舆情分析方面。在个性化视频推荐方面,文本采用基于内容推荐的算法思路,提出基于弹幕情感极性的个性化视频推荐方法。分析用户发送的弹幕,了解用户的关注点以及关注程度;分析视频总体弹幕,获得视频内容特征的语料库。通过匹配视频特征和用户关注点,计算视频的推荐指数,并结合弹幕实时性的特点,以60秒为一个时间单位,将视频推荐精确到准确的时间节点,让用户能够快速、有效的观看自己喜欢的视频,从而帮助网站提高访问量和用户粘度。在在线视频舆情分析方面,本文以选秀综艺视频为例,收集演员表演时间点的弹幕,利用弹幕情感极性分析模型计算表演得分,获得演员的人气和热度,从而为在线视频平台后期制作节目、传媒公司签约艺人、广告商选定角色等商业决策提供数据支持。
其他文献
“以顾客为关注焦点”是ISO9001质量管理体系所包含的八项质量管理原则之一,也是进行各项生产活动时应遵循的基本准则。产品设计应以顾客需求为出发点,以提高人们的生活和工作
布朗李原产美国.优质、高产.为了加速苗木繁育,我们经过5年的实践,达到了当年播种,当年嫁接,当年出圃.苗高可达1米以上,根系发达,苗木粗壮.1、苗圃地的选择选择交通方便,排灌
电磁兼容(EMC)技术在电子电气产品设计研发中起着重要作用,它有助于改进产品质量,提高企业品牌和产品知名度,使中国产品成功打入国际市场,本文对电子电气产品中骚扰的产生机理,骚扰
本实用新型涉及一种能够固定电动自行车电池盒的车尾架,包括安装板、连接架和支撑板。所述连接架主要由第一连接板、第二连接板以及连接所述第一连接板和所述第二连接板的支
在跟踪控制系统中,控制精度取决于控制信号的产生,控制信号是否受到数据采集的影响,基于绝对编码器的数据采集系统,利用绝对编码器的特点,可以方便灵活地控制数据信号的产生和传输
从混合塑料中回收高纯度聚丙烯;从野生蘑菇中提取化学物质制成环保橡胶;旨在推进甲烷回收利用的组织近日成立。
<正> 1.测量烟气酸露点的意义及现状 煤、石油等燃料中都含有一定量的硫,在燃烧过程中硫与氧结合生成二氧化硫和微量的三氧化硫。这些微量的三氧化硫使烟气露点温度大大升高,
在美国的侵权法上,因产品自身存在的缺陷而发生的产品本身价值的减损、修理更换发生的费用,以及因产品不能使用而发生的利润损失等被视为是一种纯粹经济损失。针对该类损失,
"安哥诺李"原引种代号为"布朗3号",原产美国,亲本不详。平均单果重120g,最大250g。果实圆形,果有香气;肉质极硬,果柄短,汁少,贮存15—20天后果肉转为红色,果汁多,含可溶性固