论文部分内容阅读
随着互联网的不断发展和推进,网络信息技术的快速发展为电影、电视剧、综艺节目等视频内容创作开启了一个崭新时代。网络在线视频已经在人们观看视频过程中占据了重要地位,成为大众视频消费的主流。“弹幕”因其高互动性和娱乐性开始进入人们的视野,弹幕是指用户在视频网站上观看视频时,可以直接将评论发送并显示在屏幕上方的一种显示方式。在国内最早使用弹幕技术的是动漫圈内的视频吐槽网站Acfun(A站)和bilibili(B站),随着弹幕的发展,弹幕也不再仅仅使用在弹幕视频网站中,如今,国内弹幕应用虽然火爆,但是国内弹幕文化和技术的整体发展时间较短,当前针对弹幕的研究还相对匮乏,对弹幕的有效管理与研究还较少。本文以提高用户的弹幕使用体验为目的,探讨对弹幕文本的识别与处理,提出一种新的基于内容和用户身份标识的混合型垃圾弹幕识别算法,对已有算法进行改进,以更好的引导我国弹幕文化的积极发展,改善用户在使用与观看弹幕时的用户体验,提高网站的用户使用度和黏性,绿化弹幕使用环境。本文针对弹幕文本特征进行分析,对比以往垃圾文本识别研究中较多涉及的邮件以及短信等文本类型,总结出弹幕文本的自身特征,结合其自身特性以进一步加深垃圾弹幕识别的研究。结合弹幕文本自身特点,本文以基于内容的文本分类算法和基于用户身份标识的分类算法为基础展开研究,在已有研究基础上提出一种新的基于以上两种文本分类算法相结合的混合型垃圾弹幕识别算法,并据此进行垃圾弹幕识别与过滤。本文利用从土豆网热播电视剧《琅琊榜》中爬取的弹幕数据作为数据来源进行试验分析,以验证本文提出算法模型的表现效果。通过实验研究可以看出,本文提出改进算法能够有效提高垃圾弹幕识别的准确性。