论文部分内容阅读
互联网技术给人们带来了便捷的交互信息的方式,随着技术的发展,视频弹幕作为一种新兴的文本交流方式,逐渐被广大网友接受和使用。弹幕是指直接显现在视频上的文本信息,它能够以滚动、停留以及更多特殊效果的方式展现在视频上,是视频观看者发送的简短评论。随着视频弹幕应用的日益广泛,对其中蕴含消费意图文本进行挖掘的需求也与日俱增。由于视频弹幕具有文本长度极短、语义缺失严重等特点,导致已有的消费意图挖掘方法在视频弹幕领域无法获得较好的效果。本论文结合视频弹幕的文本特征,研究更适合应用于视频弹幕环境的消费意图挖掘方法,具体而言主要完成了以下研究工作:1.视频弹幕数据的获取与分析。视频弹幕作为视频媒体中的主要文本存在形式,前人研究鲜有涉及。针对该领域的研究现状,本文首先对弹幕视频文本进行采集,其中主要运用两种方式,即调用视频网站官方API的方式和模拟登陆网页的方式。然后对获取到的数据进行分析,总结视频弹幕领域文本特征,并将这些数据特征应用于后续研究中。2.视频弹幕消费意图的识别。视频弹幕文本简洁,经常会有部分结构省略,导致已有的基于文本内容的消费意图识别方法难以达到理想的效果,因此本文提出了一种基于模板特征的消费意图识别方法。该方法首先使用基于Prefix Span算法的模板提取方法自动生成消费意图模板,其次通过文本匹配的方法借助上步生成的消费意图模板将弹幕文本转化为模板特征向量,再次将上步中转化而来的模板向量作为输入训练消费意图识别模型,最后使用该模型对视频弹幕的消费意图进行识别。实验证明,该方法相较于传统的文本特征分类模型,能够有效提升视频弹幕中消费意图识别的速度和准确性。3.视频弹幕消费意图对象的识别。对于确定具有消费意图的弹幕,本文提出了一种结合TF-IDF(Term Frequency–Inverse Document Frequency)、句法关系特征与文本交互信息的消费意图对象识别方法TF-SI-IDF(Term Frequency–Syntactic Relations&Interactive Information-Inverse Document Frequency),对视频弹幕中的消费意图对象进行抽取。在显式消费意图对象的抽取中,相比于原有的消费意图对象抽取方法,本文的抽取方法融合了句法特征及弹幕数据的交互信息,能够获得更好的抽取效果;在隐式消费意图对象的抽取中,本文首先利用弹幕文本的交互信息对存在隐式消费意图的文本进行补充,之后使用本文提出的消费意图对象抽取算法对补充词进行抽取。实验证明该方式能够很好地完成消费意图对象抽取,为隐式消费意图对象的抽取工作提供了一种新的思路。