基于词频词义的弹幕关键词提取与类别标注研究

来源 :北京信息科技大学 | 被引量 : 0次 | 上传用户:hardy_0205
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,网络中的信息量呈指数级增长。以B站为代表的视频平台作为一种新的传播媒介,在信息获取、发布和传递的过程中占据了重要的位置。但是,视频平台为视频所提供的关键词及情感倾向标签往往存在描述范围过大、依赖发布者发布时的主观意愿、动态更新不及时等问题。因此,优化关键词及情感倾向标签不仅能使尚未观看视频的用户提前了解视频内容和情感倾向,而且有助于平台用户画像的构建及千人千面的个性化内容推荐。在视频媒体中,用户针对视频内容所实时发出的弹幕文本,涵盖了大量与视频内容相关的信息,可作为视频关键词的重要数据来源。同时,所发布的评论文本多为情绪的反馈,可作为情感类别标注的重要数据来源。因此,本文对视频平台数据进行挖掘,并对相关算法进行研究,形成了一套面向视频平台关键词提取与情感倾向类别标注的方法和理论。该研究主要包括四部分:(1)文本资源库构建与数据预处理提出基于Requests的多源轮巡式弹幕爬取方法,构建动态头文件池以提高爬虫的效率。由于弹幕资源为动态资源无法一次性获取,所以本文采用轮巡方法多次爬取弹幕信息得到视频完整的弹幕资源,并利用爬虫技术爬取视频封面、标题、评论等相关数据以丰富文本资源库。通过对弹幕文本进行分词研究,本文构建了弹幕停用词词典,并使用HanLP系统对文本数据进行清洗,提高有效数据的质量。同时,对文本资源库的结构进行设计,并将处理后的数据存入文本资源库。(2)弹幕关键词提取方法研究提出了一种基于词频词义相结合的关键词提取模型。首先,构建弹幕特征三元组,并提出融合图像增强模块与注意力机制的多阶段光学字符识别模型(Optical Character With Attention,OCA),丰富弹幕特征三元组内容。随后,考虑三元组数据特性及词频与篇章数对提取效果的影响,通过分段函数构建基于词频的TTF-ICDF算法。接着,引入语义维度信息并利用中文拼音作为编辑距离的计算单元,构建基于词义的DWText Rank算法。最后,提出基于词频词义的关键词融合算法,构建了词频词义相结合的关键词提取模型(TTF-ICDF-DWText Rank,TI-Rank)。实验结果表明,在视频封面的文字识别中,相较于传统的光学字符识别模型,所构建的OCA模型在平均F1值与平均计算时间上均有所提高。在关键词提取任务中,TI-Rank模型能更准确的提取弹幕文本关键词,并优化了关键词排列顺序。(3)弹幕及评论文本的情感倾向类别标注研究提出了一种基于多特征融合的类别标注模型。首先,对分类任务的处理流程进行分析,研究了基于双向LSTM的文本语义分类模型。随后,提出基于注意力机制的多语义融合架构以优化语义特征提取能力。接着,为提取词频维度特征,利用投票机制构建基于动态扩充算法的情感词典。最后提出基于词频词义的类别标注融合算法,构建了多特征融合的类别标注模型(Attention Concolution Transformer with Dynamic emotion dictionary,AD-Marked)。实验表明,相较于Bert及其它主流文本分类模型,AD-Marked在保证模型准确率的同时,极大的优化了任务处理效率。(4)考虑字词排列顺序的模型评价方法研究提出了一套检测字词排列顺序的三级梯度评价标准。为了更合理的评价关键词提取的准确性,本文按照关键词重要程度降序排列的特点,开展了模型评价方法研究,采用控制变量的方法并结合大量对比实验结果,形成了以词为单位的权重分配指标,提出了三级梯度评价标准。实验部分,利用传统F1评价标准与三级梯度评价标准,验证了TI-Rank模型性能的优越性。最后,基于Flask、Pytorch及Lay-UI框架实现了一个标签生成与情感倾向分类试验系统。该系统主要由数据采集与预处理、视频关键词标签生成、用户情感倾向类别标注三个模块构成,能够以可视化的形式对上述模块所涉及的相关模型与算法进行实验与验证。
其他文献
近年来,随着计算机视觉技术的快速发展,以深度学习为代表的模型驱动类方法在素描人脸合成领域发挥了巨大作用,但也存在一些不可忽视的问题。传统素描人脸合成方法生成的人脸轮廓清晰度不足,纹理粗糙,轮廓内的面部特征细节有所缺失。同时,图像中存在着明显的粗糙像素点,素描风格缺乏真实感。为了解决上述问题,本文提出了特征级联模块,并在此基础上作了针对性改进,主要贡献概括如下:1、提出了一种基于特征滤波的生成对抗网
学位
车联网作为第五代移动通信技术(5th-Generation Communication Technology,5G)的重要应用之一,其应用服务有着多样化的服务质量(Quality of Service,Qo S)需求。随着联网车辆的增加,车联网中频谱资源愈发稀缺,采用正交多址接入方式,难以有效利用频谱资源。5G车联网引入了非正交多址接入(Non-orthogonal Multiple Access
学位
核心素养的培养是目前高中化学教学的核心任务。以核心素养为导向,从高中化学实验教学现状入手,引入项目化实验教学,并在此基础上提出“立足素养,明确目标”“依据目标,构建路线”“取材生活,巧设情境”“任务驱动,合作探究”“分享体验,认知深化”“尊重地位,多元评价”等教学策略,为培养学生化学学科及科学领域的核心素养提供了方法支持。
期刊
MIMO体制毫米波雷达凭借高距离分辨率、无速度盲点、覆盖区域广、全天候工作等优势越来越广泛地被应用在智能安防领域中。在以雷达为中心的安防系统中,邻近多目标跟踪问题解决的关键在于雷达检测数据处理算法。本文主要研究了雷达检测数据处理算法中的数据关联算法,通过对经典数据关联算法进行改进,提升了邻近多目标的跟踪准确率,并设计了一个基本的MIMO雷达多目标跟踪软件,本文具体的工作总结如下:(1)针对多目标跟
学位
高中化学知识相对抽象,学生理解的难度较大。教师需要在教学观念和模式等方面加强创新,灵活利用高中化学实验探究式教学模式去构建高效的高中化学教学课堂,让学生在开放性的氛围中,学习到更多更全与更加实用的知识技能,满足素质教育和新课改的要求。本文主要对高中化学实验探究式教学模式的构建意义和对策进行阐述,希望对高中化学实验教学效果改革起到积极参照作用。
期刊
近年来,知识产权、技术创新成为国家、企业竞争的重要因素。越来越多的国家意识到掌握技术核心就能在科技竞争中立于不败之地。随着世界范围内对专利知识产权重视程度的逐步提升,中国的专利申请量也呈现迅速增长趋势,稳居世界第一[1]。然而,中国专利现阶段存在量多而质不精的问题,与此同时,目前我国的专利质量主要依靠领域内专家进行人工评估,为了避免大量人力物力的耗费,课题结合时下最先进的深度学习及自然语言处理技术
学位
专利是世界上最大的技术信息源,包含了世界百分之九十以上的科技信息;作为知识产权的核心要素,集中体现了科学技术的发展水平,专利不仅是企业乃至各国争相掌握的重要资源,更是能促进人类科技成果普及、推动科技创新的重要动力。基于专利进行分析,可以了解领域发展现状,及时把握技术发展热点和趋势,以便更好的发现技术机会和进行战略布局,从而有效的提高企业的竞争能力。但是,专利撰写工作量巨大,除了要描述清楚技术信息外
学位
传统的化学实验往往伴随着大量的试错成本,机器学习和量子化学摩擦出的火花正试图改善这一状况。在人工智能火热发展的当下,充分理解并表示分子特征,对于抽象化学问题具有重大意义。本文以分子基团描述子为研究对象,使用无监督学习算法挖掘团簇信息,建立多种分子基团描述子并测试多场景应用效果。本文的主要研究工作如下:(1)针对分子基团描述子的基底构造,本文对无监督学习算法进行了深入研究,并提出了基于划分(K-me
学位
文化产品是意识形态的载体,代表着国家和民族的精神风貌和创造力,能够展现出国家科技水平和文化发展水平。目前,我国的文化产品无论从品类上还是质量上都已经进入了高速发展阶段,需要设计主体设计出高质量且能够满足人们精神需求的文化产品。值此背景下,解决文化产品设计效率评价研究的问题,能够为文化产品的设计和生产提供科学客观的决策依据,为文化的创造性转化和价值展现提供更多的可能性,并且推动我国文化产业经济的快速
学位
多接入边缘计算(Multi-access Edge Computing,MEC)作为5G网络的关键技术之一,可为移动用户近距离提供数据缓存和业务计算服务。一方面,有效减少了数据传输量,能更好地匹配用户需求,降低访问时延;另一方面,依托5G网络优势,能够广泛采集智能终端数据,实现计算任务的快速反馈。应用MEC技术解决5G网络中的资源分配问题,可以有效缓解网络链路的带宽压力,提高能量效率,保障用户的服
学位