多源短文本语义分析与立场检测方法设计与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:roath
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网社交论坛中在线内容的激增,立场检测作为情感分析的一个重要子问题,得到了越来越多的关注与应用。与此同时,针对立场检测的研究也面临了较多挑战,比如静态词嵌入技术对文本上下文语义理解不充分和模型速率较慢等问题。现有的立场检测模型往往只针对单一语言或单一来源的数据集展开研究,也很少有研究者考虑模型的训练及预测速率。为解决上述问题,本文提出了基于DBMPT的立场检测模型,实现了具有立场检测功能模块的论坛舆情分析系统。本文具体完成的工作如下:1.针对领域预训练任务与立场检测监督任务,分别构建出包含微博、推特和ENVY论坛三个不同来源的语料库,以验证DBMPT模型的多源支持性。其中,微博与推特的语料来源于立场检测公开数据集;ENVY论坛的语料来源于本文自建的ENVY论坛立场检测数据集,该数据集由ENVY论坛中的原始话题评论,经数据获取、数据清洗、制定立场倾向标注规范和人工标签标注四个阶段得到。2.提出基于Distil BERT-Multilingual-Pre Trained-Text CNN(简称DBMPT)的多源短文本立场检测模型,该模型支持语种不同的多个论坛的评论短文本进行立场检测。其中,短文本是指论坛中的评论,相较于新闻长文本,评论短文本更加口语化。DBMPT模型采用对BERT模型进行知识蒸馏后的Distil BERT模型作为算法基础;然后对Distil BERT的多语言拓展模型Distil BERT-Multilingual进行基于MLM任务的评论短文本领域预训练,得到DBMP动态词向量表征模型,解决了以往的立场检测模型只支持单一语言和对评论短文本领域语义理解能力不足的问题;其次,基于DBMP词表征模型添加Text CNN网络,提高了模型对词向量的特征抽取能力,一定程度上缩小了由于模型压缩造成的Distil BERT与BERT在(62)与准确率之间的差距。最终,在微博、推特和ENVY论坛这三组不同来源的立场检测数据集上分别进行了对比实验,证明了DBMPT立场检测模型的准确性、高效性和多源支持性。3.设计并实现了一个论坛舆情分析系统,包括对论坛中话题与用户数据的分析整合,以及目标话题下评论短文本的立场检测功能。其中,立场检测功能为本系统的核心功能模块,该模块的算法基础为DBMPT模型,DBMPT的高效性也在系统测试中得到了体现。本系统的论坛画像和立场检测模块均已应用于实际项目中。
其他文献
光波的离散化传输,作为空间光调控的重要手段之一,主要通过弱波导的陷获和近临波导间倏逝波耦合的共同作用而实现。大量离散光学体系,诸如光栅和光子晶体等,由于在器件集成方面的卓越表现,被广泛用来实现离散光调控,在光通信、光互连、光子学器件和光子集成等方面极具研究价值和应用前景。实际情况下,考虑到体系的边界,对光学系统边缘态的研究一直是光传输调控的关键课题之一。以往的光学边缘态研究主要集中在理想的对称耦合
学位
太阳能蒸汽转化技术是一种收集太阳能用于蒸发水的绿色可持续技术,在工业化发展迅速的今天,全人类正面临着能源枯竭和水资源短缺的尴尬局面,太阳能蒸汽转化技术可在解决上述问题时发挥重要作用。其中,界面蒸汽转化技术是将太阳能限制在空气与水的界面处,只加热界面的一小部分水来产生蒸汽,从而大大提高了蒸汽转换的效率,进一步推广了太阳能蒸汽转换技术在实践中的应用。但是,目前大部分太阳能蒸发器的光热转化效率仍然比较低
学位
近年来,零知识证明技术逐渐成为诸多学者研究的热点。以太坊被称为区块链2.0,含有智能合约及良好的生态环境,可更好地实现钱包的业务交换。目前现有的数字钱包进行业务交换时,由于业务交换双方的地址和交换数额为公开的,存在账户隐私泄露问题,所以无法保障业务交换匿名性和安全性。此外,部分数字钱包为全节点钱包,用户需存储全部数据信息,存在占用空间较大,加载速度慢,交易时间长等问题。因此,有必要对区块链数字钱包
学位
超级电容器因其具备瞬时大电流充放电、循环寿命长等特点而获得了较为广泛的关注。除了提高超级电容器本身电化学性能外,器件的多功能化和智能化也成为了研究热点。在目前光能到电能转换存储系统的研究中,由于常规太阳能电池与超级电容器的连接系统过于复杂,增加了能量损耗以及成本,也不满足便携式、可穿戴器件的要求,因此需要制备具有光响应的能量转换存储一体化的器件。例如,具有光敏感性能的超级电容器。制备光电化学性能良
学位
光纤传感器具有体积小、质量轻、抗电磁干扰和制作成本低等优点,可以对许多参量实现无标记、高灵敏度、以及复杂环境下的测量。因此,光纤传感器在现代测量技术的发展中具有良好的潜力和应用价值。长周期光纤光栅(Long period fiber grating,LPFG)由于其特殊的模式耦合,穿透包层的倏消逝波对其表面介质周围折射率(Surrounding refractive index,SRI)、浓度、等
学位
目标的姿态估计一直是计算机视觉的重要课题。对于飞行器的空中姿态进行估计可以得到其姿态信息。该信息可以在对飞行器的下一步动向进行预测时提供一定的依据。目前主流的飞行器姿态估计算法大都基于手动特征提取或者深度学习技术,后者相关算法可以大幅度降低人力成本并且效果及鲁棒性都更加优异。但是目前算法普遍存在着速度过慢、预测误差较大以及移动平台适配不佳等问题。为了对这些问题加以改善,本文对现有算法进行优化从而实
学位
随着信息化移动技术的快速发展,短视频共享平台早已经成为互联网用户日常生活中不可或缺的一部分,人们逐渐热衷于使用短视频共享平台来记录和分享生活。目前,社会中主流的短视频共享平台利用分布式存储技术来存储用户上传的视频数据,借助集群冗余备份机制来保证数据服务的稳定性,但是冗余备份与存储占用空间这两者之间的矛盾仍然是一个亟需解决的技术问题。同时,随着短视频共享平台用户量的爆炸式增长,如何安全存取用户上传的
学位
拉曼光谱技术凭借独特的样品分子指纹信息,以及具有非入侵性、高化学特异性及受水干扰小等优点,使其在癌症诊断、生物学研究和材料等方面有很大的应用前景。但是由于拉曼光谱信息复杂,使其在样品信息解释方面存在挑战,因此需要有效的数据分析方法来解释复杂的光谱数据。随着人工智能技术的发展,越来越多的机器学习算法被应用在拉曼光谱数据处理中,如用于分类建模的有监督学习算法和可用于拉曼成像的聚类分析、谱分解算法以及多
学位
现有的图像检测模型都是对通用目标进行检测,针对复杂背景下的图像小目标检测还存在难以准确识别的问题,特别是远距离小目标聚集与轮廓边缘不清晰时,检测误差较大。小目标在图像中所占面积小、分辨率低,提取的特征很少,进而不容易被检测。合并多个尺度特征信息能够增强小目标的特征,目前针对特征多尺度处理方式通常是采用特征金字塔(Feature Pyramid Networks,FPN),但是在特征金字塔融合的过程
学位
近年来,能源紧张和化石能源产生的环境污染问题急需解决,寻求可再生清洁能源成为材料、能源等学科的重点研究方向。利用传统试错法和密度泛函理论计算的方式寻找光伏材料的错误率高,消耗资源大且耗时久。本工作结合机器学习预测与第一性原理计算,成功预测出高效且稳定的潜在二维钙钛矿材料(Ba2VON3和Sr2VON3),并对材料的能带结构、稳定性、光学吸收谱以及理论最大光电转换效率进行模拟计算,同时研究了碳离子注
学位