面向金融文本的无监督关系抽取技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:sangtian1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,金融行业与互联网的联系日益紧密,使得金融领域产生了海量的非结构化文本。关系抽取技术能有效提取金融文本中实体对的关系信息,是构建金融知识图谱的重要环节。有监督关系抽取方法依赖于大量人工标注的数据,而在金融领域由于标注问题缺乏相关数据集,因此研究无监督关系抽取方法对于构建金融知识图谱具有重要意义。而金融文本中存在句式结构复杂、领域词汇多、实体名称长等特点,使得面向金融文本的关系抽取方法在特征提取方面存在一些问题。针对金融文本中句式复杂的问题,设计了一种基于预训练语言模型的特征提取方法,利用自注意力机制捕获金融文本中的长依赖信息,从而构建出含有丰富语义特征的输入向量。针对金融文本中实体过长导致特征信息稀释的问题,提出了一种特征融合方法来增强金融实体的有效特征。设计了一种实体重构任务用于无监督关系抽取模型训练,同时提出了一种结合均匀分布正则项的重构损失函数来平衡关系分类器的输出,有效提升了模型的表现效果。为评估方法在金融文本上的性能,自行设计并构建了一种金融领域的关系抽取数据集。为验证提出方法的有效性,首先在英文通用领域数据集NYT-FB上进行性能评估,指标~3的F1分数(F1 Score)和V测度(V-measure)分别达到42.3%和40.6%,分别超出基线模型2.9%和1.9%。其次在中文金融文本数据集FCAR上进行性能评估,指标~3的F1分数和V-measure以及调整兰德系数(Adjusted Rand Index,ARI)分别达到42.9%、38.0%和31.9%,分别超出基线模型18.8%、23.7%和23.5%,表明了提出方法面向金融文本的优越性。
其他文献
跨域推荐是致力于解决推荐系统冷启动问题的一类方法,核心思想是借助其它域中的知识为当前域的用户进行推荐。基于嵌入与映射的方法是一类可以利用重叠用户数据进行跨域推荐的方法。这类方法通常利用重叠用户在源域中丰富的交互行为进行偏好建模,然后将该偏好知识传递到目标域中。但此类方法并未考虑到用户目标域交互行为和源域交互行为的时序关系。另外,由于基于嵌入与映射的模型对重叠用户数据量的强依赖,会导致在用户交互数据
学位
神外手术机器人辅助治疗代表脑部疾病现代手术治疗的发展方向,具有稳定、高效、精准、微创等优点。术前规划是神外手术机器人辅助治疗的关键步骤,旨在确定手术目标与手术路径,为后续手术实施提供指导。其中,基于术前磁共振图像的脑标识点精准定位与脑部结构自动分割是关键使能技术,决定了术前规划能否帮助医生准确切除目标,并规避重要脑部结构。深度学习技术在脑标识点定位与脑部结构分割中的研究取得了喜人的进展,但现阶段仍
学位
急性脑梗是一种常见的脑血管疾病,具有高发病率、高致残率、高死亡率、高复发率和高经济负担五大特点。在基于核磁共振(MR)成像诊断急性脑梗病灶时,专家之间存在着较大的主观差异性。因此,开发基于深度学习的急性脑梗病灶自动分割算法,准确地分割MR图像中的脑梗病灶并精确地进行定量分析,对于急性脑梗患者的诊断、恢复和预后具有十分重要的意义。急性脑梗病灶的分割存在数据量小、MR伪影干扰大、标注工作量大等问题,且
学位
近年来,采取基于深度学习的方法从单张或多张二维图像中恢复物体的三维模型得到了越来越多的关注,是目前计算机视觉领域的研究热点。基于传统方法的三维重建算法存在需要人工参与,算法泛化性不高等缺点,因此基于深度学习的三维重建是目前的主流方法,虽然目前的方法已取得良好的效果,但在单视图重建时存在先验知识利用不足、图像特征提取不充分、网络易受不平衡数据影响等问题,造成重建的模型存在精度不足、细节信息丢失等现象
学位
人脸物理对抗样本攻击(Facial Physical Adversarial Attack,FPAA)是指攻击者通过粘贴或佩戴物理对抗样本,如打印的眼镜、纸片等,在摄像头下被识别成特定目标的人脸,或者让人脸识别系统无法识别的攻击方式。已有FPAA的性能评测会受到多个环境因素的影响,且需要多个人工操作的环节,导致性能评测效率非常低下。因此,首要研究动机是对不同环境下的FPAA的性能进行自动化评测,旨
学位
数控机床作为生产的核心设备,发生故障将造成极大损失。及时诊断故障,恢复其运行十分必要。碎片化的故障维修日志中富含故障诊断知识,但检索耗时,难以利用。由此,提出利用知识图谱结构化的语义来描述零散的故障维修日志的思路,通过查询构建好的数控机床故障知识图谱,快速获得故障发生的原因。目前知识图谱构建方法中的复杂实体识别没有结合词汇信息,影响识别效果;复杂实体关系抽取方法,标签解码方式简单,忽视了实体和关系
学位
心脏冠状动脉钙化是导致心血管疾病的重要因素。实现CT图像中冠状动脉钙化灶的自动分割可以为医生诊断心血管疾病提供影像学的依据。针对冠脉钙化灶分割方法精度有待提高的问题,研究了基于深度学习实现非增强心脏CT图像中冠脉钙化灶自动分割的方法。针对冠脉钙化灶体积小、结构多样化和空间位置随机等特点,设计了以3D U-Net为基础网络,加入密集连接、残差连接、多尺度特征图融合以及空间注意力机制等改进机制的卷积神
学位
随着大数据时代的来临,数据爆炸式的增长,数据的安全共享与访问控制是保障数据安全隐私的重要一环。而伴随着用户对数据访问需求多样化,需要更精细粒度的访问控制,用于解决复杂业务场景中出现的问题。基于属性的访问控制(Attribute-Based Access Control,ABAC)通过将主体、客体、访问策略以属性的方式进行组织,可以匹配复杂的应用场景。虽然采用密文策略属性基加密机制(Cipherte
学位
随着互联网技术的发展以及网络电视平台的兴起,用户的需求也不再是简单的观看视频,还想在观看的同时寻求他人的见解或表达自己的观点。与传统评论区不同,视频实时评论即“弹幕”有着实时性强,互动性强,包含用户情感等特点。视频实时评论生成可以应用于提高视频或直播间人气,产生实际的经济效益,加强视频与用户的交互,提高用户的观影体验。视频实时评论自动生成任务是一个多模态任务,在生成实时评论时需要结合视频的图像信息
学位
同态加密算法是可保证数据安全,支持数据加密状态下进行明文等效计算的算法,在安全计算领域应用广泛。基于大量复杂多项式乘法实现的同态加密算法,存在计算复杂度高、资源消耗大的问题。最新加速方案利用离散伽罗瓦变换算法提升多项式乘法性能,能够降低算法复杂度,实现了图形处理单元(Graphic Processing Unit,GPU)上的简单并行。但该方案未充分考虑密文多项式特性以及GPU内存访问、线程调度特
学位