信息抽取技术的研究并在金融领域应用

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:S20090908
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网技术不断发展的时代中,面对庞杂丰富的网络信息,信息的自动准确获取十分重要。信息抽取技术能够对非结构化文本进行自动分类、提取和重构,主要包括命名实体识别、实体关系抽取和事件抽取等任务。在各个垂直领域中,金融行业的信息需求尤为明显,快捷准确地从海量金融文本中获取结构化信息有助于监管者和投资者科学决策,并且实际工作中,金融信息往往以公告、财经新闻和研究报告为内容载体,文本篇幅长又包含动态事件描述,因此本文从应用价值出发,希望对金融长文本实现事件抽取。为了对复杂文本完成难度较大的事件抽取,本文工作分为依次递进的两部分,首先对不限专业领域的百科短文本做实体关系抽取,进一步对金融领域长文本做事件抽取,承接前文对序列标注模型的经验,同时基于场景的复杂性提出了创新改进。主要内容概括为以下:首先用管道抽取思想完成实体关系抽取,第一阶段的命名实体识别任务建立BERT-Bi LSTM-CRF模型,然后将得到的实体进行两两配对进入第二阶段的关系分类任务,分别尝试了基于注意力机制的Text CNN模型和改造输入层的R-BERT模型,对比实验表明引入动态词向量比静态词向量更能解读语义信息,且R-BERT通过改造输入层融合了实体信息,思想简洁的基础上效果更好。然后通过联合抽取思想完成实体关系抽取,避免管道抽取方法的误差积累和实体匹配造成的样本冗余。采用序列标注思想,构建BERT-Bi GRU-CRF模型,并在原BIO标签的基础上增加关系类型、主客体信息和实体类型信息,因此可以同时获得关系三元组,并减少主客体错位问题。但是改写后的标签类别增多,为了加快训练效率,用Bi GRU结构取代Bi LSTM,对比实验表明BERT和Bi GRU结构都分别增强了语义特征学习能力。最后基于前文经验对金融领域的篇章级文本做事件抽取,但是有3个主要难点:(1)篇章文本篇幅长,超出BERT输入序列限制,(2)篇章文本可能包含多个事件,事件之间存在论元共享,(3)金融文本语言规范性强,专业词汇多。针对以上难点本文提出了基于BERT的多层语义增强模型,用管道抽取方法解耦子任务:触发词抽取和事件判别、论元抽取和角色分配,其中论元包括实体论元抽取和属性论元抽取,属性论元抽取转化为基于BERT的文本分类任务,触发词抽取和实体论元抽取转化为序列标注任务,都采用基于BERT的多层语义增强模型,文本分段输入BERT得到动态词向量表示,拼接后分别进入Bi GRU学习上下文句子级特征和CNN学习不同长度的词汇级特征,特征拼接后经过CRF解码;特别的,实体论元抽取需要额外融合上一阶段得到的事件类别信息,将事件类别和原文拼接为两个句子输入BERT,使BERT更关注原文中与该事件类别相关的论元信息,分别地对每个事件类别抽取论元能够避免不同事件的论元共享重叠。通过实验对比可以论证本文方法能够一定程度解决金融篇章文本做事件抽取的困难。
其他文献
产能利用率是衡量企业生产时资源利用效率程度的名词。若产能利用率不足就会造成产能过剩的情况,产能过剩问题在我国工业生产中普遍存在,产能过剩既有一定的弊端,又有一定的优势:产能过剩会在一定程度上制约行业的快速发展,加重环境污染,但同时也能够加快淘汰落后产能,促进生产优化。根据以往文献的研究,产能利用率不足即产能过剩,是影响环境污染的重要因素。本文以吉林省汽车产业的产能利用率作为研究对象。吉林省的汽车产
学位
随着互联网线上交易模式逐渐成熟化,高频股票交易在全球金融市场下快速发展,此时低频数据分析已无法充分地反映金融市场交易信息,因此高频金融数据分析成为了近年研究的热点方向。而对于高频交易数据,传统的时间序列分析方法面临着估计大量参数且估计效果不准确的难题。因此,学者们提出函数型时间序列分析方法,依据数据内部的特征结构,将数据整体看成曲线进行分析,有效避免了“维度灾难”。本文主要研究的高频交易数据来自限
学位
股票市场是促进资本、科技、实体经济高水平流通的重要枢纽,股票市场中的价格通常被视为经济活动中最有信息效率的,公司管理层会利用股价中的信息进行决策进而提高生产效率。在国家强调高质量发展、重视全要素生产率的背景下,探究股价信息含量对企业全要素生产率的影响具有重要意义。本文利用股价非同步性衡量股价信息含量,运用OP法和LP法构建上市公司全要素生产率,以2004-2019年沪深A股上市公司的相关数据为样本
学位
人工鱼群算法以水中鱼及鱼群的行为为研究对象,通过总结和分析它们的生物习性并通过数学模型描述起来的一种智能仿生优化算法,该算法有诸多优点,如对初始解不敏感,鲁棒性较好,容易逃离局部最优等,受到广泛的关注,并被应用到各个领域中,为解决当前高维,复杂,非线性的工程问题,提供了解决方案和思路。对人工鱼群的深入研究和进一步完善是当前优化领域的一项非常热门的课题。鱼群的觅食,群体聚集,跟随可以帮助鱼群快速定位
学位
张量是高维数据的自然存储形式,它能够有效的保留原始的数据结构,使用张量进行数据挖掘工作,结果具有更高的准确度。张量是深度学习领域的基本数据结构,同时也是构建关系数据模型的主要工具。关系模型是目前比较热门的研究领域,亦是知识图谱、推荐算法等应用方向的基础。本文将张量分解应用到关系模型领域。在关系模型中,Rescal分解是一种插补准确度高,且比CP分解更具解释性的分解算法。过去研究的关系通常是0-1的
学位
<正>策划人语:2月21日,习近平总书记在主持中共中央政治局就加强基础研究进行的第三次集体学习时指出,要在教育“双减”中做好科学教育加法,激发青少年好奇心、想象力、探求欲,培育具备科学家潜质、愿意献身科学研究事业的青少年群体。当前,在加快建设科技强国的新征程中,提升青少年科学素养迫在眉睫。
期刊
收入是民生之源,立身之本。收入差距是普遍的,但是过大的收入差距会引发公众不满心理,阻碍经济健康发展。从十六届三中全会后,我国开始重视收入差距扩大的问题,直到现在缩减居民收入差距依然是社会面临的重要问题之一。改善居民收入差距通常有三种途径,分别为初次分配、再分配和三次分配,其中初次分配完全依托于市场,三次分配取决于个人意愿,所以政府部门只能通过再分配解决收入不均问题。税收是再分配过程的一个重要环节,
学位
协调好地方政府债务与区域经济增长之间的平衡关系对实现高质量转型发展意义重大。本文基于2010-2018年地方政府债务省级面板数据,通过构建修正引力模型,运用社会网络分析方法生成空间关联矩阵,得出地方政府债务网络强度及网络地位集聚状况。从经济空间和地理空间的角度进行模型识别与择优,采用空间杜宾模型拟合地方政府债务集聚与经济增长之间的异质性作用机制,并进行直接效应、间接效应及总效应分解。基于此,得出如
学位
随着互联网技术与物流的发展,网上购物以及搜索产品相关信息变得越来越方便,因此催生出了“在线下实体店评估产品-在线上低价购买产品”以及“在线上搜索产品相关信息-在线下购买产品”这两种零售现象,即展厅现象与反展厅现象。这两种现象的出现改变了线下传统零售商与线上电商之间的竞争情况,引起了大量企业与研究者的关注。线下传统零售商是否为展厅现象的受害者、反展厅现象的受益者?线上电商是否为展厅现象的受益者、反展
学位
受新冠疫情的持续影响,企业的生产经营遭遇到了前所未有的挑战。在当前的特殊时期,缓解企业的债务融资成本,推动中国经济复苏,具有现实意义。媒体在新时代焕发出新活力,随着网络的快速发展,媒体的传播成本急速下降,传播效率直线上升,对社会经济生活的影响也越来越大。企业作为市场经济中的不可忽视的一份子,媒体情绪对企业的债务融资成本会产生何种影响,是否是企业降低自身融资成本的一种新途径?不同的媒体情绪对企业债务
学位