基于条件层归一化的事件抽取系统设计与实现

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:yzqp178
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今的大数据时代,指数级增长的文本数据给人工智能带来了更多的可能性,自然语言处理领域逐渐受到更多的关注。随着深度学习的发展,海量数据的自动化处理要求不断提高,如何高效利用非结构化文本信息成为一个紧迫且重要的热点任务。知识图谱、事理图谱等概念也渐渐兴起,事件抽取作为构建知识图谱的重要信息抽取技术,对于其他下游任务具有重要的意义,目前深度学习凭借着强大的自动特征抽取能力,逐渐成为事件抽取的主流研究趋势。BERT作为近年的现象级深度学习成就,它的各种微调任务都取得了喜人的成就,因此本文将研究设计BERT的微调结构,针对半开放域事件体系实现具备一定可移植性的事件抽取系统。为了提高模型的泛化能力,本文区别于传统专业性的事件结构设计了不限定事件类型,只识别事件触发词和其对应的四个固定常规论元:主体、客体、时间和位置的基础半开放域事件体系结构。基于该事件结构,分别设计了以下三种基于BERT的微调结构:首先,忽略文本与事件的一对多关系,简单假设所有文本只包含一个事件触发词,将事件抽取问题简单实现为BERT的序列标注问题,不区分触发词和论元角色将标注种类直接处理成6类,解码时只考虑第一个识别到的事件触发词,与识别到的所有论元相匹配,尽管做法不够精细,但也得到了较为不错的成果,充分体现了BERT强大的预训练语义编码能力。其次,为了保留事件触发词与论元的对应信息,本文还设计了MRC式的管道式抽取,一阶段模型完成事件触发词识别,二阶段模型针对一阶段的触发词结果,以MRC式序列标注结构识别其对应的论元,两个阶段分别使用独立的BERT微调实现,由于是管道式抽取,存在误差传播的问题,且二阶段的论元识别部分MRC式模型语义表达不充分,效果不佳。本文重点在以上模型的表现上提出了一种新的改进思路,基于条件层归一化,设计共享BERT编码序列,将触发词结果融入到论元识别中,实现了端到端训练联合抽取,避免了误差传递,由于共享了BERT参数,大大节约了训练时长和内存消耗,巧妙利用条件层归一化保留了事件触发词和论元的对应关系。除此之外,将标注形式修改成了指针标注,可以处理目标词重叠问题,CLN-SL的微调结构设计吸取了上述两个模型各自的优点。本文选用了目前业界最大的中文事件抽取数据集,分别测试了以上三个模型的表现。实验结果表明,最终的设计方案实现了一种高效的BERT对于事件抽取任务的微调系统结构,在抽取结果上相比基础做法有了非常显著的提升。
其他文献
2021年中国共产党迎来建党一百周年纪念,党的宣传工作作为党的一条重要战线也走过了百年历程。如今,建党百年之际,世界正处于百年未有之大变局,党的中心任务也有了新的变化和发展,我们正面临着前所未有的机遇和挑战。在这样的背景下,如何做好新时代的宣传工作,如何客观真实地讲好中国故事,对提高我国在国际上的地位、塑造我国良好的国际形象意义重大。回顾建党百年来宣传工作的发展历程,从历史中汲取养分,尤其对宣传工
学位
我国商业银行理财产品市场发端于2003年。2003年,中国银行推出“汇聚宝”外汇理财产品,这是国内商业银行第一次使用“理财产品”的名称,标志着我国商业银行理财产品的诞生。2004年9月,国内第一款人民币理财产品出现。随后,我国商业银行人民币理财产品的数量大幅增长,互联网理财产品等竞品也逐渐涌现出来,其高收益和便利性吸引了大量用户。但银行理财产品的收益率目前来看不低于互联网理财产品,许多投资者依然青
学位
随着城市人口和人均收入的增加,城市汽车使用率显著提高,导致交通拥堵现象日益严重,从而制约了城市的经济发展。交通预测任务作为智能交通系统(ITS)重要的研究内容,能够为城市交通决策提供重要的依据。交通预测是典型的时空序列预测问题,由于交通数据复杂的时空依赖性,实时准确的交通预测一直是一个巨大的挑战。在空间维度上,交通状态的变化受路网拓扑结构的影响,具体表现为上游道路的交通状态对下游道路的交通状态的传
学位
股市投资策略的研究具有非常重要的理论意义和实际价值。与传统的股市投资方法相比,基于人工智能技术的量化投资策略具有更好的自适性等诸多优点。强化学习提供了一套从实际经验中学习最佳解决方案的方法,而有利于与金融市场的直接互动。过去的几年里,已有许多学者对标准深度Q学习(DQN)算法进行改进。基于值函数分布的分布强化学习算法(如C51、QR-DQN等)在Atari游戏中有优于基于价值期望的标准DQN算法的
学位
因子投资涵盖的内容多种多样。利用因子,可以获得收益,也可以控制风险;利用因子,可以进行资产管理,也可以获得套利机会;利用因子,可以去研究投资者所预期的回报,也可以去研究投资者收益的波动。这些因子可以被用来表征和描述众多投入资产中所共同暴露在其身上的某些系统性风险,这些系统性风险就是影响资产价值和收益的驱动因素,而因子回报与这种系统性风险存在较多的联系。历史研究中发现,因子类的随机组合通常有着最高的
学位
随着近些年通信,计算和嵌入式系统技术的飞速发展,物联网系统已广泛部署在不同类型的应用场景中,例如智能家居,智能医疗,智能交通,智慧能源以及工业自动化等。随着智能电网的不断建设,TSDB数据库中收集到的负荷数据也成指数倍增加,如何从这些数据中挖掘出用电行为和状态,并对可能存在的用电异常进行检测,对于保障电网的安全稳定运行具有重要意义。因此,本文基于分解与重构的方法从一个真实的多维物联网用电数据集中挖
学位
本文利用2015年1月1日之后银行间和交易所市场交易过并且评级在A以上的固定利率债券的周度收盘价格,对于国企债和民企债数据,分别基于三次样条折线函数,利用最小二乘估计的方法估计得到各个时间点的折现因子,随后获取了各个时间截面上的两年期、三年期、四年期和五年期的折现因子,并利用折现因子计算得到了即期利率曲线。从得到的即期利率曲线上可以看到,在国企债和民企债上都呈现先下降再上升最后回落的时间趋势,时间
学位
改革开放以来,随着我国经济水平的发展,城市化进程的推进,城市生活垃圾产生数量的越来越多,由此引发了大量与生活垃圾相关的问题,给我们的生活环境、生态水平带来更大的挑战,“垃圾围城”成为城市发展之痛。垃圾分类政策的推行有助于提升垃圾的处理速度、保障经济的高速发展、保障生态环境的改善。我国将城市生活垃圾分为可回收物、厨余垃圾、有害垃圾、其他垃圾四类,研究垃圾图片分类算法有助于居民简易、正确的进行垃圾分类
学位
目的:探讨温经养血汤与艾灸疗法应用于子宫内膜异位症痛经患者的效果,以便临床寻找出更有效的治疗方案。方法:选取2019年12月-2021年9月荆门市中医医院收治的子宫内膜异位症痛经患者120例,依据随机数字表法将其分为对照组和试验组,各60例。对照组给予艾灸疗法,试验组在对照组的基础上给予温经养血汤治疗,两组均连续治疗3个月。比较两组临床疗效,治疗前后中医症候积分、血液流变学、血清前列腺素F2α(P
期刊
我国的投资市场长期处于个体投资者占据绝大多数的环境中,投资者的情绪对于我国市场经济有着决定性的重要作用。从市场经济运行的角度来看,多数学者都认为,投资者的情绪和收益波动率之间是呈正向相关的,即投资者的情绪愈是高涨,其收益波动率也愈大。本文通过利用文本数据刻画了投资者的情绪,基于异质市场假设提出HARQ-RV-CJ-SENT模型,改善了对已实现价格波动率的预测效果,并从因果检验的角度深入分析了二者之
学位