基于Transformer的双向编码表征模型的语义关系抽取方法研究

来源 :河南大学 | 被引量 : 0次 | 上传用户:sda_xiangwei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,尤其是以移动互联网为代表的快速发展,使得互联网用户数量产生了爆炸式的增长,也导致互联网上产生了越来越多的数据。每天新产生的数据已经达到了艾字节(EB)级。如此多数据,其中的大部分是文本数据,使得人工处理极为困难。这些文本数据蕴含着丰富的信息,理论上有着很高的价值,但这些数据因为非结构化的属性,使得传统的计算机方法难以对其进行有效的处理及利用。因此人们迫切地需要新的方法来让计算机代替人类提取数据中有价值的信息。在这种需求下,人工智能领域中的自然语言处理技术成为了热门研究方向。自然语言处理主要包括自然语言理解和自然语言生成两大类任务。其中,自然语言理解的任务目标是让计算机有效地理解与分析非结构化数据的语义信息和主要内容;自然语言生成的任务目标是让计算机自动输出符合人类语言习惯的预期内容。信息抽取任务作为自然语言处理任务中的基础任务,是把非结构化文本数据进行结构化处理并进行结构化存储的技术,而关系抽取是信息抽取任务的一项关键子任务。关系抽取任务的目标是将命名实体间所存在的语义关系抽取出来,抽取结果通常以一个三元组来进行表示。关系抽取任务应用于许多自然语言处理任务中,例如机器翻译、知识图谱的构建与完善、基于知识图谱的问答系统、摘要自动生成等。更快的处理速度及更高的抽取质量是研究者们对于关系抽取任务的目标,也是本文的主要研究目标。关系抽取任务有机器学习方法、深度学习方法等,但在调研中发现目前的方法并未充分使用句法知识以及文本的语义交互信息。针对这两个问题,本文的主要研究内容如下:(1)针对没有充分使用句法信息的问题,提出了一种基于句法知识的双路注意力关系抽取模型。该模型通过双路注意力机制来学习从现有自然语言处理工具自动分析生成的句法知识,然后根据这些句法知识来改进关系提取的效果。具体而言,对每个输入的单词,先提取上下文特征和与单词相对应的知识,然后用两个注意力机制分别对特征和知识进行计算。最后将两个注意力机制的输出连接起来,从中提取语义关系。在此过程中,本文的模型可以将自动分析出来的知识按照其对整体任务的重要程度来进行区分,从而避免任务受到某些低层次知识的负面影响。在实验中,本文使用了三种类型的句法知识,即词性标记、句法成分和依赖关系,并在Sem Eval-2010 Task 8数据集达到了85.2%的F1值,能够适用于多数的关系抽取应用场景所需的准确度。(2)针对没有很好利用语义交互的问题,提出了一种基于孪生BERT(Bidirectional Encoder Representations from Transformers)网络的语义模型来获取实体对之间的语义交互。首先根据句子中所包含的两个实体词e1与e2将句子分成两个部分。第一部分为e1的上下文,第二部分为e2的上下文。将两部分内容输入孪生网络模型中,使用BERT对其编码,然后使用池化层对这些表示进行聚合以选择信息量最有效的语义交互,得到两部分的表示u和v。将u,v以及u与v的差值送入多层感知器进行处理,并将得到的结果送入softmax层,得到关系抽取的结果。在Sem Eval-2010 task 8数据集上达到86.5%的F1值,验证了该方法的有效性。本文使用双路注意力机制和孪生神经网络两种侧重点不同的方法进行关系抽取任务,在Sem Eval-2010 Task 8数据集上的实验结果证明了本文所提出的模型的有效性。
其他文献
新生代农民工作为中国产业工人的主力军,并非是又工又农,而是彻底地离开自己的家乡,在社会经济发展中发挥至关重要的功效,担当着我国经济体系现代化建设的伟大使命,为城市发展做出了巨大贡献。但我国新生代农民工不管是在初步的成长时期,还是在就业后期的发展积累阶段,其人力资本投资亟待加强,且需重点解决好新生代农民工自身的就业问题,才能更好地服务于现代化经济体系建设。本文以中国劳动力动态调查为研究数据,将人力资
学位
背景:溃疡性结肠炎(Ulcerative colitis,UC)是一种多因素引起的慢性炎症性疾病,属于炎症性肠病(Inflammatory bowel disease,IBD)的一种,病变局限于大肠黏膜及黏膜下层,多累及直肠和乙状结肠。目前UC临床治疗方法较多,最常见的是药物治疗,包括氨基水杨酸制剂、糖皮质激素、免疫抑制剂,但是药物治疗都存在一些无法避免的副作用,而副作用较少的生物制剂价格高,无法
学位
经过长期的高速增长,我国经济已由高速增长阶段转入高质量发展阶段。基于国内经济增长态势的变化,习近平总书记于2014年提出我国经济发展进入新常态的重大论断,并指出我国经济呈现出新常态,具有从要素驱动、投资驱动转向创新驱动的特点。这便意味着随着国内经济发展形势的变化,传统的经济动能正在衰竭,需要寻找、培育、发展新的经济动能,才能真正引领新常态。在我国经济发展进入新常态的背景下,河南省作为中原经济区的主
学位
近年来,我国贸易规模持续扩大,出口贸易额连续十年位居世界第一,成为名副其实的贸易大国。然而,随着我国人口红利的消失以及东南亚国家廉价劳动力的出现,我国传统以劳动力为主的比较优势不复存在,依靠廉价劳动力推动外向型经济发展的做法已无法延续,因此我国亟需进行贸易转型,而提高我国出口技术复杂度是这次转型的主要内容。与此同时,由于我国长期“高消耗、高投入、低附加值”的出口增长模式,导致我国的资源与环境早已面
学位
1860年11月,共和党在美国总统大选中获胜,共和党总统候选人亚伯拉罕·林肯当选美国总统几成定局。面对林肯即将成为美国总统的前景,美国下南部蓄奴州南卡罗来纳率先走上脱离联邦之路。在南卡罗来纳的引领下,下南部另外6个蓄奴州也掀起了分离联邦运动,在1860—1861年的岁末年初做出了退出联邦决定。脱离联邦的下南部7个蓄奴州在1861年2月组成了自称独立国家的“美利坚联众国”,联邦国家陷入分裂。与此同时
学位
早期经济学研究通常会略去不确定因素,然而现实世界的发展,使得学者们意识到不确定性冲击会对经济运行产生不容忽视的作用。鉴于此,对经济不确定性展开研究成为经济理论研究与政策制定者关注的焦点。尤其是在2008年全球金融危机爆发之后,经济不确定性与金融因素的叠加作用对宏观经济运行产生了异乎寻常的影响,这引起学者们对经济不确定性进行更深层次的研究。特别的,受到后危机时期世界经济复苏乏力的影响,我国在内部和外
学位
近年来,大数据、人工智能、5G等数字技术不断改变人们的生产生活,数字经济再一次被社会所关注。自2008年经济危机过后,数字经济表现出不同于其他经济形态的强大适应性;在2020年的新冠疫情期间,数字经济的表现尤为亮眼,更加让人们认识到了数字经济的重要性。此外,世界各主要经济体也相继出台了各自的数字经济发展战略,学者和机构也对数字经济的概念、规模测度等问题展开了研究。梳理相关文献,学术界对数字经济的界
学位
能源作为经济社会发展的重要因素,在推动经济总量扩张的同时带来了严重的环境问题,而环境恶化和资源过度消耗又反过来阻碍经济增长,甚至导致经济全面衰退。为应对与能源使用相关的环境问题,全球各国进行了多次协商并提出多种节能减排的可行性方案。中国政府也公开承诺了一系列节能减排目标,作为世界上最大的能源消费和碳排放国家,中国能否实现节能减排目标是决定世界节能减排行动成败的关键。在节能减排政策的实施中,提高能源
学位
乳腺癌是影响全球女性健康最常见的恶性肿瘤之一,给全球女性带来了严重的影响。目前早期筛查依旧是控制乳腺癌发展的最有效手段。最近几年研究表明,乳腺癌的分子表型对病人的预后具有指导性的作用。因此,通过乳腺癌的分子表型初步判断乳腺癌的分子分型进行患者的预后分析具有重要的临床指导意义。本研究通过将MRI(Magnetic Resonance Imaging,MRI)影像组学特征和生物标志物关联,找出关键特征
学位
插入变异指的是一段新的或已经存在的碱基序列由于突变增加到DNA序列中,而且与某些遗传性疾病有着重要关系,近几年已经成为一个研究热点。插入变异的检测可以通过第二或者第三代测序数据,然而目前基于第三代测序技术的数据集错误率较高,相关技术仍然不成熟,所以本文主要研究基于二代测序数据分析的新插入变异检测方法。本文提出了两种方法,一种是基于局部组装和重比对的方法,另一种基于综合比对信息以确定精确断点的方法。
学位