基于深度学习的文档级关系抽取问题研究

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:hzh19780101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,自然语言处理是人工智能的热门研究领域之一,它涉及的研究方向很广泛,如文本分类、机器翻译、信息抽取等。其中,信息抽取旨在通过算法实现自动从文本中获取各种各样的信息。文本的形式各种各样,一般可分为结构化文本,半结构化文本和非结构化文本。本文研究的信息抽取任务主要是从非结构化的文本中抽取相关信息构建结构化的数据。文档是保存信息的一种主要方式,并且文档中的绝大多数信息是以无结构的纯文本形式存在,它们没有结构化的数据表示,因此,从这些文本中抽取相关信息是一个重要的且有意义的研究方向。特别是对于现在各个领域的文献而言,从这些文档中抽取信息并构建数据库对各个领域的科学研究非常重要。文档(如科学文献、出版书籍等)相对于微博、评论、博客等文本而言有如下优势:第一,文档当中的逻辑和语法更加严谨,极少出现网络文本中存在的文字、逻辑和语法上的错误;第二,文档中包含的信息具有更加紧密的联系,包含更多的领域性知识,而不像网络文本中,前后信息差异很大;第三,文档中包含更多的信息,可以一次性从文档中获取更多的相关信息。然而,从文档中抽取信息面临着很多困难:(1)文档一般都包含大量文字,目前并没有解决直接对篇幅很长的文本一次建模的方法;(2)文档中包含很多实体,但并不是每个实体对相互之间都存在关系,仅仅只有少部分实体之间存在关系,很难确定合适的阈值判定两者之间是否存在关系;(3)同一实体对之间可能存在多种关系,因此是一个多标签分类问题;(4)文档中实体之间的关系推理涉及跨句推理,因此相对于句子级别的关系抽取而言,它面临更大的挑战;(5)实体对交换位置后,两者之间的关系可能不同。为了能够有效地从文档中抽取相关信息,本文选择ATLOP模型作为基准模型,在它的基础上提出了Doc GSE模型来处理超长文档,并在Doc RED数据集、CDR数据集和GDA数据集上进行了实验。ATLOP模型是基于预训练语言模型BERT和RoBERTa的一个简单模型,仅包含预训练语言模型作为词向量编码器并添加三个线性变换构成分类器,因此适合作为基准模型。由于数据集中存在长度超过预训练语言模型限制的最大长度,对于超过长度的序列,通过截断的方法分成两部分,使得这两部分相互独立。因此,通过预训练模型编码得到的超长序列词向量并没有将截断的两部分建立联系。本文通过图构建模块构建文档图,并使用图神经网络作为图编码器对整篇文档编码,并将文档图的结构信息和语言模型计算的语义信息融合来解决文档被划分为多个部分导致上下文不相关的问题。本文的研究和实验表明,融合文档图的结构信息可以改进模型在超长文本序列上的关系抽取效果。相对基准模型ATLOP而言,基于图卷积神经网络和图注意力神经网络的图编码器在BERT、RoBERTa和SciBERT上都取得了较好的效果,特别是在超长文本序列上的效果提升尤为明显,在三个数据集上,F1分数提升了1%左右,而Long F1分数提升了1%~7%。
其他文献
跨膜蛋白是存在于生物膜上的一类特殊蛋白质,承担生物膜两侧物质和信息的传导功能,在多种重要的生命过程中发挥至关重要的作用,如物质运输、离子通道、能量传递、信号识别等。由于它们的特异性结构,目前药物市场上约一半以上药物靶点是跨膜蛋白,其结构和功能研究对药物研发具有巨大价值。然而相对于水溶蛋白,生物技术手段难以大规模测定跨膜蛋白结构,虽然近年来样本数量持续增长,但仍然远不能满足相关研究的需要。因此,采用
学位
在所有生命活动中,金属离子借助“结合作用”通过跨膜蛋白形成的离子通道,从而调节多种生物分子的表达和激活,参与细胞信号转导,完成各种基本生物功能。由于跨膜蛋白具备其自身独特的结构和功能特性,正确识别金属离子与跨膜蛋白结合位点,对于蛋白质工程、离子运输机制以及药物设计的阐明都具有重要意义。然而,当前缺乏大规模测定跨膜蛋白离子结合作用的生物实验技术,亟待有效的计算工具为相关研究及应用提供支撑。已有的金属
学位
近年来,随着互联网技术的发展,层出不穷的在线考试平台逐渐进入智能教育领域中。与传统的教育考试方式相比,在线考试平台有着时间上更灵活、空间上更自由的特点,不仅提高了学生的学习效率,同时也减轻了教师在教学过程中批改大量试卷的负担。然而,由于教育智能在线考试系统是从庞大的题库中随机抽取题目进行组卷,这种情况使得学生在平时练习测试的过程中存在灵活性低下、无法针对每个学生的实际掌握情况进行出题等问题和挑战。
学位
大气压冷等离子体作为一种适用于生物治疗的技术,在医学上有着丰富而广泛的应用,包括医疗器械灭菌、口腔、肿瘤及皮肤疾病等领域。大气压冷等离子体的应用有直接和间接两种形式,二者相辅相成。大气压冷等离子体是一种很有前途的皮肤病治疗技术,但仍需要进一步的探索和研究。我们总结了大气压冷等离子体在皮肤科中的直接和间接应用并展望,为等离子体医学的发展方向提供参考。
期刊
问答(Question Answering,QA)是自然语言理解中具有挑战性的任务,近年来备受研究人员关注。目前大多数关于问答的研究都是根据单个文档甚至单个段落来回答问题,即问题的答案往往来源于单个文档或者单个句子,也称之为单跳推理问答。多跳推理问答相对单跳推理问答来说是一个更具有挑战性的任务,它要求模型能够对多个文档和问题之间的关系有深入的理解,即需要模型从文本的不同部分收集信息来回答问题。这就
学位
人脸表情可以有效地表达人的情感,是一种可以最直观传递人情感状态的非语言信号。在计算机与人工智能快速发展的背景下,基于深度学习的人脸表情识别技术在计算机视觉领域中发展迅速,并在智慧康养、人机交互等领域取得了众多应用成果,逐渐成为学术界和工业界研究的热点。然而,以往基于传统深层网络的表情识别研究主要利用单一面部表情线索信息,当面部表情被遮挡、图像质量不高时,传统方法的性能往往较差。考虑在真实场景中,人
学位
人脸检测是计算机视觉领域中的一个重要研究方向,也是人脸识别、人脸跟踪和面部表情识别等视觉任务的基础。人脸检测在生活中的应用场景也随处可见,如公司考勤、车站安检和“刷脸”支付等。随着网络性能的提升,人脸检测方法的网络模型越来越复杂,检测精度不断提高,检测速度却逐渐降低。由于人脸检测的实际应用场景对检测精度和速度要求很高,而且应用设备的内存和计算能力都非常有限,所以目前大多数的人脸检测方法不能很好地满
学位
大规模在线公开课程(Massive Open Online Courses,MOOC)又译为“慕课”,是随着科技发展流行起来的新兴课堂形式。慕课不拘泥于时间、地点,又内容多样、资源丰富,自出现起就备受全世界学习者的喜爱和关注。然而慕课数量巨大,质量良莠不齐,如果不对慕课进行质量评估,不仅会浪费学习者的时间筛选慕课,同时也会对慕课平台的留存率产生负面影响。怎样充分地利用慕课属性及学习者的学习行为,合
学位
近年来,个性化的习题推荐一直是教育领域的重要研究课题,习题推荐通常分为两个过程,一是根据学生的做题记录来了解学生的知识点掌握情况,二是根据学生的知识点掌握情况结合相关学习策略为学生推荐合适的习题,以达到帮助学生学习的目的。根据学生的特点为学生个性化地推荐习题,可以提高学生学习效率,提升学生的知识水平,也可以帮助学生探索新的知识,复习遗忘的知识点。这对帮助学生更好地掌握、探索、学习与巩固知识点都有着
学位
采用料浆渗铝法在T92钢上开展了渗铝工艺研究,测试了700℃料浆层厚度约80μm渗铝层生长动力学,采用XRD、SEM及EDS对渗铝层表面物相结构和渗铝层截面形貌、厚度和成分进行研究。结果表明:渗铝的前3 h活性Al原子([Al])向内扩散形成Fe2Al5 (η)相;随后[Al]开始在料浆层与渗铝层界面堆积,此时,Fe以较快的速度向外扩散并形成Fe2Al5 (η)和FeAl3 (θ)混合相外层;10
期刊