【摘 要】
:
随着大数据时代的到来,互联网上数据以指数形式增长,其中大部分都是无结构化数据。信息抽取能够将无结构化数据转换为人们易于理解的结构化数据,其中关系抽取是信息抽取比较重要的一环,它也是机器翻译、机器阅读理解等任务的基础工作,具有重要意义。针对一些复杂的文本,目前的关系抽取模型的性能仍然不高,主要原因在于,人工标注可以使用除文本之外的外部知识(如常识或经验),然而传统的关系抽取只利用了文本信息,无法解决
论文部分内容阅读
随着大数据时代的到来,互联网上数据以指数形式增长,其中大部分都是无结构化数据。信息抽取能够将无结构化数据转换为人们易于理解的结构化数据,其中关系抽取是信息抽取比较重要的一环,它也是机器翻译、机器阅读理解等任务的基础工作,具有重要意义。针对一些复杂的文本,目前的关系抽取模型的性能仍然不高,主要原因在于,人工标注可以使用除文本之外的外部知识(如常识或经验),然而传统的关系抽取只利用了文本信息,无法解决一词多义等常见语言现象带来的问题,从而影响关系抽取的效果。针对上述存在的问题,本文提出将外部知识和文本信息融合的关系抽取方法,借助外部知识信息,来补充词向量的缺陷,完善词汇语义信息,从而提高关系抽取的效果。本文的工作主要包括:1、基于知识库的融合外部知识的关系抽取方法。本文提出基于知识库的融合外部知识的关系抽取方法,针对当前外部知识库如知网(HowNet)包含丰富的信息,使用HowNet中义原信息构建语义常识知识库,该知识库的最小单位是义原,能够有效的缓解一词多义现象带来的问题,同时利用长短时记忆网络(LSTM)将该语义常识知识库融合到模型中,并引入自注意力机制,赋予每个义原不同的权重,能够更好的利用知识库中的外部知识,进一步完善词向量信息。实验证明,融合后的词向量能够更好的表现其语义,对关系抽取有一定的提升作用。2、基于预训练模型的融合外部知识的关系抽取方法。现实中大量无标记的文本信息可以较容易的获取,而且这些文本中包含大量隐含信息,如果可以获得融合这些隐含信息的词向量,模型就可以通过融合后的词向量获得文本中的深层含义。因此,本文将Bert模型和双向门控循环单元网络(BiGRU)结合,将通过预训练模型获得的融合后的词向量作为BiGRU模型的输入的方法,使模型能够获取词汇的隐含含义,再使用注意力机制降低噪音的影响,进一步提高关系抽取的效果,实验证明,基于预训练模型的融合外部知识的方法对关系抽取有一定的提升作用。
其他文献
大数据与人工智能技术的发展与普及,深刻地改变了社会生产与生活的方式,促进了当今社会从信息社会迈向智能社会,并引起了教育环境与教育方法的巨大的变化,如在线学习的发展普及。信息素养是人们参与智能时代生产生活与学习的必备素养,我国已提出信息素养是高校培养高素质、创新型人才的重要内容。由于新冠疫情的影响,在线学习的发展进程被大大加快,在线学习成效成为受教育研究者关注的主题。尽管许多研究者从多方面对在线学习
化学概念学习是化学教育研究的核心领域。在当前国际教育改革不断推进的背景下,我国充分借鉴国际先进改革成果,结合本国国情开始了新一轮的基础教育课程改革。新的课程标准提倡开展素养为本的教学,以学科大概念为核心建构结构化的课程内容是其表现之一。只有形成正确的核心概念才能促进学科大概念的形成,如电化学核心概念的形成对氧化还原反应这一大概念的形成至关重要。开展迷思概念探查及转变的研究是促进学生科学概念形成的重
“化学平衡”是高中化学的重要学习内容,在新高考改革的背景下,本研究采用文献分析、文本研究、统计分析等方法,选取2020年高考全国卷Ⅰ、Ⅱ、Ⅲ、浙江卷、北京卷、山东卷、天津卷、海南卷、江苏卷的化学平衡类试题为研究对象,从试卷基本情况、考查视角、试题分析三个方面,对化学平衡类试题进行比较研究。研究结果显示:(1)化学平衡类试题在2020年高考试题中所占比重较大,试题的结构和比例相对一致,考查内容更侧重
X射线偏振卫星是天文物理的重要研究手段。低能X射线偏振卫星的探测系统包括两部分,微结构气体探测器和具有传感与读出功能的硅像素芯片。华中师范大学研发的Topmetal硅像素芯片是低能X射线偏振卫星的备选芯片之一。目前,国内外有许多针对硅像素传感器的读出电子学方案,有用于大型实验的通用数据读出系统,也有针对小型实验的专用读出系统。大部分读出方案都是读出所有数据然后进行离线数据处理。但是空间X射线偏振卫
信息技术目前已经成为高中数学课堂中常见的教学手段之一,具有十分重要的教学价值。在数学课堂中科学合理的应用信息技术,能充分调动学生的学习积极性,提升课堂教学效果。然而信息技术在高中数学课堂教学中的应用效果,受到多种因素的综合影响,如:学生需求差异化、传统教学模式惯性思维、对信息技术应用的重视程度不足等。本文立足于宜春市第九中学的实际教学情况,分析信息技术在高中数学课堂应用中存在的问题和成因,并提出一
普通高中物理课程标准充分关注物理学科对提高学生核心素养的独特作用,强调对学生科学思维能力的培养。思维导图是一种能够将思维可视化表达与呈现的工具,运用大脑的联想、发散性思维等方式,思维导图可以有效地提高工作和学习的效率,已被越来越多的人所接受和应用。鉴于此,笔者尝试将思维导图引入高中物理教学,并以一些多媒体技术将物理课堂进行可视化地呈现,希望能够运用基于思维导图的方式,逐步提高学生的科学思维能力,同
随着社会发展与生活水平的逐步提高,超重和肥胖已经成为全球性问题,由肥胖引起的脂肪肝、癌症以及代谢类疾病已经严重威胁人类健康。为了对人体肥胖及其程度进行精准的定量研究和综合分析,人体全身脂肪组织和肝脏图像分割就尤为重要。然而,目前大多数全身脂肪和肝脏图像分割算法存在分割效率较低及分割效果较差的缺陷。因此针对此类分割算法存在的问题,本文以全身脂肪及肝脏磁共振(Magnetic Resonance,MR
用户群中的关系影响用户的情绪,是广泛存在于社交网络情绪传播中的现象,研究用户群的情感倾向有利于从影响情绪传播、情绪感染的几个节点切入,可以帮助调控网络空间的健康发展,也可以帮助减少负面情绪的大规模聚集,减少社会突发性事件的发生。因此,本文从以下几个方面展开研究:第一,针对现有的文本情感倾向性分析中存在着用户群关系逻辑的整体缺位以及被忽略的情况,本文通过提出用户群的社交可供性概念,即可连接性——用户
医学药物名识别是药物相关任务中关系抽取,事件抽取等的基础工作,在生物医学领域具有重要的研究意义。现有的药物识别方法大多是基于有指导的机器学习方法,该方法往往需要大量人工标注的数据作为训练数据,但由于人工标注数据有限,新药层出不穷,从而制约了药物名识别模型的性能。本文针对性地分析了药物名的构成特点,提出了基于字符嵌入和药物名前后缀嵌入的神经网络模型来提高药物名的语义表达,同时利用远程监督、部分标注学
为了追求更高质量的精神生活,选择收听歌曲成为大部分人群释放心理压力和享受舒缓生活的一种方式。现在各种音乐在线网站和手机软件层出不穷,基本能满足用户的心理需求,在音乐个性化推荐部分也能给用户带来惊喜感。搜索引擎和推荐模块的相互融合推动了个性化音乐推荐系统的快速发展,随着推荐算法的逐步改进和优化,推荐的结果可以跟随用户的行为动态地更新,方便用户在信息过载的环境中快速找到符合要求的歌曲。当下有许多关于推