网络文本的实体关系抽取方法研究

来源 :贵州大学 | 被引量 : 0次 | 上传用户:fencer_200
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关系抽取(Relation Extraction)是自然语言处理的一项重要任务,也是知识获取的重要途径,对于分析处理自然语言以及理解世界知识具有重大研究价值。在大数据时代,网络中的信息呈现爆炸式增长,而大部分信息以自然语言文本为载体在网络中存储和传播。近几年微博、微信、Facebook等社交网络的兴起,不仅改变了传统网络的信息传播形式,更改变了人们的生活习惯和社交方式。除此之外,社交平台的数据规模越来越大,传播范围越来越广,通信频率越来越高,对网络监管形成了巨大挑战。如果放任大量涉及反动、黄色、暴力、诈骗等违法信息充斥网络,将严重地影响网络秩序,危害社会的安定和繁荣。综上,网络文本的实体关系抽取研究对于挖掘网络信息资源及建立知识图谱等任务具有巨大的研究价值,对监管网络信息的传播、保障网络空间的秩序具有深远意义。本文以微博数据作为主要的研究对象,研究从社交网络媒体中抽取实体关系的方法。针对微博数据交互性强、语句简短、文字不规范的特点,以及实体对跨语句出现较多的现象,本文从词汇层面和语句层面展开研究。主要的研究内容和创新点包括:(1)提出了一种基于最短依存路径和双向LSTM的单语句实体关系抽取方法。本文将实体关系抽取看作分类问题,采用两个实体之间的最短依存路径来描述单个语句的特征,获取实体之间的关联。使用word2vec嵌入词汇信息、位置信息以及色彩标识。针对自然语言中每个语句成分受到左右两侧语句成分约束的现象,使用了双向LSTM模型,在经典LSTM的基础上设置了正序遗忘门、逆序遗忘门、正序输入门、逆序输入门和输出门,接收来自两侧的信号。在此基础上通过Softmax分类器抽取实体关系。为了解决过拟合问题,采用Dropout策略,随机将LSTM节点的输出置零,同时不阻断信号在这些节点内的传递。单语句的抽取方法主要应用于非交互的场景。如果实体对存在于单个语句内部,可以认为实体关系只受到所在语句的特征影响而与交互场景无关,此时使用单语句抽取方法可以避免引入过多信息而产生噪声信号,能够有效地提高计算性能。(2)提出了一种基于跨语句的依存路径的多语句实体关系抽取方法。针对微博信息互动性强,实体对跨语句出现的现象,从依存树森林中建立相邻语句之间的关联路径,以语句之间的依存路径表示会话的特征。采用语句-词汇两级双向LSTM网络分别抽取词汇特征和语句特征,感知各个语句的连贯性,判断会话的可信度。随后,通过分段卷积神经网络抽取实体关系。多语句实体关系抽取方法主要应用于交互场景,能够根据上下文语句的特征感知会话的连贯性和可信度,从交互场景中抽取跨语句的实体关系。(3)提出了一种基于会话补全策略的微博人际关系抽取方法。微博会话场景的交互双方通常具有特定的人际关系。本文针对微博文字中时常会出现省略会话双方的名字或ID的问题,通过会话补全策略,将信息的发送者和接收者标记为命名实体,并作为语句添加到语句序列中。将人际关系视为实体关系的一个子类,将抽取人际关系作为抽取实体关系的一个子任务。采用多语句关系抽取方法识别人际关系。基于会话的人际关系抽取方法能够从会话场景中提取交互双方的名称,并识别他们之间可能存在的人际关系,同时该方法也能应用于非交互场景下的人际关系抽取。(4)提出了基于百度百科构建知识库的方法,并实现了面向微博的远程监督关系抽取。微博数据的获取、整理和标注产生巨大的人工开销。为了减少模型对训练数据的依赖,本文以百度百科作为外部知识库,开展基于远程监督策略的实体关系抽取。本文从百度词条中获取信息并进行了筛选,并对同义和近义关系进行了整合,建立了远程监督的关系知识库。针对会话语句的关联性,提出了语句-词汇的两级注意力机制。通过语句级别注意力反映会话内各个语句的关联性及会话的可信度,通过词汇级别注意力感知微博文字中对识别关系类型具有提示性的词语。两级注意力的远程监督机制能够感知会话的可信度和词语对关系分类的贡献度,并且能够在缺少训练数据的情况下,借助外部知识库训练模型参数,减小模型对训练数据的依赖,提高模型的实用性。本文主要在新浪微博数据集上进行实验,抽取实体关系和人际关系。实验结果显示出,本文提出的模型和方法对于微博信息中的实体关系和人际关系具有良好的识别能力。准确率、召回率和F1值明显高于其他模型。同时,对基线模型的改进取得了显著的效果,改进后的模型性能有大幅提升,接近传统文本的关系抽取性能。
其他文献
学位
基层群众自治制度是一项独具中国特色的基层治理制度,基层群众自治制度的有效运行是构建共建共治共享的社会治理格局的重要前提和基础。作为基层群众自治制度的核心,基层群众自治权的研究理所当然成为法学界的关注和研究重点。但经过21世纪初短暂的繁荣后,法学界对基层群众自治权的研究渐趋平静,与此同时留下了一系列尚未解决的争议。在诸争议之中,基层群众自治权的性质之争是最为核心和重要的争议。对自治权性质认识的不同也
随着我国老龄化社会的快速到来,咀嚼困难的人群将越来越庞大,高蛋白、低脂肪、易消化、易摄入方便食品的开发已迫在眉睫。鱼肉是老年人最佳蛋白来源之一。然而,目前的鱼肉制品以弹性高、硬度大、耐咀嚼的鱼糜制品为主。由于肌肉蛋白在加热过程中发生变性而凝固,故限制了新型鱼肉蛋白制品(如液态型鱼肉蛋白制品)的研发。前期研究发现外源精氨酸(Arg)能够显著抑制鱼肌原纤维蛋白中最主要蛋白—肌球蛋白的热聚集行为,具备开
超级电容器是一种近年来快速发展的新型储能器件,它兼具传统电容器功率密度大和可充电电池能量密度高的优点。与其他储能设备相比,超级电容器还具有循环寿命长、充放电速率快、库伦效率高等特点,被认为是当前最具应用前景的电化学储能技术之一。生物质是自然界中唯一可再生的含碳资源,具有产量丰富、来源广泛、可降解再生、价格低廉等优势。以生物质为原料制备储能性质优异的超级电容器电极材料不仅可以显著降低生产成本,而且可
串联催化能够使得多步反应在一锅内按顺序依次发生,大大提高了反应效率,节省了时间和能源,还减少了原料的损失,因此一直是催化领域的研究热点之一。然而,由于串联催化反应中一般涉及到多个催化位点,因此有效地分离不同的位点以保证每步反应无干扰地顺利进行,是串联反应的一大难点。此外,由于串联催化反应过程的复杂性,实现对反应过程进一步的调节和控制也是重要目标之一。我们知道,自然界中生物体系经常能够简洁高效地完成
热电发电基于半导体热电材料能够将热能直接转化为电能,具有体积小、重量轻、无需运动件、无污染和无噪音等优点,是一项极具价值的环保节能技术。车辆系统中存在多种可利用热源,通过与热电发电技术结合,可以将车辆系统中的热量回收,转化为电能辅助车辆驱动或为车载用电器供电,提高车辆燃油经济性。但是现有的热电发电系统受制于材料合成研究与实际器件开发的脱节,缺乏系统层面的全局优化,导致能量转换与能量利用效率较低。因
互联网的飞速发展改变了人类生产生活的基本方式,逐步贯通政府、社会、公民之间的封闭疆域,推动了传统公域范畴的拓展、公域与私域的交融以及公域内部结构的变迁。虚拟与现实的交织、政府与社会的互动、社会群体的分化、网络化逻辑的转变、互联网生产关系的塑造、权力(权利)体系的重构等正从宏观和微观层面彰显互联网时代公域变迁的现实图景。受限于管理滞后、结构封闭、工具单一等内在缺陷,传统政府管理模式难以应对庞杂的互联
正常构象朊蛋白(PrPC)错误折叠后成为朊病毒(PrPSc),这个构象转变过程被认为是朊病毒疾病最基本的致病因素,但其潜在的分子机制至今仍不清楚。PrPC是一种利用C端磷脂酰肌醇(Glycosylphosphatidylinositol anchor,GPI anchor)锚定于神经细胞膜“脂筏”区(Lipid raft),并广泛表达的糖蛋白。已知PrPC与细胞膜脂质体有相互作用,该作用能改变Pr
人人享有基本的医疗,是人类美好的愿景。在自然法学派那里,医疗是人与生俱来的权利,关系着“人之为人、人之尊严与人之自由”。在哲理法学派那里,医疗不再是手段,其本身也是目的,然而,如果人们并没有认识到医疗是目的和权利,就会极大地阻碍其实现。因此,医疗是权利吗?是何种权利?正是本文讨论的第一个基础性问题。于是,本文首先对医疗权的法理之本体进行了描述和界定,包括医疗权的概念、构成、内容和性质等。少数民族是
学位