基于深度学习的中文文本信息抽取研究

来源 :东华大学 | 被引量 : 0次 | 上传用户:shayneinfo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息抽取旨在从文本中提取出特定的事实信息,用于构造结构化数据,作为自然语言处理主要的研究方向之一,包括命名实体识别、关系抽取和事件抽取三个子任务。目前,基于深度学习的信息抽取已经取得了一些研究成果。但是,现有的中文信息抽取方法大都基于词向量表示进行模型的改进,而忽略了文本表示的重要性。同时,以词向量作输入的模型高度依赖于分词工具的质量且中文还存在多义性的问题。为此,本文从语言学角度分析了中文文本的向量表示,基于深度学习的方法对中文文本的关系抽取和事件抽取进行研究,提出了一个实体关系抽取模型和一个紧急事件抽取模型。主要研究工作如下:(1)针对汉语的复杂结构,我们研究了中文语义的字、词向量表示和一些能表征中文句法结构的向量表示,说明了每个特征向量对中文文本表示的作用。同时,介绍了一个新的外部语言知识实体义项,将其应用到关系抽取任务中,为每个中文句子中标记的实体提供支撑信息以降低多义性的干扰。提出了实体义项的获取方法,并通过对比实验确定将余弦相似度算法用于选择精确的实体义项,将其作为额外的特征向量,添加到中文文本表示中。(2)针对中文分词错误和多义性的问题,我们以字向量表示和实体义项表示构成输入三元组,在此基础上提出了一个字、词、义项多种特征融合的中文实体关系抽取模型。分别构造了四个子模型:基于双向长短时记忆网络附加注意力机制(Att-BLSTM)捕获字符级特征,基于Att-BLSTM添加卷积神经网络(C-Att-BLSTM)捕获词级特征,基于Att-BLSTM捕获实体e1和实体e2义项特征。通过特征向量级联和线性加权求和的方式融合这三种不同级别的特征,得到的结果输入到softmax中进行关系分类。构建的基于实体义项的字、词多特征融合模型在公开的San Wen数据集上获得了最优性能,同时进行多组消融实验证明了每个特征的有效性以及多特征融合的优越性。(3)针对紧急事件的抽取有助于提高人们对危险环境变化做出反应的能力,具有较高的研究价值。因此,我们以字向量表示和词向量表示作输入,在此基础上提出了一个网格长短时记忆网络-条件随机场(Lattice LSTM-CRF)中文紧急事件抽取模型。对XML格式的中文紧急事件报道进行预处理得到事件句子,用BIO标注模式处理事件句子得到字符序列和实际标签序列。通过Word2Vec对事件句子进行字向量嵌入和词向量嵌入,在字向量输入的细胞元上构造Lattice LSTM添加存在的词向量信息,而后使用CRF捕获相邻字符间的依赖性,最后输出标签序列。在公开的CEC语料上通过实验证明该模型整体性能优于其他最新方法,并进一步研究了外部语义特征的影响,事实证明我们的模型基于简单字、词向量表示即可获得最佳结果。
其他文献
多智能体系统问题中一个主要的研究方向就是一致性控制问题。本文主要关注的是多智能体系统的采样一致性控制问题和定时一致性控制问题。实际应用中,由于计算机控制系统的广泛运用,这使得采样控制策略逐渐成为工业生产中的一种重要控制手段,并且在很大程度上取代了传统的机械式控制手段,因此本文首先对多智能体系统的采样一致控制做出了研究。其次,考虑到定时控制策略在估计系统稳定时间上的优越性,即稳定时间与初始状态无关,
21世纪以来,服装行业的竞争日趋激烈,以计划驱动的标准化、规模化的生产模式已不能满足消费者多样化需求,服装企业正不断向小批量订单式生产转型以适应需求变化、缩短产品生命周期、提升库存周转率,这对服装制造业生产管理水平提出更高要求。目前企业在进行服装大规模个性化定制时,面临交期不确定、订单响应速度不及时、车间柔性化程度不高等问题,在生产过程中瓶颈排除不及时,生产进度难以控制导致无法准时完成订单任务,亟
乙酰乙酸基团是一种有机合成中常用的高反应活性基团。它可以和多种常见的官能团进行反应,比如烯胺化反应、迈克尔加成、多组分反应、酶促聚合、金属络合等,从而得到不同的功能性产物。纤维素作为分布最广泛、应用最悠久的可再生天然高分子,具有极高的利用价值和发展前景。通过酯化反应将乙酰乙酸基团接枝到纤维素骨架上,再进行二次衍生,可以轻易地实现对纤维素的各种改性,进一步拓展纤维素的应用领域。本论文分别使用生物酶催
在当今信息化时代,如何快速并且准确地从互联网海量的信息资源中获取自己所需要的信息显得十分重要,于是个性化推荐系统应运而生。电子商务是近年来比较火热的一个行业,个性化推荐系统在电商平台上的应用被广泛关注。大多数推荐算法的研究都依赖于显式评分数据,然而电商平台中丰富的隐式反馈数据信息蕴藏着巨大的推荐价值,近年来,面向隐式反馈的推荐算法研究也越来越热门,其中有学者提出了一种个性化推荐模型:贝叶斯个性化排
随着网络时代的快速发展,网民们可以在不同的生活网站上针对各种各样的商品发表自己独特的评论,也可以在社交网络中针对某一社会现象提出自己的见解。用户发表的文本评论信息中包含着很多带有情感倾向的语句,这些语句经过整理与研究分析后,对商品和社会等相关领域具有很高的研究价值。因此文本情感分析作为自然语言处理研究的子领域,在过去几年中受到了广泛的关注。方面级别的情感分类是情感分析中的一项细粒度的工作,与传统情
深度学习作为人工智能中的关键技术,已成功用于解决各种2D视觉问题,基于深度学习的三维物体识别技术在自动驾驶和机器人等许多3D视觉领域的广泛应用,也逐渐引起了越来越多的关注。通过各种先进的3D扫描仪可以直接获取到日常生活场景中三维物体的表面点云,但由于点云的无序结构,使得神经网络处理点云时面临着独特的挑战。近年来,研究者们提出将点云转化成其他表示形式来解决该领域的不同问题,如渲染成多视角二维图像或者
图像修复是指利用待修复图像已知部位的信息按照某种规则来填充修补未知部位,达到人眼无法分辨图像是否被修复过的效果。传统的图像修复方法,例如基于纹理或结构的方法,在修复大面积区域破损的图像时效果不佳。如何保证修复后的图像不仅在语义和结构上连贯,同时还原缺失区域的细节和纹理成了图像修复领域的主要研究热点。自从生成对抗网络出现以后,由于其强大的生成和特征学习能力被广泛应用于图像修复任务。传统的生成对抗网络
由于单一的成像方式存在固有的缺陷和局限性,临床上常把多种成像技术相结合用于肿瘤的精准诊断。作为应用最广泛的成像技术之一,计算机断层扫描(CT)能够以高空间分辨率和高密度分辨率呈现有价值的解剖结构和功能信息,磁共振(MR)成像对软组织具有高灵敏度和高分辨率。因此,开发肿瘤靶向的CT/MR双模态纳米造影剂可以结合两者的优势,显著提高肿瘤诊断的敏感度和准确性。核-壳结构树状大分子(CSTDs)是一种以聚
羊毛角蛋白是典型的可再生生物质资源,废弃羊毛中角蛋白资源的开发是值得研究者关注的话题。低共熔溶剂(DES)作为一种新型溶剂,在蛋白质纤维的溶解领域展现出较好的潜能,并且符合绿色化学的要求。再生角蛋白可作为碳和氮的提供源,通过与聚合物的复合、碳化等方式制成超级电容器的碳电极材料。角蛋白的再生及电化学应用对废弃生物资源的利用、生态环境的保护以及新型储能器件的开发都具有重要意义。因此,本文合成了适用于羊
在消防员执行火场救援任务或日常训练中,需穿着消防服抵御外界环境危害,主要包括火焰、热辐射、磨损等。消防服通常由外层、防水透汽层、隔热层三层阻燃织物构成,其性能好坏直接关系到消防员的生命安全。然而,在消防服使用的过程中,会遭遇来自作业环境和产品维护条件等多种因素的作用,这些外界因素的作用均会导致消防服材料出现不同程度的老化,从而影响织物的性能。各种标准已明确规定了消防服性能的最低要求,但对于消防服能