谓词型开放关系抽取技术研究与应用

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:chinalaobi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关系抽取的目标是从非结构化文本中自动获取实体和实体之间的关系,是信息抽取的重要子任务。谓词型开放关系是指基于谓词进行关联的实体间关系,这类关系在句法上依靠谓词进行实现,在语义类别上没有关系种类的限制,是一类广泛使用的关系表现形式。因此对于谓词型开放关系的抽取具有研究和应用价值。针对谓词型开放关系抽取任务的特点,本文提出了一个两阶段方法,第一阶段是谓词型开放关系识别,即判断给定句子是否包含以谓词为中心词的关系;第二阶段是关系抽取,即从已经判断为包含谓词型开放关系的句子中抽取出该关系三元组。具体的工作成果如下。本文提出了一种使用动态池化帧卷积神经网络的谓词型开放关系识别模型。模型使用动态池化帧卷积技术,有利于自动学习和利用句子中丰富的结构特征;模型使用词向量表示作为输入,利于缓解数据稀疏问题。实验结果表明,本文提出的卷积神经网络模型的性能优于传统浅层分类器和树核特征的方法。本文还进一步考察了多种特征对模型性能的影响,实验结果表明,词性和位置特征的使用能有效提高模型性能。本文设计了一套适用于谓词型开放关系抽取任务的规则归纳方法。并基于该方法归纳得到7条关系抽取规则。针对一个句子可能被多条规则同时匹配而造成了抽取歧义的问题,本文提出了基于优先级的歧义消解方案。实验结果表明,本文设计的这些方法获得了较好的关系抽取性能。通过级联组合上述谓词型开放关系识别技术和抽取技术,本文实现了一个完整的谓词型开放关系抽取模块,并将其用于两个应用系统中。其一是谓词型开放关系抽取系统:系统的目标是从用户提供的文本片段中自动提取出其中包含的所有谓词型开放关系;其二是过程数据库系统:系统根据用户查询的人物名称,从网络文本中搜索挖掘与该查询人物存在关系的其他人物,把获得的关系三元组返回给用户并存储到知识数据库中。
其他文献
根据国内外对于掺加橡胶后的水泥混凝土进行的相关研究结果就可以知道,在添加橡胶之后,水泥混凝土的韧性有所提升,而强度则显著降低。此外,也有不少专家学者们都针对掺加的橡胶展开了改性操作,以期达到提高橡胶水泥混凝土工作性的效果。本文采用出不同的预处理方法,主要包括有不处理、水预处理、NaOH预处理、硅灰预处理、同样的60目的橡胶粉粒径、不同橡胶粉掺量,具体是5%、10%、15%、20%的橡胶水泥混凝土,
条码识别技术是现代物联网技术中用于连接物理对象与数字信息的重要桥梁之一,被广泛应用于物品标识、电子支付、电子票据、社交媒体、广告营销、资产跟踪等领域。QR码作为其
随着社会科学的进一步发展,复杂网络中涌现出的一些宏观现象越来越受到学者们的关注。而其中最受关注现象之一的就是网络中观点的演化过程以及涌现机理。而通过建模的方法来
随着科技的高速发展,电子产品越来越受到人们的青睐。数码相机、智能手机及摄像机等也不例外。这些电子产品成为人们生活、工作及娱乐必不可少的组成部分。然而人们在拍摄视
陕西地处中国内陆腹地,地理形貌南北长而东西伸缩,宛如一把金钥匙置于北纬30°这一文化发祥带上。当中国远古医药文明史拉开序幕之时,陕西率先在医药文化的大平台上,演绎了一
会议
知识经济时代,科技创新已成为社会发展的第一驱动力。大量学者展开了对科学与技术创新的研究热潮。然而,目前大量的研究都集中于定性分析。本研究对科技创新进行定量的研究,
我国地域广阔,所跨纬度广,海岸线长,每天都有海量的风速相关数据产生,对这些大量的历史风速相关数据进行处理成为非常重要的环节之一。气象预测中风速预测是必不可少的一项,
随着LTE(LongTermEvolution)时代的到来,围绕LTE语音,VoLTE(Voice over LTE)凭借自身的技术优势成为了 LTE语音目标解决方案。同时,VoLTE凭借与 RCS(Rich Communication Serv
本文调研了当前广泛使用的多种文本表示方法,尤其是现在热门的词向量方法,发现大多数论文都围绕着词向量表示的训练过程,提高最终评测指标展开,其特性的讨论不多。因此本文着
分析防焦剂CTP和邻苯二甲酰亚胺在质谱中的碎裂机理,建立通过GC-MS鉴定硫化胶和混炼胶中的防焦剂CTP的方法,并通过已知配方胶得以验证。结果表明,该方法灵敏度和准确性较高,